Hace un par de meses leí que OpenAI estaba raspando de forma agresiva la web para obtener datos para alimentar a su IA, y me vino la idea de retomar un proyecto que tenía como hobby, analizar los datos de menéame, con un raspado elaborado en Python en Jupyter Notebooks con la librería Beautiful soup y un análisis en Power BI, herramientas que escogí porque eran baratas y lo único que gastaba es tiempo.
No ha sido hasta todo el revuelo que se ha levantado con la venta, multipropiedad, tokenización sin tokens, cuentaparticipación o como quieran llamarlo que me decidí a hacer públicos algunos datos de mis análisis.
El análisis es únicamente de las portadas, por lo cual el nivel de colaboración podría cambiar si se tienen en cuenta todos los envíos, aún así como es mi primera aportación en este aspecto he querido dar una visión general y, si veo que genera interés, iré sacando análisis más detallados de forma mensual.
Antes de exponer quiero decir que estos datos están visibles para cualquiera consultando la página web, lo único que hice fue recopilarlos con un programa de forma automática.
También dejo para los admins o quien quiera coger el guante, la posibilidad de configurar un acceso a estas estadísticas y métricas en la plataforma que de seguro podrían resultan muy interesantes para los diversos medios digitales y de esta manera rascar dinero de cuentas premium.
En el primer bloque de análisis, contabilicé las interacciones de los artículos de portada, en los que 1416 noticias generaron un total de casi 500K de meneos y más 2,5kk de clics. De la misma forma, el número de comentarios generados en dichas noticias alcanzó casi los 100k. Me abstengo de usar medias porque creo que desdibujan mucho una imagen detallada.
No es una mala estadística si lo miramos en términos de interacción, pero está bastante lejos de los años dorados de la plataforma.
Medios en portada
La variedad de medios que han alcanzado portada son 396, si bien un 38,9% (552 portadas) se engloban dentro de 10 medios, que alcanzan un mínimo de 24 portadas, los medios que tienen el mismo valor han sido posicionados siguiendo orden alfabético, por lo que algún medio con un valor igual ha quedado descartado.
Para ver como se reparten el pastel estos diez medios, los he reflejado en un diagrama de tarta excluyendo los otros medios que no se posición en los diez primeros.
En este aspecto, como medida para evitar la predominancia de medios, se podría cambiar el algoritmo para que el karma generado por noticias que ya han alcanzado múltiples portadas, fuera menor, por lo que necesitarían más votos para ponerse en portada, una especie de juego de oferta y demanda, con el valor actual como el mínimo para un medio.
Usuarios que hacen portada
Los usuarios que hacen portada son menos, 241, aunque hay más que participan y septiembre no es un mes especialmente activo en este aspecto. En este caso, un 37,7% de los envíos que hacen portada corresponden a 10 usuarios que destacan en su actividad.
Estos usuarios presentan una gran concentración de los medios que más portadas han conseguido, correspondiendo un total de 216 envíos de los diez primeros (Que recordemos que sumaban 552 portadas), por tanto el 39% de sus portadas son de estos diez medios que tienen gran presencia. La persona que más portadas tiene en los 10 medios más meneados es Delay, con un total de 45 de sus 75 portadas distribuidas en cuatro medios, mientras que la menor representación la tiene VerdaderoFalso, con solo 4 de sus 31 portadas en los diez medios más representados en portada.
Votos
En el aspecto de los votos, las noticias se han votado más de medio millón de veces, siendo aproximadamente un tercio de los votos de forma anónima, por lo tanto generados por usuarios que no estaban logueados en la plataforma.
Los ratios de los votos emitidos indican un enfoque bastante positivo, con apenas un 1,16% de votos negativos.
Temáticas
En esto hay una menor variedad, actualidad copa más del 50% de las portadas, con un total de 783 noticias, seguido de cultura, política, ocio y tecnología por ese orden. Un total de 1351 envíos se encuentran en las 10 comunidades más representadas en portada.
Entre las comunidades con menos representación en portada están algunas que solo han logrado una portada, como mitología, historia o numismática.
Portadas
He querido también tener un vistazo a las portadas que más interacciones han generado, aquí hay una serie de medios que no aparecen reflejados en los 10 mejores, quizás el valor más interesante es el de la noticia de xataka, que generó una gran cantidad de clics que no suele verse normalmente en las noticias de portada, que normalmente fluctúan entre los 3k y los 10k de clics
La noticia de Garamendi fue la que generó más comentarios, una cifra que entre los diez medios más presentes ronda entre los 150 y 400 comentarios.
En cuanto al Karma, la noticia de las siete maravillas es la que mas karma ha conseguido, o sea que ha sido votada por más usuarios con karma alto, el resto de noticias del top 10 obtuvieron una cantidad entre 528 y 675.
Noticias más destacadas por medio
Por otra parte, para ver cuales han sido las noticias mejor representadas en este ranking de los 3 medios que abarcan casi un 20% de las portadas os dejo a continuación.
En el caso de El diario, las noticias mejor posicionadas han sido:
En cuanto a Youtube:
En cuanto a X:
Podía haber desarrollado un poco más, pero creo que esto puede dar una visión bastante acertada de la actividad en la plataforma. Si veo que la publicación genera interés podría considerar ampliar el análisis a las noticias que no hacen portada y tener una vista algo más completa de todo.
Comentarios
se podría cambiar el algoritmo para que el karma generado por noticias que ya han alcanzado múltiples portadas, fuera menor, por lo que necesitarían más votos para ponerse en portada,
Buena idea. Incluso para los usuarios, algo de "oye, ya has tenido 5 portadas hoy, vete a dar un paseo"
Aunque tocar el algoritmo es una ciencia arcana ya olvidada ...
#0 ¡Bravo!
#1 Comento por aquí lo noteado antes:
Sería fácil de moderar ED, YT y X, calibrando solo para esas RRSS el coeficiente actual que limita el número de envíos de una misma fuente en T tiempo.
#2 Casi el 60% de menéame es eldiario.es y YouTube + X
De esa gran parte de cuota, se la reparten a partes iguales eldiario.es y las RRSS YouTube+X
#13 no, estás leyendo mal, casi el 60 por ciento de los diez medios que más portadas sacan, en el trio de medios rondan el 30%
#15 ¿He leído mal?
28,8% + 28,8% (10,5% + 18,3%) = 57,6%, que he redondeado al 60% en #13 de ese Top10, claro.
Casualmente, YT+X suman igual que eldiario.es.
#20 El top 10 solo son el 38% de los envios en total, el 60% es de ese 38%.
#24 Exacto
#24 Tal vez en unos meses nos veamos todos en Eldiario.es y Meneame se hunda con los 500. No cambiaría mucho la cosa...
#43 Sí, lo entendí perfectamente.
Di por sentado que si los datos los saco del top10, el 100% corresponde a ese top10, no entiendo porqué se confunde con otro "todo" o con el "todo" total de todo, cuando no es asi, pero igualmente en #15 hago el inciso (para mi, evidente) aclaratorio.
#13 Y eso que en X faltan por contabilizar (supongo) los sitios webs que ciertos usuarios usan para saltarse las restricciones que pone menéame de número de envíos al día del mismo sitio. Me refiero a sitios como threadnavigator, threadreaderapp, unrollow...
Se me ha ocurrido contar los de threadnavigator, y por ejemplo en agosto hubo 21 portadas sólo de ahí, que estaría a puntito de entrar en el top 10 de septiembre. Miro los de agosto en vez de septiembre porque el buscador va fatal y no encuentra nada de las últimas 6 semanas, y yo no soy tan listo como #0 para contarlos con su método automático.
#32 Sí, habría que agrupar las RRSS de X de esa forma, igual que las url de YouTube versión móvil o no, mismos dominios pero con acortadores, etc.
#13 No, es el 60% del top10, no de meneame, esos tres medios representan el 20% de meneame, más o menos, que ya es bastante
#2 Suscripción Premium para medios:
"Si pagas, te subimos el límite"
Idea que puede aportar dineros al proyectoimparsifal
#30 más bien la idea es que los medios puedan consultar estadísticas como las que doy y algunas mas completas, para ver el impacto que tienen las noticias de sus medios en meneame a través de una interfaz centralizada.
#46 Sí, esa es otra idea (estadísticas personalizadas) pero ahí dejé esta otra idea (límite ampliable, bajando el actual primero para calibrar mejor y si pagan, subirselo como está ahora) al nuevo CEOimparsifal (igual incluye las dos ideas en una propuesta de suscripción profesional, quien sabe, si así lo decide el hipotético y futuro Consejo Consultivo).
#1 ya veo a los Trolls subiendo noticias irrelevantes de algún medio para que las importantes no suban y mierdas así, cuidado con tocar el algoritmo
#1 Totalmente de acuerdo y también penalizar los votos coordinados en bloque de Montains, Delay y Miguel de Unamuno para llenar todo de tweets, noticias de público o el diario.es
Lo que no hay algoritmo que corrija es lo de que la gente venga aquí a intentar subir noticias sin mayor intención que compartir cosas que le parecen interesantes, ya sean de política, ciencia, papiroflexia o yoga acrobático desnudo, y se enfrente al implacable filtro de putinejos, otanejos o gilipollejos de turno.
Que no dudan en quejarse de votos coordinados en masa, pero luego hacen lo mismo con una falta de vergüenza que da entre pena y pereza.
A mi me lo han contado, que yo no paso por los envíos si puedo evitarlo.
#5 El problema es que funcione siendo la portada lo principal y lo demás secundario. Yo creo que si fuera más como reddit pero con pestaña de destacados esto iria mejor para todos para evitar que los votos coordinados o que personalidades con mucho karma acumulado tiren noticias sin más.
personalidades con mucho karma acumulado tiren noticias sin más
#31 Llevo años esperando para ver un meneo "tirado" y que sea relevante, por "personalidades con mucho karma".
¿Tienes algún enlace? La lista entera está aquí y no encuentro ninguno:
https://www.meneame.net/queue?meta=_discarded
Respuesta para 16
Que confundas YouTube, del que se mandan muchos videos musicales y algunos videos divulgativos con "fuentes de información" con intención de manipular, lo explica todo.
#28 son datos visibles y no estoy haciendo uso indebido
https://datstrats.com/blog/scraping-es-legal-espana/
Soy popular!
#7 se dice "facha"
#7 Dedicada a tu persona
#63
#0 Mi felicitación por el trabajo y la diversidad de análisis que nos ofreces, te animo a que periódicamente lo repitas, incluso con otros datos, como cuántos envíos de Twitter por ejemplo son un respaldo de medios escritos que tratan la misma noticia, ó cuanto es el uso y los resultados del buscador.
#39 para lo ultimo el buscador tendría que funcionar
Lo que si puedo hacer es clasificar las noticias en función de su titular haciendo un proceso de de vectorización para capturar significados, relaciones y contextos semánticos (embedding), o hacer un análisis de sentimientos para ver si predomina un enfoque positivo, negativo o neutro en comentarios, la verdad es que se pueden hacer muchas cosas.
🏆
El Podio de meneantes en septiembre 2024 queda tal que:
1º ~Hombre_de_Estado
2º ~Blodhemn
3º ~Delay
#4
- 1er Premio 500€
- 2º puesto 250€
- 3er puesto 150€
Enhorabuena a los premiados! Hasta el reparto del mes que viene!
#4 ¿No estaba "prohibido" hacer listas de usuarios?
#52 Define lista y Define propósito de dicha lista.
Ambas cosas, a valorar, dan como resultado aplicar normas de sanción o no.
Además, se enlaza a los usuarios sin referencias, para evitar molestias innecesarias de notificaciones, y pueda emitir una queja justificada dicho nick.
#55 Entonces entiendo que la respuesta a #52 es que eso no es una lista punible, ¿cierto?
#4 ban day?
hay una cosa que no entiendo, lo de noticias con mas clicks, es por IP de usuario unica o aunque sea la misma IP? es que viendo las listas parece que Menéame solo tenga 2000 o 3000 usuarios únicos, y solo 100 o 200 usuarios muy habituales, los que menean todo, los que ahcen portada, los karma 20.
Es q con tan pocos usuarios, y si encima son de los que bloquean la publicidad que aqui tiene pinta, no me extraña que la web esta tenga problema para hacer dinero. Y si encima solo se ven casi siempre los mismos usuarios y las mismas webs y los misos temas el que venga de fuera va a ver esto como un club cerrado y se va a largar, o a lo mejor es que estan mal configuados los subs y por eso siempre se ven los mismos.
#3 esto es solo una vista a portada, en las pendientes hay muchos más usuarios, en cuanto a las interacciones, de hecho las interacciones en las portadas eran iguales o menores en 2014, tienes que pensar que una noticia como 1000 meneos lo mismo son un gran porcentaje de meneos que solo han hecho a esa noticia, por ejemplo en 2020 te digo meneos y clics de portadas
287 meneos, 703 clics
365 meneos, 3542 clics
710 meneos,12623 clics
Como ves la diferencia no es tan significativa
#6 En el ratio meneoclics se suele cumplir la regla del 20/80
#9 si, y en voto anónimo/voto positivo un 70/30
#6 Pero es que algo tiene que haber mal con los subs, los de ciencia cultura, aviones, bandas sonores, siempre llegan a portada los meneos de las mismas personas, que es lo normal porque supongo que son las personas que usan esos subs. Tambine es verdad que muchos subs estan muertos, pero se ven pocas noticias de otros subs en portada, y por eso los usuarios de esos subs tendran pocas portadas y apenas se les vera´.
O a lo mejor es que esto es muy diferente a reddit y yo la estoy cagando.
#19 En el momento en que consigues un karma de 90-100 pasa a la lista de pendientes, donde mucha gente interactúa basándose en en número de clics y meneos que ya tiene la noticia, meneante llama a meneante. Cuando alcanzan portada esto se dispara, generando que se disparen los clics y suba el karma.
Este articulo no ha salido listado en pendientes hasta alcanzar karma 89 (en artículos entras fácil a pendientes), pero puedes ver que muchos artículos no llegan ni a eso, y solo los ven en su fase temprana los suscritos. De ese Karma 89 ha pasado ya casi a 300.
#22 Gracias, es que yo con el sistema de karma me pierdo
#23 Yo empecé con esta tontería para saber como funciona y tengo una idea aproximada, pero sigue siendo la receta secreta de la coca cola de Menéame
#22 Yo creo que he visto portadas con menos de 89.
#19 Es que hay unos subs de mierdad con el de begoña, el de alvise, el de 7291, madrileame, etc. mientras que otros como los de rol o videojuegos pasan desapercibidos y encima la portada del otro día sobre cómo fue la publicación de Vampiro la mascarada ni siquiera estuvo en el sub.
Menéame solo tenga 2000 o 3000 usuarios únicos, y solo 100 o 200 usuarios muy habituales, los que menean todo, los que ahcen portada, los karma 20.
#3 Actualmente más o menos es así, sí.
Unos 9.000 de media (14000+4000/2) únicos (por IP) y unos casi 400 habituales, de los cuales, 30 muy habituales y de ellos 3 copan el 50% de la portada.
#8 pues Con esos numeros ahora entiendo lo de Varsavsky y traer a 500 fachas organizados. Destrozan el sitio, harian un telegran de Alvise, palestinos terroristas, que malo es el Perro y que bueno es Milei, y alguna criptoestafa para sacar pasta. Llenar menéame de subnormales que son mas fáciles de engañar.
#17 " Llenar menéame de subnormales que son mas fáciles de engañar. "
Esa es la situación actual, sí.
#3 En su día tenía MNM en whitelist, pero desde que empezaron a suceder moderaciones y strikes de dudosa "legalidad" y viendo el sesgo que tomaba moderación, decidí metele el adblock por todo lo alto, ni banners ni pepes en vinagre.
#56 se puede, y lo he hecho a nivel personal por curiosidad, pero publicar esos datos es lanzar acusaciones que a lo mejor no son verdad y señalar a usuarios, básicamente se hace un embbeding, que es vectorizar el texto, en un proceso similar a como lo digiere chatgpt, luego determinar una distancia y hacer un clustering jerárquico, sobre la misma rama del clustering se quedan los textos con similitudes.
#61 No he entendido ni palabra, parece poesía hindú del siglo XIII. Pero agradezco tu trabajo.
#0 Aquí se respeta el Algoritmo, maldito hereje.
#35 a mí me dijeron que el algoritmo eramos nosotros
Yo solo lo lamento por la IA que le hagan raspar datos de Menéame, habrá que programar otra IA
argentinapsicóloga para tratar a la IA raspadora.!!#41 Ahora entiendo por que las últimas versiones de chatGPT parecen subnormales perdidas
#56 está todo lo libre que tú puedes ver. #0 solo abre un navegador y va clickando en los envíos. Solo que lo hace de forma automática
Me falta lo más importante. Para destapar una mafia haría falta un análisis de grafos.
-Usuarios votan siempre positivo a los mismos usuarios
-Usuarios que votan las mismas noticias siempre
-Usuarioa que votan negativo a las mismas noticias etc
Un porcentaje de afinidad vamos.
Luego sería interesante analizar gente que tiene multicuentas
De cualquier manera muy buen trabajo #0
#54 En una ocasión publicaron algo así. Me impactó bastante que fueran capaces de evaluar patrones de escritura para identificar clones. Pero no he logrado volver a encontrar esa publicación. Si alguien sabe a qué publicación me refiero y puede proporcionarme el enlace, le agradecería ...
Como sea, aunque esta publicación no llegue a un análisis tan profundo me parece bastante interesante. Gracias.
Por otra parte me parece bastante preocupante que meneame tenga "tan libre" todo el histórico de publicaciones y comentarios de todos los usuarios. Sobre todo sabiendo que por aquí pupulan extremistas de todo tipo, algunos muy dados a etiquetar a otros usuarios de ideología contraria y/o hacer listas negras.
¿Quieres karma 20? Muy fácil, ponte a subir mierdas de Ayuso, de VOX o Palestina, que el 30%-50% se va a publicar. Para muestra un botón :
https://old.meneame.net/search?q=ayuso&w=links&p=&s=&h=&o=date&u=nereira
Si las noticias escasean, ponte a mirar en X. Seguro que hay algún progre que ha dicho algo de Ayuso o palestina o el monotema de la semana de Meneame. Se publicará igualmente.
Junta 3 o 4 clones con karma 20 y a tumbar todo lo que se salga del puto circlejerk monotemático de pollas y manos en el que se ha convertido Meneame. Que pena de sitio
#0 Disculpa mi ignorancia. ¿Qué es raspar una web?
#12 el scraping o raspado es un proceso en el que sacas todos los datos visibles de la página a través de un automatismo hecho con código, técnicamente ahora podría hacer este post todos los meses con dos clics
#14 Gracias!
#14 ¿No tienes que notificar de ello al sitio sobre el que lo haces?
Que la fuente de informacion de Meneame sea sobre todo X y youtube, lo explica todo.
#16 No.
La primera es el panfleto eldiario.es Con un porcentaje similar a las otras dos juntas.
La cuarta es el otro panfleto, publico.es
Poner a Youtube o X como "medios" a la par que los otros destroza totalmente el resultado. Muchos de esos enlaces a youtube o X son, por ejemplo, videos de Público, ElPais y otros con los cual restas puntuación a la fuente para dársela al medio que la transmite. También complica ver de qué "ideología" son los medios visitados por los meneantes pues ver el tuiter de Moreno Gallo no es sentir predilección por (el gilipollas de) Elon Musk. No veo claro este punto.
Gracias #0. Con los datos que has puesto, en particular la lista de los medios más publicados en portada, sabiendo todos como sabemos las tendencias de algunos de ellos (otros es imposible generalizar, como X), que después digan que menéame es un nido de fachas es para reírse.
Un análisis de los que hace tiempo no se veían por acá, pero con datos alarmantes que nadie va a tener en cuenta y que perjudican seriamente al funcionamiento y fin de la web.
Partamos de la base que hoy los generadores de contenido están en las redes sociales y no en blogs como antes, esto nos manda a ver las noticias en X, Tik TOK o youtube entre otras plataformas pero, paradojicamente, solo 2 aparecen en el listado (aunque bien arriba) que son X y youtube.
Entonces Menéame no estaría sirviendo hoy al fin con el que fue creada que es la difusión de contenido para ser lisa y llanamente un repetidor de contenido. Esto aleja a los que necesitan realmente difusión, algunos de ellos realmente se curran lo que hacen y les da el negocio (si es que existe alguno -que si-) a los grandes medios de comunicación.
Y acá podemos empezar a ver porqué la web baja las visitas, baja las interacciones o la calidad en todos los aspectos, porque se olvidó de su escencia.
A ver, voy a proponer unas cuantas cosas que no van a gustar a mucha gente, pero probablemente sea lo más eficiente para que esta página sea rentable a la par que usable:
Por un lado limitar el poder enviar comentarios o noticias a usuarios con el bloqueo de publicidad activado.
Por otro establecer 3 modalidades de ususarios, el tier1 que serían los usuarios registrados con correo, con capacidad única de comentar (si no tienen adblock), no tienen capacidad de votar noticias ni poner negativos.
Tier 2, usuarios registrados con confirmación de número de teléfono. Estos tendrían unos 10 tokens para envíar 10 noticias al mes. Igualmente ya tendrían la capacidad de votar y poner negativos. Así te evitas la guarrería de cuentas clon.
Tier 3, o usuario donator. Este ya tendría por una módica cuota mensual la eliminación de la publicidad, además de otras ventajas como puede ser tener un número mayor de tokens para enviar noticias.
Con este sistema las mafias seguirán existiendo, pero se verá una mayor variedad de noticias por parte de mas usuarios. Hay una mafia con los usuarios bastante interesante. Llama la atención que 247 usuarios tenga la capacidad de afectar la portada a 497000 meneos, y no se cuantifica los usuarios activos reales que hay en la plataforma, tanto registrados como anónimos, que seguramente será una cifra bastante mayor.
#62 Depende de lo invasiva que sea la publicidad.
No pone cuanto cobran esos usuarios y quien les paga?
#11 pa lo que hay que aguantar... No ta pagao.