Raj Vir, un chico que todavía está en el instituto, ha sido capaz de crear un algoritmo que predice, con un 63% de acierto, qué historias alcanzarán la portada de Digg. Si uno visita habitualmente esta web, sabe que hay unas temáticas que día tras día se repiten en portada, pero lo hecho por Vir es muy interesante de todas formas.
If (usuario IN OR usuario.karma>15) probabilidad += 30%;
else probabilidad -= 10%;
If (texto CONTIENE probabilidad += 30%;
If (url IN ) probabilidad += 20%;
else If (url IN ) probabilidad -= 60%;
#24:
Noticias que llegaran a portada:
El Barça gana la liga
La SGAE condenada por grabar con cámara oculta
2011: El año de linux
Apple se hunde en bolsa tras la dimisión de Steve Jobs
Duras criticas a las palabras de José Blanco
Rajoy no destituye a los últimos imputados del PP
Disponible para descarga Ubuntu 10.10
Entrevista a Ricardo Galli
Oracle empezara a cobrar por openoffice.org
Lanzamiento de Firefox 4
Competencia sanciona a Movistar Vodafone y Orange
Zapatero destituye a Sinde en su ultima reforma de gabinete
Aznar vuelve a meter a España en un conflicto diplomatico
Viñeta de hoy de Forges [GCS]
Creo que en menéame seria algo así.
#4:
Una cosa me queda clara: los algoritmos están sobrevalorados como término.
Un algoritmo no es más que el diseño de los pasos necesarios para llegar a un fin. Sólo hace falta tener sentido común, y ser observador. Un simple diagrama de flujos.
Lo que ha hecho este chaval tiene mérito si no sabe informática y ha logrado compilar el código de su algoritmo, pero lo que tiene más mérito es que se haya tragado tanta mierda para hacer el esquema, para algo tan inútil como puede ser si llega a portada o no una noticia... Eso lo hacen hasta las pitonisas de la tele por la noche.
Las noticias se ponen para compartirlas y que gente pueda comentarlas, coñe, no para subir falsamente el ego con el karma de una página web...
#14:
#12 Eso si consideras que la mitad de las noticias son publicadas, pero seguramente solo un +-5% sean publicadas, por lo que el acierto es aceptable.
#10 Implementalo predice con un 90%.
La extensión de la función "descartada" es muy similar, si se cambia alguna palabra y sobre todo buscar/reemplazar + por - y viceversa.
Una cosa me queda clara: los algoritmos están sobrevalorados como término.
Un algoritmo no es más que el diseño de los pasos necesarios para llegar a un fin. Sólo hace falta tener sentido común, y ser observador. Un simple diagrama de flujos.
Lo que ha hecho este chaval tiene mérito si no sabe informática y ha logrado compilar el código de su algoritmo, pero lo que tiene más mérito es que se haya tragado tanta mierda para hacer el esquema, para algo tan inútil como puede ser si llega a portada o no una noticia... Eso lo hacen hasta las pitonisas de la tele por la noche.
Las noticias se ponen para compartirlas y que gente pueda comentarlas, coñe, no para subir falsamente el ego con el karma de una página web...
Noticias que llegaran a portada:
El Barça gana la liga
La SGAE condenada por grabar con cámara oculta
2011: El año de linux
Apple se hunde en bolsa tras la dimisión de Steve Jobs
Duras criticas a las palabras de José Blanco
Rajoy no destituye a los últimos imputados del PP
Disponible para descarga Ubuntu 10.10
Entrevista a Ricardo Galli
Oracle empezara a cobrar por openoffice.org
Lanzamiento de Firefox 4
Competencia sanciona a Movistar Vodafone y Orange
Zapatero destituye a Sinde en su ultima reforma de gabinete
Aznar vuelve a meter a España en un conflicto diplomatico
Viñeta de hoy de Forges [GCS]
¿Algún voluntario que nos deleite con un meneame-en-el-futuro.com?
En este caso, debería contar también con los karmawhores, anti-karmawhores, prosgae, antiwikileaks, mafia, anti-mafia, pro-mafia, un algoritmo independiente para los gatos, otro para Reverte y Wardog...
-Animal adopta otra especie animal.
-Punset opina de algo como si tuviera 20 años.
-Persona tiene posibilidad de ganar un dinero, pero lo rechaza.
-La produccion de energias renovables mejora mensual, semestral o anualmente.
-Gran empresa española es pillada defraudando.
-Actor norteamericano se mete a politica u opina de internet contracorriente.
-Borracho preferentemente britanico la lia parda.
-Telecinco hace algo medio llamativo.
Pues predecir que noticias llegarán a portada en menéame es fácil... solo debe incluir por lo menos algo de la SGAE, ACTA, WikiLeaks, Linux.. perdón GNU/Linux, gatos o ciencia. Si es posible todo en una sola noticia, mejor.
#16 Eso es porque no hemos leído la entradilla. Con el título nos sobra para votar y comentar, así de chulos somos en mnm. Es más, esto es una buena prueba de que un algoritmo similar debería tener mejores resultados aqui.
El problema de estos portales de noticias es cuando se convierte en un portal de onanismo mental para un grupo de gente.
Entran, votan las noticias que les dan placer y se creen que todo el mundo es así y que la voluntad del portal de noticias es extrapolable al mundo real.
Yo también soy capaz de crear un algoritmo que prediga que opiniones van a ser votadas negativas aunque no contenga insultos, abuso, acoso, espam, magufo, etc.
Un algoritmo que predice algo, con un 63% de aciertos.
Si solo acierta un 63%, ni siquiera predice nada. Yo diría que es cuestión de suerte, pues casi no llega a los 50% . Estos algoritmos no los quieren ni los casinos.
Es mejor el algoritmo de aquí...
----algoritmo meneame.
variables: portada, meneame, noticia.
meneame = 100
Si (noticia = > meneame) entonces
escribir noticia en portada
Sino si (noticia < meneame) entonces.
eliminar noticia.
fin algoritmo.----
No hace falta muchos algoritmos para detectar las futuras noticias de MENEAME: Sucesos catastróficos, noticias pro-científicas, noticias anti-sanación natural, anti-homeopática, anti-acupuntura, etc., noticias anti-espiritualidad, noticias sobre programas exclusivamente para informáticos, noticias pro-homosexuales, noticias pro-farmaceúticas, etc. Un cocktel que sólo lo promocionan informáticos aburridos o que trabajan poco, ateos, antinaturistas, pro-farmaceúticas, que parece que les pagasen éstas para promocionar cierto tipo de noticias. Lo siento, es el resumen que se aprecia de vuestro historial, que apenas cambia y que se intuye que seguirá, sin necesidad de algoritmos.
Yo tengo otro que me acabo de inventar ahora mismo (aunque tengo mas edad).
A la pregunta de si va a llegar a portada responder NO.
Si el porcentaje de acierdo de este algoritmo es mas pequeño del 50%
tambien he diseñado uno que superaria los 50%
que es respondiendo a la misma pregunta SI.
(aunque lo dudo, con la cantidad de duples y otras varias)
#31 Visto que hay unas 5000 páginas de noticias que han llegado a portada y unas 15000 páginas de noticias que no han llegado a portada, tu algoritmo tiene un porcentaje de acierto del 75%. Incluso si buscamos sólo entre las noticias de gatos, son minoría las que llegaron a portada.
Pero creo que lo que hace el artículo es pronosticar cuáles son las noticias que van a llegar a portada, no si una noticia dada va a llegar. En ese sentido, que un 63% de sus predicciones llegue a portada no está nada mal.
Ahora bien, ¿cómo sería un algoritmo similar para Menéame?
Aumentan la probabilidad:
1) que la noticia hable de gatos, tecnología, becarios, informáticos, cosas frikis en general, gitanos, musulmanes, muslamen, tías buenas, Tesla o la SGAE.
2) que la noticia venga de un medio generalista que sea progresista (pero tampoco demasiado) o que tenga una audiencia considerable. Por ejemplo, El País (cumple ambas) y El Mundo (cumple la segunda).
2.1) Si viene de El Mundo pero podría venir perfectamente de El Mundo Today, tiene un minipunto extra.
3) que el usuario que la envía sea un power user.
Disminuyen la probabilidad:
1) que la noticia provenga de un medio incluido en el listado de MIERDA (Medios Informativos Expertos en Repugnantes Deposiciones de Artículos), generalmente porque es percibido como demasiado extremista (La Haine y Público por la izquierda, los no-sé-qué digitales en general e Intereconomía por la derecha) o sensacionalista (Marca, The Sun).
2) que la noticia provenga del blog de quien la envía, o bien, que el que envía la noticia ha enviado más de un determinado porcentaje de noticias de ese mismo sitio.
3) que el texto de la entradilla no esté contenido en el texto de la noticia original (aunque sea perfectamente válido, si no es un copiapega, es probable que reciba votos de microblogging).
4) que el texto de la entradilla esté escrito en forma de anuncio publicitario.
Lo que no sabría hacer es cuantificar, o sea, poner números y decir a partir de esto cuáles serán las próximas noticias ahora en pendientes que pasarán a estar en la portada. Así que lo dejaré como ejercicio para el lector.
Comentarios
para saber que noticias van a llegar a la portada de meneame,no hacen falta algoritmos
#1 Sí que hacen falta, pero son públicos
#1 Jajaja ni que lo dudes.
El chico también ha empezado a programar otro para menéame. He aquí el esbozo en pseudocódigo:
Usuario autor=articulo.getAutor();
Cadena Texto=articulo.getTexto();
Cadena Url=articulo.getUrl();
probabilidad=20%;
If (usuario IN OR usuario.karma>15) probabilidad += 30%;
else probabilidad -= 10%;
If (texto CONTIENE probabilidad += 30%;
If (url IN ) probabilidad += 20%;
else If (url IN ) probabilidad -= 60%;
#10 Implementalo predice con un 90%.
La extensión de la función "descartada" es muy similar, si se cambia alguna palabra y sobre todo buscar/reemplazar + por - y viceversa.
#10 Aldeairreductible = Fail
Irreductible ha puesto el no-share
Una cosa me queda clara: los algoritmos están sobrevalorados como término.
Un algoritmo no es más que el diseño de los pasos necesarios para llegar a un fin. Sólo hace falta tener sentido común, y ser observador. Un simple diagrama de flujos.
Lo que ha hecho este chaval tiene mérito si no sabe informática y ha logrado compilar el código de su algoritmo, pero lo que tiene más mérito es que se haya tragado tanta mierda para hacer el esquema, para algo tan inútil como puede ser si llega a portada o no una noticia... Eso lo hacen hasta las pitonisas de la tele por la noche.
Las noticias se ponen para compartirlas y que gente pueda comentarlas, coñe, no para subir falsamente el ego con el karma de una página web...
Noticias que llegaran a portada:
El Barça gana la liga
La SGAE condenada por grabar con cámara oculta
2011: El año de linux
Apple se hunde en bolsa tras la dimisión de Steve Jobs
Duras criticas a las palabras de José Blanco
Rajoy no destituye a los últimos imputados del PP
Disponible para descarga Ubuntu 10.10
Entrevista a Ricardo Galli
Oracle empezara a cobrar por openoffice.org
Lanzamiento de Firefox 4
Competencia sanciona a Movistar Vodafone y Orange
Zapatero destituye a Sinde en su ultima reforma de gabinete
Aznar vuelve a meter a España en un conflicto diplomatico
Viñeta de hoy de Forges [GCS]
Creo que en menéame seria algo así.
Aquí en Meneame en sus comienzos un usuario desarrolló un bot que predecía y votaba las noticias: Un BOT en meneame!!
Un BOT en meneame!!
biruji.orgRelacionada.
Añadiría lo siguiente y lo implementaría también para los comentarios:
import diccionario_hoygan
for palabra in articulo.getTexto():
----if palabra in diccionario_hoygan:
-------- articulo.discard()
-------- autor.ban()
request.redirect('http://www.hoygania.com/')
Si es facil con mnm, toda noticia que incluya gatos, anti-pp, anti-agirre y alguna cosa cuqui ecologica, es portada seguro
#6 las ecológicas con cuidado. Que hay un par de veganos por ahí sueltos que han hecho que les cojamos tirria
¿Algún voluntario que nos deleite con un meneame-en-el-futuro.com?
En este caso, debería contar también con los karmawhores, anti-karmawhores, prosgae, antiwikileaks, mafia, anti-mafia, pro-mafia, un algoritmo independiente para los gatos, otro para Reverte y Wardog...
Mejor lo dejamos, parece imposible.
A portada:
-Animal adopta otra especie animal.
-Punset opina de algo como si tuviera 20 años.
-Persona tiene posibilidad de ganar un dinero, pero lo rechaza.
-La produccion de energias renovables mejora mensual, semestral o anualmente.
-Gran empresa española es pillada defraudando.
-Actor norteamericano se mete a politica u opina de internet contracorriente.
-Borracho preferentemente britanico la lia parda.
-Telecinco hace algo medio llamativo.
¿Sólo un 63% de acierto? Con un algoritmo que que soló dijera si o no aleatoriamente, ya tendrías el 50% de posibilidades de acertar...
#12 Eso si consideras que la mitad de las noticias son publicadas, pero seguramente solo un +-5% sean publicadas, por lo que el acierto es aceptable.
#12 como bien dice #14, Ese método implicaría que la mitad de las noticias terminan en portada...
#19 ¿Neperiano o sin pepinillos?
#12 Lo cual deduzco que es un algoritmo igual pero con algunas variables con palabras mas usadas o similares...
Pues predecir que noticias llegarán a portada en menéame es fácil... solo debe incluir por lo menos algo de la SGAE, ACTA, WikiLeaks, Linux.. perdón GNU/Linux, gatos o ciencia. Si es posible todo en una sola noticia, mejor.
Han cambiado Digg y ahora no encuentro como ver la cola de "diggeos" pendientes antes de salir a portada.
!Exijo flame ya¡ Ea¡ Ya se ha roto.
Y la primera, Elisabeth, de Nino Bravo
#29 Cross-commenting ehh??
"Anunciate aquí Click here to find out more!" WTF??
El que publica esta noticia seguro que saco la ESO en el rincon del vago haciendo copy paste verdad?
Coñe, 50 votos y nadie se queja de que en la entradilla pone "Anunciate aquí Click here to find out more!". Vaya tela!
#16 Eso es porque no hemos leído la entradilla. Con el título nos sobra para votar y comentar, así de chulos somos en mnm. Es más, esto es una buena prueba de que un algoritmo similar debería tener mejores resultados aqui.
Os habéis olvidado de las noticias tipo: Ya disponible en libre el OSS de CRX para plataformas Winstrol que trabaje con rutinas MLCH 5.0
(Para los que no tenemos ni idea de informática de gestión o sistemas, esto es lo que entendemos cuando leemos "vuestras" noticias )
Al final todo seguro que se resume en una mediana cantidad de reglas simples.
Gatos: +200 puntos.
SGAE: +100 Puntos.
Corrupción: +100 Puntos.
Etc, etc.
El problema de estos portales de noticias es cuando se convierte en un portal de onanismo mental para un grupo de gente.
Entran, votan las noticias que les dan placer y se creen que todo el mundo es así y que la voluntad del portal de noticias es extrapolable al mundo real.
#32 Si quieres ver algo realmente onanista entra en Applesfera y Meneame te parecerá lo más imparcial del planeta.
Todo un prototipo de Hari Seldon amigos
Echo de menos la SGAE.
El algoritmo de meneame es: If irrelevant or mierda, then portada... y a tomar por culo
Digg? pero esa web todavía funciona?
Pero bueno, ¿y en qué grado funciona? Por que no estoy seguro de que haya tenido en cuenta todas las variables.
Yo también soy capaz de crear un algoritmo que prediga que opiniones van a ser votadas negativas aunque no contenga insultos, abuso, acoso, espam, magufo, etc.
Un algoritmo que predice algo, con un 63% de aciertos.
Si solo acierta un 63%, ni siquiera predice nada. Yo diría que es cuestión de suerte, pues casi no llega a los 50% . Estos algoritmos no los quieren ni los casinos.
Es mejor el algoritmo de aquí...
----algoritmo meneame.
variables: portada, meneame, noticia.
meneame = 100
Si (noticia = > meneame) entonces
escribir noticia en portada
Sino si (noticia < meneame) entonces.
eliminar noticia.
fin algoritmo.----
No hace falta muchos algoritmos para detectar las futuras noticias de MENEAME: Sucesos catastróficos, noticias pro-científicas, noticias anti-sanación natural, anti-homeopática, anti-acupuntura, etc., noticias anti-espiritualidad, noticias sobre programas exclusivamente para informáticos, noticias pro-homosexuales, noticias pro-farmaceúticas, etc. Un cocktel que sólo lo promocionan informáticos aburridos o que trabajan poco, ateos, antinaturistas, pro-farmaceúticas, que parece que les pagasen éstas para promocionar cierto tipo de noticias. Lo siento, es el resumen que se aprecia de vuestro historial, que apenas cambia y que se intuye que seguirá, sin necesidad de algoritmos.
Pues yo apostaria con quien quiera a que soy capaz predecir que noticias tienen NO saldran en portada en meneame con un 95% de aciertos.
Y sin logaritmo ni leches...
Yo tengo otro que me acabo de inventar ahora mismo (aunque tengo mas edad).
A la pregunta de si va a llegar a portada responder NO.
Si el porcentaje de acierdo de este algoritmo es mas pequeño del 50%
tambien he diseñado uno que superaria los 50%
que es respondiendo a la misma pregunta SI.
(aunque lo dudo, con la cantidad de duples y otras varias)
#31 Visto que hay unas 5000 páginas de noticias que han llegado a portada y unas 15000 páginas de noticias que no han llegado a portada, tu algoritmo tiene un porcentaje de acierto del 75%. Incluso si buscamos sólo entre las noticias de gatos, son minoría las que llegaron a portada.
Pero creo que lo que hace el artículo es pronosticar cuáles son las noticias que van a llegar a portada, no si una noticia dada va a llegar. En ese sentido, que un 63% de sus predicciones llegue a portada no está nada mal.
Ahora bien, ¿cómo sería un algoritmo similar para Menéame?
Aumentan la probabilidad:
1) que la noticia hable de gatos, tecnología, becarios, informáticos, cosas frikis en general, gitanos, musulmanes, muslamen, tías buenas, Tesla o la SGAE.
2) que la noticia venga de un medio generalista que sea progresista (pero tampoco demasiado) o que tenga una audiencia considerable. Por ejemplo, El País (cumple ambas) y El Mundo (cumple la segunda).
2.1) Si viene de El Mundo pero podría venir perfectamente de El Mundo Today, tiene un minipunto extra.
3) que el usuario que la envía sea un power user.
Disminuyen la probabilidad:
1) que la noticia provenga de un medio incluido en el listado de MIERDA (Medios Informativos Expertos en Repugnantes Deposiciones de Artículos), generalmente porque es percibido como demasiado extremista (La Haine y Público por la izquierda, los no-sé-qué digitales en general e Intereconomía por la derecha) o sensacionalista (Marca, The Sun).
2) que la noticia provenga del blog de quien la envía, o bien, que el que envía la noticia ha enviado más de un determinado porcentaje de noticias de ese mismo sitio.
3) que el texto de la entradilla no esté contenido en el texto de la noticia original (aunque sea perfectamente válido, si no es un copiapega, es probable que reciba votos de microblogging).
4) que el texto de la entradilla esté escrito en forma de anuncio publicitario.
Lo que no sabría hacer es cuantificar, o sea, poner números y decir a partir de esto cuáles serán las próximas noticias ahora en pendientes que pasarán a estar en la portada. Así que lo dejaré como ejercicio para el lector.
y todas en las que el (NFSW)vaya implicito