Filtrando Internet
Cuando realizamos una búsqueda, Google pondera los resultados (entre otras cosas) según el número de enlaces que recibe cada página. Podríamos decir que cada enlace es un voto, y cuantos más votos, más popular se es. Sin embargo, todos los votos tienen el mismo calidad: ¿cómo indico que el lugar es pésimo? Google no da ninguna opción.
Con el Blogómetro ocurre igual que con Google: visitamos diariamente 12 mil bitácoras y obtenemos los nuevos enlaces. Con ellos generamos un ránking diarios de los enlaces más "votados".
¿No habría una forma de realizar filtros con mayor ajuste?
Mi colega Kevin Marks (Technorati), junto a Tantek Çelik y Ross Mayfield (SocialText) proponen VoteLinks. Se trata de una extensión de la etiqueta HTML para los enlaces. Se permite votar a favor, en contra o abstenerse y sería de la siguiente forma:
Por ahora, no hay muchas herramientas que den soporte para esta característica (amén de que los validadores de XHTML se quejarían).
Por otra parte, en Denken Über leo una entrada de Mariano sobre Filtros colaborativos y RSS.
«Uno de los proyectos que más me llamó la atención, por estos días, es AmphetaRate un "servicio centralizado de ratings/recomendaciones que te brinda recomendaciones de Feeds de RSS y/o weblogs en base a tus gustos en feeds"; y pese a que no llega al nivel de las "Red de confianza" de Newsmonster, es algo muy interesante por el uso de "Filtros Colaborativos" + "Algoritmos Bayesianos" + RSS para dar un servicio de recomendaciones bastante interesante».
AmphetaRate es un servicio centralizado que recoge las votaciones de los lectores que utilizan dicho agregador (el nombre deriva de AmphetaDesk, un agregador multiplataforma). Con las votaciones, se realiza un ránking de las mejores.
En cuanto a la idea de utilizar filtros bayesianos para localizar información interesante -si la idea es buena, ya la tuvo alguien- hace un tiempo estuve investigando y ya se ha probado, pero juzgar por los experiencias que leí, no con buenos resultados.
La idea, de todas formas, sigue intacta: en un mundo donde sobra la información, la agregación de contenidos y la minería de datos será cada vez más importante.
Hola,
He leído que Google no valora igualmente todos los enlaces, sino que uno enlaces desde un dominio o página (no lo se exactamente) que ya tenga una valoración alta puntúan más para elevar la puntuación de la página enlazada.
Desde luego el tema es complejo y se puede mejorar, pero Google va mejorando y sigue dando buen resultado.
Puede verse info en este enlace:
http://google.dirson.com/pagerank.php
"la importancia de la página que emite su voto también determina el peso de este voto"
Un saludo.
Publicado por: ACid | 20/05/2004 a las 10:15
Acid: Cierto. Quizás no me explique demasiado claro, pero es la idea que quería transmitir.
Publicado por: Víctor R. Ruiz | 20/05/2004 a las 19:52
Hi,
I was curious about where you saw research about bayesian filtering on RSS newsitems? That would help me alot.
Thanks,
Kyvinh
Publicado por: Kyvinh | 25/05/2004 a las 6:46
Kyvinh: I searched in Google and read some experiences, which they say were not very successful, but doing a search again I found some interesting links: More Bayesian Blog classification and Bayesian Filtering in Aggregators?.
Publicado por: Víctor R. Ruiz | 25/05/2004 a las 15:41
Very interesting links indeed. My problem is that there's no objective measurement for bayesian classification. I really need some test dataset in order to prove its accuracy. But for now, most people use email datasets to check how well bayesian filters work...
Anyway, thank A LOT for the links!
Publicado por: Kyvinh | 25/05/2004 a las 22:58