Novedades de TypePad 1.2 y comentario sobre MT 3.0
Pulp Fiction, agregador para OSX

Google, indexando fuentes de sindicación

Google está buscando fuentes de sindicación en las bitácoras. La noticia la da Dirson en ¿Trabaja Google en un buscador de blogs?.

«Desde el día 13 de abril, en los logs de acceso al servidor web de 'google.dirson.com' se están contemplando intentos de accesos como estos 64.68.84.9 - - [21/Apr/2004:02:44:54 -0700] "GET /atom.xml HTTP/1.0" 404 281 "-" "Googlebot/2.1 (+http://www.googlebot.com/bot.html)"

» Los archivos 'index.rdf' y 'atom.xml' no existen en nuestro servidor. Pero, en caso de existir, contendrían información en 'RSS' y 'Atom', los dos formatos más populares para la sindicación de contenidos en los 'blogs' ('weblogs' o bitácoras)».



El asunto se destapó en Photo Matt, y Dave Winer acusó a Google de beneficiar a un formato de sindicación (Atom) sobre otros (RSS, que Winer ayudó a crear). Evan Williams, creador de Blogger y que tras su compra trabaja en Google, aclara los términos en los que se están realizando estos accesos:

«Is it more likely that this is not a calculated move, but that they are experimenting with crawling feeds in general and that, if they’re going to index them, they probably want as many as possible? And that maybe (hmmm…) they started with Blogger blogs first, since they were handy, and they tended to find feeds at index.rdf and atom.xml, and they haven’t yet optimized their crawler because they’ve been working on other stuff?»

Si tomamos la ironía por cierta, Google comenzó a probar su araña recolectora de fuentes con Blogger y ahora lo hacen en otros servicios. Tras el anuncio de Microsoft de su BlogBot, parece que el horizonte se vuelve un tanto difuso para Feedster y Technorati, quienes más han innovado en esta tecnología.

La sindicación permitirá una gran mejora en los buscadores y en concreto, el beneficiaro más directo podría ser Google News. Al contrario que una página web, donde el código HTML no especifica qué es un titular, qué una introducción y qué el cuerpo de la noticia, en una fuente RDF, RSS o Atom, un programa de ordenador puede extraer, además de dicha información, la fecha de publicación, el autor y el enlace a la página conteniendo la noticia. Y quién habla de noticias, habla de artículos, o entradas en una bitácora. En resumen, nos movemos poco a poco a la llamada web semántica, permitiendo la simplificación y refinamiento de la tecnología de los buscadores. El usuario, al final, se beneficia con mejores resultados.

Recordar que ya existe un buscador en español de fuentes RSS, WeblogAbout.

Comentarios