Google presenta su nuevo índice de búsqueda: Caffeine
8 de Junio de 2010 - Destacados
Google completó el nuevo sistema de indexación de Internet bautizado Caffeine (Cafeína). Este nuevo índice provee resultados de búsqueda 50% más recientes que el último índice y es la colección más amplia de contenido Web que la compañía ofreció hasta ahora. Ya sea que se trate de una historia noticiosa o un post en un foro o un blog, ahora se pueden encontrar links a contenido relevante en un tiempo mucho más rápido desde que se publicó.
Para tener una idea de cómo funcionan los motores de búsqueda, es necesario saber que cuando un usuario realiza una búsqueda en Google en realidad no está realizando la búsqueda “en vivo” dentro de la red sino que está buscando en un índice de la red creado por Google, el cual, lo mismo que el índice en un libro impreso, ayuda a dirigirse exactamente a la información que uno está buscando.
¿Por qué es necesario un nuevo sistema de indexación de la Web? Simplemente porque el contenido en Internet está creciendo a pasos agigantados. Su crecimiento no es sólo en el orden de tamaño y números, sino que con la proliferación de video, imágenes, noticias y actualizaciones en tiempo real, la página Web promedio es cada vez más rica y compleja. Además, las expectativas de los usuarios son ahora más altas que antes; quienes realizan búsquedas desean encontrar el contenido relevante más reciente, mientras que quienes publican en la red esperan que su contenido sea hallado en el momento en que lo publican.
El viejo índice tenía varias capas, algunas de las cuales eran actualizadas a un ritmo más acelerado que otras, y la capa principal era actualizada cada un par de semanas. Para actualizar una capa del antiguo índice, se analizaba la red completa, lo que obviamente equivalía a un retraso importante entre el momento en que se encontraba la página y el momento en que se ponía disponible para los usuarios.
Con el nuevo índice de búsqueda, Caffeine, se analiza la red en pequeñas porciones y se actualiza de manera continua y globalmente. A medida que se encuentran nuevas páginas o nueva información en páginas ya existentes, se pueden agregar esos datos directamente al índice. Esto significa que los usuarios pueden encontrar información más reciente, como nunca antes, sin importar cuándo o dónde fue publicada.
Caffeine permite indexar páginas Web a una escala enorme. De hecho, cada segundo procesa cientos de miles de páginas en paralelo. Si estuviéramos hablando de una pila de papeles, sería como si esa pila creciera 3 millas en altura (casi 5 kilómetros) por segundo. El nuevo índice de búsqueda almacena casi 100 millones de gigabytes en una base de datos y agrega nueva información a un ritmo de cientos de miles de gigabytes por día. Se necesitarían 625.000 de los iPods más grandes para almacenar esa cantidad de información; y si esos iPods estuvieran puestos en fila ocuparían más de 40 millas (más de 64 kilómetros).
Fuente: Ebizlatam