Nota del autor

Si la entrada que estás leyendo carece de imágenes, no se ve el vídeo que teóricamente lleva incrustado o el código fuente mostrado aparece sin formato, podéis conocer los motivos aquí. Poco a poco iré restableciendo la normalidad en el blog.
Este blog es un archivo de los artículos situados previamente en Lobosoft.es y ha dejado de ser actualizado. Las nuevas entradas pueden encontrarse en www.lobosoft.es. Un saludo,
Lobosoft.

lunes, 2 de junio de 2008

Googlebot: Los web crawlers de Google

web-crawlers.jpg


La indexación que realiza Google de los sitios web está a cargo de unos [ro]bots (conocidos como arañas o crawlers) que tienen por cometido recorrer Internet recopilando información sobre los sitios web y llevándola a las bases de datos de los centros de cálculo de Google. De ellas depende que nuestra web sea accesible al mayor número de usuarios en Internet, y de la información que les suministremos, bien sea mediante etiquetas META en el HTML de nuestras páginas, bien a través de archivos como robots.txt, que indica qué pueden indexar y qué no los bots de los buscadores (ya sean de Google, Yahoo, Altavista o cualquier otro).


Hoy nos quedaremos con los bots de Google, el buscador más conocido (y temido por algunos) de la red global. El GoogleBot User Agent es el agente buscador (bot) genérico habitual de Google, y está encargado de recorrer las páginas web e indexarlas, tanto en su contenido textual, como imágenes, comprobación de publicidad mediante Adsense, etc. Se puede clasificar en:





  • Googlebot/2.1 o Mozilla/5.0 (compatible; googlebot/2.1): Es el más genérico, y el encargado de la indexación de las webs en Google. No sólo se encarga de leer páginas HTML, sino que también es el bot que indexa los contenidos de archivos PDF, PS, DOC, XSL, RTF, SWF, etc. El segundo es menos habitual. La frecuencia con que pasa el crawler por un sitio web depende del PageRank que ostente dicho sitio.

  • Googlebot-Image/1.0: Está encargado únicamente de la indexación de imágenes en las páginas web. Vinculado al buscador de imágenes de Google y muy posiblemente a herramienta Picasa.

  • Mediapartners-Google/2.1: Esta araña se encarga de actualizar la publicidad de Google, mediante Adsense.

  • Googlebot/Test: Parece ser que es un crawler a pruebas de Google. Parece recorrer archivos de código Javascript (.js) y revisarlos, así como archivos con hojas de estilo (.css). Se encarga de controlar texto oculto en estos archivos, y revisar la redirección a determinados links, evitando así un aumento fraudulento del PageRank, así como clics no válidos en publicidad de Adsense.

1 comentario:

  1. Muchas gracias, Roberto.

    Espero que el artículo te haya sido útil. He estado echando un vistazo a la página, que parece bastante interesante. Dejaremos por aquí el enlace para quien pueda serle útil.

    Gracias por hacernos llegar tu impresión y compartir tu trabajo.

    Un saludo.

    ResponderEliminar