Nota del autor

Si la entrada que estás leyendo carece de imágenes, no se ve el vídeo que teóricamente lleva incrustado o el código fuente mostrado aparece sin formato, podéis conocer los motivos aquí. Poco a poco iré restableciendo la normalidad en el blog.
Este blog es un archivo de los artículos situados previamente en Lobosoft.es y ha dejado de ser actualizado. Las nuevas entradas pueden encontrarse en www.lobosoft.es. Un saludo,
Lobosoft.

lunes, 2 de junio de 2008

¿Cómo saber si Google ha pasado a indexar nuestra web?

Hace unos días presentaba una solución para acceder a un sitio web que los servidores de DNS se resistían a actualizar. La solución pasaba por modificar temporalmente el archivo hosts, de modo que se habilitase el acceso directo del navegador, evitando la resolución de la DNS por parte de los servidores, y dándosela directamente desde el equipo. Obviamente, se trataba de una solución temporal y nada elegante a un problema que se extendía más de lo deseable en el tiempo.


Aunque algunos amigos podían acceder desde sus equipos, lo cierto es que yo no podía hacerlo desde ningún equipo en el que hubiese usado de forma continuada los blogs, ni tan siquiera limpiando la caché de DNS del sistema. Ya que usando Squish me encontraba con un buen porcentaje de servidores DNS sin haber actualizado aún el dominio, me pregunté entonces si Google sería capaz de encontrar los blogs e indexarlos. De hecho, buscando en Google mediante la sentencia “palabras a buscar site:nombredominio.com”, que realiza una búsqueda de las palabra a buscar dentro del dominio especificado tras el parámetro site, la última actualización que me aparecía era del pasado jueves, último día en el que funcionó adecuadamente la resolución del nombre de dominio. Sin embargo, la actualización de los sitios webs por parte de Google es bastante variable. Hace unos meses hablaba con un amigo precisamente sobre este tema, y si bien a él Google venía tardándole aproximadamente una semana en actualizar sus entradas en el blog, en Lobosoft apenas tardaba 5 minutos. Entre otras variables, barajábamos que Lobosoft se actualiza con bastante asiduidad, Google recibe una notificación cada vez que es actualizado, por lo que sabe que hay algo nuevo que debe pasar a indexar, y el tráfico del sitio se ha incrementado bastante (ha subido en apenas un mes en el ranking de Alexa de más de 13 millones a poco más de 2), lo que le hace más apetitoso a Google. Sin embargo, ¿cuándo pasa Google por el sitio, y por qué?


En las estadísticas de Awstats veo que GoogleBot pasó por el sitio web anoche, a las 21:50 horas, y generó un tráfico intenso, de 6,5MB, Pero me gustaría saber cuándo y cómo ha pasado por el sitio, así que he preparado un script en PHP que me envía un correo cuando Google pasa por una de mis páginas. El script es fácilmente modificable para que almacene esta información en un archivo o una tabla de la base de datos. Mi idea es instalarlo en los otros blogs, donde no tengo instalado Awstats para comprobar si están siendo visitados por Google y en qué medida. Aquí os dejo el script, pues creo que puede resultar interesante:


[php]



<?php
if(eregi("google",$_SERVER['HTTP_USER_AGENT']))
{
if ($QUERY_STRING != "")
{
$url = "http://".$_SERVER['SERVER_NAME'].$_SERVER['PHP_SELF'].'?'.$QUERY_STRING;
}
else
{
$url = "http://".$_SERVER['SERVER_NAME'].$_SERVER['PHP_SELF'];
}
$fecha = date("F j, Y, g:i a");
$mailbody = "Se ha detectado un robot de Google en http://".$_SERVER['SERVER_NAME'].", ".$fecha." - El robot ".$_SERVER['HTTP_USER_AGENT']." de Google ha pasado por la página ".$url."\n";
mail("mustelido@gmail.com", "Control de bots de Google", $mailbody);
}
?>

[/php]


La actualización ha sido casi inmediata. Google ha tardado en mandar a sus sabuesos apenas 7 minutos.Grabé una entrada en el blog a las 00:05, y se actualizó el sitemap, enviándole a Google una notificación.




# Your sitemap was last built on 3/June/2008 00:05 am.
# Your sitemap (zipped) was last built on 3/June/2008 00:05 am.
# Google was successfully notified about changes.


Y la notificación de la actualización me llegó al correo  a las 00:12.




Se ha detectado un robot de Google en http://www.lobosoft.es, June 3, 2008, 00:12 am - El robot Mozilla/5.0 (compatible; Googlebot/2.1; +http://www.google.com/bot.html) de Google ha pasado por la página http://www.lobosoft.es/index.php



La modificación para que el script realice la grabación en fichero es inmediata. Simplemente basta con sustituir la línea con la llamada a la función mail por unas pocas líneas nos permite guardar el último acceso de Google a nuestro servidor:


[php]

$fp = fopen(TEMPLATEPATH."/visitas.log","w+");
fwrite($fp, $mailbody);
fclose($fp);

[/php]

4 comentarios:

  1. Lo probaremos a ver que tal va.

    Un saludo
    Nico

    ResponderEliminar
  2. esta muy bien ese truco creo que le puedo hacer una mejorita que tengo en mente si funciona despues lo comento aqui. bueno bye. bisita
    http://michael.comuf.com para que aumente el pagrank jaja

    ResponderEliminar
  3. Muy buena lo tomare en cuenta gracias....

    ResponderEliminar