¿Qué son los robots de Google?

Google sale constantemente a buscar páginas nuevas y/o actualizadas para añadirlas a su índice y hay un programa encargado de esto al que se llama Googlebot, los famosos robots o arañas (spiders). Entonces, Googlebots son la forma de llamar a los robots de búsqueda cuya única misión en esta vida es coleccionar documentos web para ir construyendo una base de datos que es la que utilizará el motor de búsqueda de su amo.

Los Googlebots emplean un proceso basado en algoritmos que determinan los sitios que deben rastrearse, la frecuencia y el número de páginas que hay que obtener de cada sitio. Estas listas de sitios webs se amplia al detectar vínculos a otras páginas.

¿Qué es la indexación?

La indexación es el procesamiento de esas páginas rastreada y es lo que crea el índice que usa Google para darnos resultados cuando hacemos una búsqueda.

De hecho, los robots no guardan nuestras páginas sino que las analizan y hacen un índice de todas las palabras que ven y de su ubicación. Además, procesan la información de la etiqueta TITLE y el contenido de los atributos ALT de las imágenes; tampoco lo hacen con todo lo que tiene una página, por ejemplo, no procesan el contenido de la mayoría de los archivos Flash o de las páginas dinámicas.

¿Sólo leen documentos HTML?

No, también extraen información o indexan otro tipo de archivos: PDF, PS (Adobe PostScript), hojas de Lotus (wk1, wk2, wk3, wk4, wk5, wki, wks, wku, lwp) y Excel (xls), documentos de texto MW, DOC, WRI, RTF, ANS, TXT; presentaciones de PowerPoint (ppt), archivos de Microsoft Works (wks, wps, wdb) y swf.

Esto lo hacen para dar más resultados, de hecho, podemos hacer una búsqueda indicando que nos muestre sólo determinado tipo de archivos, por ejemplo:

filetype:doc "texto a buscar"

En la mayoría de los casos, aún cuando no tengamos el software necesario para interpretarlos, se nos mostrará la opción de verlos como HTML o como texto plano.

De manera inversa, podemos eliminar cierto tipo de resultados de una búsqueda, usando un filtro, por ejemplo:

-filetype:pdf "texto a buscar"

¿Cada cuanto tiempo nos visitan?

Ellos dicen "con regularidad" pero no dan precisiones, hablan de muchos factores que pueden influir pero, lo cierto es que la frecuencia con la que acceden a un sitio depende casi exclusivamente del PageRank que tenga. Cuanto más alto sea, más asiduamente será visitado (la riqueza genera riqueza). Entonces, pueden hacerlo diariamente o tardar semanas.

Google está orgulloso del PageRank y nos hace saber que es el corazón de todo su sistema:

"The heart of our software is PageRank™, a system for ranking web pages developed by our founders Larry Page and Sergey Brin at Stanford University. And while we have dozens of engineers working to improve every aspect of Google on a daily basis, PageRank continues to play a central role in many of our web search tools."

De cualquier manera, si tenemos sitemaps, estos son descargados regularmente:

atom.xml?redirect=false&start-index=1&max-results=500 descargado hace 8 horas
atom.xml?redirect=false&start-index=501&max-results=500 descargado hace 7 horas
atom.xml?redirect=false&start-index=1001&max-results=500 descargado el 16/05/2008
atom.xml?redirect=false&start-index=1501&max-results=500 descargado hace 23 horas

¿Por qué Google no indexa todas las páginas de mi sitio?

No existen garantías de que se rastreen todas las páginas de un sitio. Como el PR se basa en enlaces y es la clave de todo el sistema, para asegurarse de ser indexados, hay que hacerse amigo de los poderosos y conseguir que algún otro sitio tenga un enlace al nuestro. No es chiste, ellos mismos lo dicen: "Consiga que otros sitios relevantes enlacen con el suyo."

Hay otras alternativas para pobres bloggers como nosotros:
De cualquier forma, el resultado jamás es un 100% efectivo:

Estadísticas del sitemap:
Total de URL: 1619
URL que se han indexado: 1482

¿Puedo hacer algo para que mi sitio sea indexado mejor?

Una vez que Googlebot ha rastreado nuestra página, seguirá los enlaces que en ella encuentre (los contenidos de los atributos HREF de los enlaces y SRC de las imágenes) así que los vínculos deben ser claros porque esos vínculos también son enlaces a otras páginas de nuestro sitio. Recordemos que ciertos menúes no son indexados (Flash, por ejemplo).

Algunas recomendaciones:
  • se debe poder acceder a todas las páginas desde al menos un vínculo de texto estático
  • tener mapas del sitio con vínculos que apunten a las secciones importantes
  • evitar las imágenes para mostrar nombres o vínculos ya que los robots no los leen
  • sacarle provecho al atributo ALT colocando textos precisos
¿Puedo verificar si mi sitio es "indexable"?

Es difícil, podemos usar un navegador de texto como Lynx aunque es complejo instalarlo. También podemos usar los navegadores que ya disponemos si logramos bloquear las funciones avanzadas (JavaScript, cookies, frames, DHTML, Flash).

Podemos ver lo que Google "ve" yendo a la página Estadísticas detectadas por Googlebot donde se nos mostrarán las palabras clave y las frases que otras páginas utilizan cuando enlazan con la nuestra.

¿Hay una lista de cosas que debo hacer y cosas que no debo hacer?

Para Google, hay una serie de directrices de calidad especificadas en el Centro de Asistencia para webmasters que dice algo así:
  • Cree páginas para usuarios y no para motores de búsqueda.
  • No engañe a sus usuarios ni presente a los motores de búsqueda contenido distinto al que les muestra a ellos; esta práctica se conoce como "encubrimiento".
  • Evite trucos destinados a mejorar los rankings en los motores de búsqueda
  • No participe en esquemas de vínculos diseñados para incrementar el ranking o el valor de PageRank de su sitio.
  • Evite vínculos que enlazan con los creadores de sitios fraudulentos o "vecindarios indeseables" de la web, ya que su propio ranking podría verse afectado negativamente por ellos.
  • No utilice programas informáticos no autorizados para enviar páginas, comprobar rankings, etc., ya que estos consumen recursos informáticos y vulneran nuestras Condiciones de servicio.
  • Google no recomienda el uso de productos como WebPosition Gold™ que envían consultas automáticas o de programación a Google.
  • Evite utilizar texto o vínculos ocultos.
  • No cree varias páginas, subdominios o dominios que presenten básicamente contenido duplicado.
  • No cree páginas que instalen virus, troyanos u otros tipos de software malicioso.
¿Puedo evitar que Googlebot siga los vínculos de mis páginas?

Los Googlebots intentarán acceder siempre a un archivo llamado robots.txt que puede indicar las zonas del sitio donde no queremos que entre pero, para Blogger esto no es una alternativa viable pero podemos usar alguna etiqueta META específica:

Para evitar que Googlebot rastree vínculos de sus páginas que enlazan con otras páginas o documentos:
<META NAME="Googlebot" CONTENT="nofollow" />

Para evitar que cualquier robot indexe una determinada página:
<META NAME="ROBOTS" CONTENT="NOINDEX, NOFOLLOW" />

Para que todos los robots, excepto los de Google, indexen una página:
<META NAME="GOOGLEBOT" CONTENT="NOINDEX, NOFOLLOW" />

Para que los robots indexen una determinada página pero no rastreen los enlaces salientes:
<META NAME="ROBOTS" CONTENT="NOFOLLOW" />

Para que los robots indexen una determinada página pero no las imágenes:
<META NAME="ROBOTS" CONTENT="NOIMAGEINDEX" />

¿Entonces estamos en manos de Googlebot y sus berrinches?

Si, pero peor; Googlebot viene en dos versiones, Deepbot y Freshbot.

El llamado Deepbot es el que hace el trabajo fino, el que se mete en todos lados y trata de seguir cualquier enlace, el que pone las páginas en la caché y las deja allí para que Google las procece. Se dice que este trabajo es completado en un mes y luego, comienza otra vez.

El Freshbot es el que hace la tarea rápida, el que sólo busca contenido nuevo. Visita sitios que cambian frecuentemente y podrá hacerlo todos los días o una vez cada 15 días, dependiendo de la frecuencia con que actualicemos nuestro contenido.

También podemos solicitarle a Google que aumente la frecuencia de rastreo pero, lo hará sólo temporalmente:

La velocidad de rastreo actual de este sitio es Más rápido. La velocidad volverá al estado Normal el 23/05/2008.

¿Por qué no puedo ver mi sitio en los resultados de búsqueda?

A veces, la fluctuación en los resultados de las búsquedas tiene que ver con discrepancias entre los diferentes centros de datos que consulta Google. Como no todos se actualizan simultáneamente, puede haber diferencias entre los resultados de búsqueda dependiendo del centro que se encargue de procesar la consulta.

Los resultados también cambian a medida que se va agregando y modificando la red. El ranking puede hacer que algunos sitios cambien de posición en los resultados e incluso, eventualmente, que desaparezcan.

Google dice que, si nuestro sitio no aparece en los resultados de búsqueda o su posición es inferior a la que tenía, primero que nada, deberíamos comprobar que se encuentra en el índice realizando una búsqueda con el parámetro site: (teniendo en cuenta que no debe haber espacios entre ese parámetro y el nombre del sitio):

site:vagabundia.blogspot.com

Resultados 1 - 10 de aproximadamente 1.840 de vagabundia.blogspot.com (0,12 segundos)

El Asistente informativo sobre el estado del sitio permite comprobar el estado de indexación de un sitio web y además, nos informa de la última vez que Google accedió a la página principal.

Rastreo de la página principal: Googlebot accedió correctamente a su página principal por última vez el 14/05/2008.
Estado del índice: Algunas páginas de su sitio están incluidas en el índice de Google.

Si el sitio figura entre los resultados cuando se realiza una búsqueda de la dirección, eso indica que está incluido en el índice. Por el contrario, si el sitio ya no aparece en el índice, cuando antes sí que lo hacía, es posible que haya sido eliminado debido a una infracción.

También es importante asegúrarse que Google pueda encontrar el sitio, que no existan errores de rastreo, que su contenido se basa en texto y que ese texto es legible.

¿Qué es un SEO? ¿Google los recomienda?

Un SEO (Search Engine Optimizer) es un optimizador de motores de búsqueda. Son empresas consultoras que ofrecen servicios a los propietarios de sitios web y, al igual que en el resto de la ida, hay de todo, útiles e inútiles, serios y tramposos. Sobre ese tema, lo único que hace Google es advertir:
  • Desconfíe de compañías de SEO y consultorías o agencias web que le envíen mensajes de correo no solicitado.
  • Nadie puede garantizarle el primer puesto en el ranking de Google.
  • Desconfíe de una compañía con secretos o que no explica claramente sus intenciones.
  • No debería tener nunca un enlace a un SEO.
  • Puede que algunos SEO intenten venderle la capacidad de escribir palabras clave directamente en la barra de direcciones del navegador.
  • Elija con cuidado y asegúrese de que ha entendido a dónde va su dinero.

¿Y todo esto me servirá para algo?

¡Vaya pregunta!


REFERENCIAS:
  • Página principal del Centro de Asistencia de Google Webmasters
  •  
    CERRAR