JMiur [E]

Por los comentarios y sobre todo, por algunos mails que he recibido, parece que el tema de Evaluar cómo nos indexa Google ha causado algunas decepciones o confusiones.

No creo poder dar explicaciones técnicas al respecto pero, por lo menos intentaré mostrar un resumen de la información disponible y, más que nada, pensar en voz alta a ver si puede sacarse alguna conclusión razonable.

Primero que nada, un problema de simple aritmética. En el post se dice:

Con Indexrank podemos saber cuál es la cantidad de páginas de un sito que han sido indexadas por Google a lo largo del tiempo ... el ranking final varía del 1 (mejor resultado) a 10 (peor resultado) ...

En muchos sentidos, esto es similar al PageRank que simplifica billones de páginas o sitios web y los "divide" en diez partes. Pero, desde la lógica, la distancia o rango entre los extremos de esa división es tan monstruosamente alto que parece irracional que un número entre 1 y 10 signifique algo.

Veamos. Para saber la cantidad de páginas indexadas por Google basta ir al buscador y escribir site:URL sin el prefijo http:// y, eventualmente, sin www. Haciendo esto, en tres sitios que imagino importantes aparecen estos resultados:

site:microsoft.com 31.100.000 de páginas indexadas
site:google.com 17.500.000 de páginas indexadas
site:yahoo.com 295.000.000 de páginas indexadas

Cualquier otro blog conocido que coloque da resultados que varían entre 200 y 4.000 páginas indexadas.

Entre 200/4000 y 295.000.000 la distancia es astronómica. Si Yahoo tuviera un ranking de 1 y nosotros de 10 podríamos aplaudir y hacer una fiesta; sólo nos separarían nueve escalones. El problema es que esos escalones tienen diferentes alturas y algunos son tan altos como el Everest.

Pero eso no es todo. El valor del "ranking" es absurdo. Esta es una captura de pantalla tomada hace unos minutos:



¡Este blog tiene el mismo ranking que Google!.

Alguien está consumiendo lo que no debe.

¿Y entonces para que nos sirve la herramienta? Es una forma de simplificar la búsqueda que podemos hacer desde el mismo Google y comparar promedios con otros sitios y con muestra propia indexación a lo largo del tiempo.

Aquí viene el segundo punto, la cantidad de páginas indexadas parece "baja" comparada con otros sitios ¿por qué?

Los robots que usa Google son llamados Googlebots, lo que hacen es recorrer la web y cuando encuentran una página, la guardan en el índice. En realidad, son computadoras que funcionan como los navegadores, hacen un pedido a un servidor, descargan la página y la guardan. Claro que miles de veces más rápido y de manera discreta, para evitar saturar los servidores ¿Y cómo encuentran esas páginas? Por un lado, porque nosotros les decimos que lo hagan agregando nuestra URL en www.google.com/addurl.html o porque tenemos marcada la opción SI de la Configuración Básica de Blogger:

¿Deseas añadir tu blog a nuestras listas?

o en Opciones Privacidad de WodPress:

Blog visibility: I would like my blog to be visible to everyone, including search engines (like Google, Sphere, Technorati) and archivers

Imagino que en cualquier otro servicio habrá opciones similares.

Pero, también lo hacen siguiendo los enlaces de cada página, tomando nota de ellos y agregándolos a su lista.

Para mantener ese índice actualizado, Google revisa las páginas y si evalua que sufren cambios constantes, las marca para "visitarlas" más seguido. Esto, en los servicios de blogs carece de importancia porque es el mismo servicio el que envía ese aviso cada vez que publicamos algo. Pero, allí no termina el trabajo.

Los Googlebots guardan el contenido de las páginas como textos y las desmenuzan hasta convertirlas en una lista de palabras ordenadas alfabéticamente lo que permite que encontremos términos específicos cuando buscamos algo. Y, por supuesto, pasa por alto ciertas palabras de uso común (stop words) así como dígitos, caracteres sueltos, dobles espacios, signos de puntuación y para evitar conflictos, convierte todo a minúsculas.

Cuando se habla de páginas indexadas no estamos hablando de enlaces sino de cuántas páginas dispone nuestro blog. En Blogger, siempre que usemos varios sitemaps, es aproximadamente igual a la suma de posts más la cantidad de meses que tengamos online sin importar si usamos blogspot o tenemos un dominio propio:

site:gemablog-.blogspot.com 414 páginas indexadas
site:spamloco.net 806 páginas indexadas

Otros servicios como WordPress tienen una indexación más eficiente porque se pueden crear páginas individuales, las páginas de archivos y las de categorías se indexan una por una, etc, etc.

El resultado final es sustancialmente distinto:

site:zonafirefox.net 3300 páginas indexadas
site:cosassencillas.com 2030 páginas indexadas

En mi caso particular, como conozco los datos, puedo compararlos con exactitud ya que uso ambos servicios.

site:vagabundia.blogspot.com
1530 páginas indexadas - 1.439 entradas - online desde el 30 de agosto del 2006

1250 páginas indexadas - 637 entradas - online desde el 10 de febrero del 2007

¿Se nota la diferencia?

Por último, algunos mitos:
  • Google sólo indexa sitios que tengan colocado el código de Google Analytics: FALSO
  • Google sólo indexa sitios que usen Google AdWords: FALSO
  • Google sólo indexa sitios que usen Google AdSense: FALSO
  • Google sólo indexa páginas si se utiliza el atributo nofollow: FALSO
  • Google indexa páginas que no están en el sitemap: ES POSIBLE
  • Google indexa páginas que no tienen enlaces de otros sitios: CIERTO
  • Google indexa páginas visitadas a través de Google Toolbar: CIERTO
  • Google indexa mejor los sitios que usan sitemaps: CIERTO

REFERENCIAS:
  • Google Guide


  • seomoz.org


  •  
    CERRAR