El sandbox de Google

Posted By admin

Date: Septiembre 15th, 2008

Category: ninguna

Uno de los problemas de indexación que he notado con el cambio de versión de la web es lo mucho que ha costado que Google indexe correctamente las nuevas entradas de los artículos de portada.

Lo primero que observé es que cuando se publicaba un nuevo artículo, Google lo indexaba pero no lo mostraba en los resultados de búsqueda.

Por ejemplo, al publicar “Trío Futura, la oferta sobre fibra de Telefónica”, y buscar unos minutos después site:http://bandaancha.eu/articulo/5875/trio-futura-oferta-sobre-fibra-telefonica aparecía indexado. Pero al buscar “Trío Futura, la oferta sobre fibra de Telefónica” aparecía la home de bandaancha.eu como primer resultado y no el artículo en cuestión. Al cabo de unos días, dos semanas incluso, empezaban a aparecer en los resultados de búsqueda.

Lo primero que revisé fue que el HTML de los artículos validará. Efectivamente, en los comentarios había un UL que no se cerraba correctamente.

Pasado un tiempo probé a relajar el DOCTYPE del HTML, bajando de XHTML 1.1 a XHTML 1.0 Transitional. Tambien modifiqué el valor del atributo xml:lang del elemento html, pasando de es_ES al valor correcto es-ES.

Al no ver resultados, empecé a sospechar de la URL de los artículos. Nuestra estructura de URL es http://bandaancha.eu/articulo/%id%/%permalink%. Esto, para una araña significa que el documento HTML de un artículo está situado dentro de un directorio (su id) que a su vez está dentro del directorio artículo. ¿pero que ocurre si intentamos acceder a http://bandaancha.eu/articulo? Nos da un 404 Not Found.

Este comportamiento no es correcto, puesto que un directorio debería devolver un estado 200 OK en caso de tener contenido. Devolviendo un 404 Not Found estoy diciéndole a Google que ese directorio no existe. Parece lógico pensar que dentro de él no hay nada puesto que no existe.

En realidad supongo que el robot de Google es capaz de lidiar con estas contradicciones, pero por si acaso hice que devolviera un 403 Forbidden. Esto el lo que suele devolver un servidor web cuando accedemos a un directorio que si existe, pero no nos quiere mostrar un listado de su contenido.

Desde principios de mes parece haberse solucionado el problema y Google da bastante importancia a todo lo que publicamos, mostrándolo en los resultados de las búsquedas en cuestión de minutos.

Realmente no se cual fué la causa que probocaba este comportamiento de Google, pero aquí dejo las pistas por si a alguien le resultan de utilidad.

Leave a Reply