En el posicionamiento de una página web es muy importante controlar las urls que se indexan y las que no. Pero, ¿qué pasa si Google indexa una URL que no queremos que aparezca en los resultados? A continuación, vamos a ver varias formas sobre como desindexar una URL de Google.
Motivos por los que desindexar una URL de Google
En muchas ocasiones Google ha indexado en los resultados de búsqueda alguna URL de nuestra página web que no queríamos que apareciese en el índice del buscador.
Existen varios motivos por los que deberíamos desindexar una URL:
- Eliminar URL con Thin Content o contenido de baja calidad, ya que puede afectar al posicionamiento de la web.
- Quitar urls con contenido duplicado o idéntico. Esto se puede realizar con redirecciones 301 o con la etiqueta canonical, aunque en determinadas ocasiones es más recomendable eliminarla URL directamente.
- Eliminar urls antiguas que estén desactualizadas o no tengan una aplicación hoy en día y no sirvan para el usuario.
- Desindexar urls de plantillas o páginas de prueba de nuestra web que se han acabado indexando y hay que eliminarlas.
Como desindexar una URL de Google de varias formas
Para desindexar una URL de Google existen varias formas, algunas más fáciles y sencillas que otras.
Etiqueta meta robots noindex en la URL
Para desindexar una determinada URL puedes introducir en el código HTML la meta etiqueta meta robots con el valor noindex. De esta manera le indicamos a los bots de Google que rastrean nuestra web que no queremos indexar esa URL.
Esta indicación es de tipo directiva, lo que significa que Google debería eliminarla de los resultados de su buscador. Si todavía no la ha incorporado, con la meta etiqueta robots, no debería incluirla en su índice.
Además, esta directiva también puede ser implementada a través de la cabecera HTTP.
Aunque esta etiqueta es una muy buena forma de evitar la indexación de páginas, hay que tener en cuenta varias cuestiones:
- Introducir esta meta etiqueta no hará que Google quite la dirección de forma inmediata. Eso dependerá de cuando Google vuelva a rastrear la web y lea esa directriz. Si los rastreadores de Google pasan con más asiduidad, la URL se desindexará en menos tiempo.
- Si la URL es nueva y añadimos noindex, por norma general, Google no indexará esa página cuando la rastree.
- Esta meta etiqueta no es una obligación para Google y puede ser que no la tenga en cuenta, aunque es raro que ocurra.
Utilizando Google Search Console para desindexar URL
En la herramienta de Search Console de Google existe un apartado donde poder retirar las urls de su índice. Esta es una de las formas más efectivas para hacerlo.
Para ello, debemos meternos en Search Console y en la propiedad donde queremos eliminar la URL. En la parte de la izquierda aparece una pestaña en la que poner: retirada de urls.
Cuando le das ahí, aparece una ventana en la que puedes hacer clic en nueva solicitud y solicitar a Google que te retire una determinada URL o varias con un prefijo determinado.
Una vez enviamos nuestra solicitud y Google la aprueba, la retirada de URL dura aproximadamente unos seis meses. Es importante saber que esta desindexación es temporal y que si Google rastrea tu página y tiene señales que permiten rastrear la URL, la puede volver a indexar.
Lo recomendable es enviar la solicitud y utilizar un no index en el código HTML de la página en cuestión.
Con código de respuesta 404
Un código de respuesta 404 durante mucho tiempo puede provocar, a la larga, la desindexación de una URL.
Este código de respuesta devuelve al usuario un código de error 404 y de esta manera le decimos a Google que esa página ya no existe.
Con código de respuesta 410
El código de respuesta 410 es similar al anterior, pero resulta más efectivo que el 404. Con este último le informamos a Google que la página no existe y que hay un error, pero puede ser que más tarde la página vuelva a existir cuando solucionemos el problema.
En cambio, con un código 410 le informamos a Google de que la URL se ha ido de manera definitiva y no va a volver a existir.
Disallow en el archivo robots.txt
Podemos emplear el archivo robots.txt como medida preventiva para la indexación de futuras URL, pero no para eliminar una página del índice de Google.
En el archivo robots.txt indicamos a Google a qué páginas puede acceder y a cuáles no mediante un disallow. De esta manera, le decimos al bot de Google específicamente a qué carpetas, rutas, tipos de archivo, etc. no puede acceder y, por tanto, no lo indexará.
Bloquear la URL mediante contraseña
Cuando bloqueas una URL mediante una contraseña, Google al rastrear tu página web no podrá entrar en dicha URL y al no leer el contenido, entenderá que no es indexable.
Sin embargo, bloquear una dirección web mediante el archivo robots.txt no te garantiza que Google no la indexe. Esto del bloqueo mediante contraseña y a través de robots, hace que los bots de Google al rastrear la página no puedan leer lo que hay en la URL bloqueada y, por ese motivo, no la muestran en los resultados de búsqueda.
El problema está cuando esa URL que tenemos bloqueada recibe backlinks, es decir, está enlazada desde un dominio externo. Esto provoca que Google, al seguir el enlace, vea que hay una URL y aunque no sabe lo que hay dentro, la indexará porque la ha descubierto.
Desindexar utilizando el Sitemap
Los anteriores métodos, salvo el de Search Console, nos ayudan a retirar urls concretas y de manera individual. Pero, ¿qué pasa cuando queremos eliminar varias urls y es muy tedioso hacerlo una a una?
Existe un recurso que te puede ayudar y simplificar esa tarea: el Sitemap. Una vez que has añadido la meta etiqueta noindex o los códigos 404 o 410, puedes crear un Sitemap en el cual solo aparezcan las urls que quieres desindexar.
Para ello, deberás subir ese mapa del sitio a la raíz y enviarlo a Google a través de Search Console para que lo revise. De esta forma, hacemos que Google rastree ese conjunto de urls dándole prioridad. Al rastrearlas, verá que no son indexables y acelerará el proceso para eliminarla de su índice.