Meta robots: Para qué sirve, su implementación e importancia en el SEO

Tiempo de lectura aprox: 5 minutos, 47 segundos

que-son-los-metarobots

La Meta Robots es una metaetiqueta HTML que se inserta en el cogido de una página web, y te permite guiar e indicar a las arañas de  google, si quieres que la página donde fue implementada la meta etiqueta, sea rastreada o indexada.

Esta pequeño código tiene un gran impacto en las páginas y la optima indexación de nuestro sitio por parte de google.

Por lo tanto, es esencial pero debemos tener cuidado en su uso.

Si quieres saber más sobre indexación haz clic en el siguiente enlace: Indexación en Google: ¿Qué es y cómo optimizarlo?


¿Para qué sirve los meta robots?

El uso de las etiquetas META robot tiene en mira dos objetivos:

  1. Indicar a las arañas de google que no debe indexar un contenido o página en especifico
  2. Control al seguimiento de enlaces dentro de nuestra página, por parte de las arañas de google

Recordemos que su uso va orientado a indicaciones negativas, ya que el no implementarlas los robot de búsqueda lo interpretan como “positivo”, es decir no hay ninguna restricción, en la indexación de la página y seguimiento de los enlaces de la web.

Por esa razón, debes evitar aplicar las metaetiquetas a páginas que quieres que google las indexe o siga sus enlaces, y hacerlo en páginas donde quieres que se bloquee el acceso.

¿Por qué es importante?

Muchos expertos en SEO consideran los meta robots no muy relevantes. Sin embargo, puede serlo para sitios con varias páginas y con poco control en el mantenimiento.

Mediante un archivo llamado “robots.txt” le dirá a “las arañas de google” si pueden recorrer todo el sitio o deben excluir alguna página o directorio. Su implementación mejorará la eficiencia del tiempo que gastan los robots en indexar y con ello daremos más importancia a las páginas con mayor valor para nuestros usuarios; de esta manera podremos tener un mejor posicionamiento SEO.


¿Dónde va y cómo implementamos una Meta robots?

Se encontrará ubicada en la cabecera de nuestro documento HTML es decir dentro de la etiqueta <head></head>, la sintaxis es muy simple consta de dos atributos muy importantes para su implementación: name, content, como lo muestra a continuación:

<!DOCTYPE html>
<html>
<head>
<title></title>
<meta name="robots"  content="noindex" />
</head>
<body>
</body>
</html>


Atributo name:

Indica el tipo de metaetiqueta que estás insertando, en este caso meta robots.

Cuando el name tenga como valor “robots”, las instrucciones se aplican a todos los robots rastreadores, sin embargo se puede ser más específico, esto se denomina user-agent, por ejemplo el user-agent rastreador web estándar de Google es Googlebot y lo podemos usar de esta forma:

<meta name=«googlebot» content=«noindex» />


Atributo Content:

Indica el estado, que desees que esté el contenido de la página, en este ejemplo “noindex”, es decir sin indexar, pueden ser varias instrucciones o directrices a la vez, todas se indican en el atributo content, siempre en cuando estén separados por comas.


Principales directrices de la meta robots

Index/noindex: Es una de las más conocidas, nos ayuda a indicar a los motores de búsqueda como google, si debe indexar o no la pagina en donde está implementada

follow /nofollow: Indica a las arañas rastreadores de google si debe seguir o no los enlaces la página donde está implementada

archive/noarchive: Se le indica al buscador si debe guardar o no el contenido de la página en la memoria caché del mismo

snippet  / nosnippet: Indica a los motores de búsqueda  mostrar el título y la descripción o solo el título, en los resultados de búsqueda .

Si quieres saber más sobre los snippets, visita el siguiente articulo: Que son los snippet y su importancia en el SEO

translate / notranslate: opción para permitir la traducción de la página a diferentes idiomas, en los resultados de búsqueda

Noimageindex: Indica que no se indexe las imágenes de la página y que no aparezcan en los resultados de búsqueda

unavailable_after: [RFC-850 date/time]: Indica a google la vigencia de una página en los resultados de búsqueda hasta una fecha y hora determinada


Puesto en marcha

Antes de poner en marcha estas metaetiquetas debes tener presente en cómo cualquier directriz que implementes puede afectar a tu sitio web.

Te mostramos algunos ejemplos más utilizados y su interpretación de este tipo de metaetiquetas, recuerda que podemos dar varias instrucciones a la vez separados con comas.

<meta name=«robots» content=«index,follow»>

Por defecto todas las páginas web, tienen el siguiente comportamiento, así que no es necesario colocar la siguiente instrucción, esta indica que se debe indexar la página y seguir los enlaces incluidas en la página 

<meta name=«robots»  content=«index,nofollow»/>

Le indicamos al motor de búsqueda que queremos que indexe la página pero que no siga los enlaces de la misma.

  • Es recomendado en paginas donde si quieres que se indexe su contenido, pero que no haga un seguimiento a los enlaces de páginas externas de tu sitio, para no darles relevancia en los motores de búsqueda

<meta name=«robots»  content=«noindex, follow»/>

Le indicamos al robot que queremos que no indexe la página pero si siga sus enlaces en el contenido de la misma.

  • Es recomendado usar en todas las páginas no index de tu sitio web, que puedan contener enlaces a secciones que si quieres indexar dentro del mismo sitio
  • Paginaciones, que suelen tener enlaces a artículos u otras paginas si  importantes para su indexación
  • En páginas como Aviso Legal, Política de Cookies y Privacidad, donde no es importante su indexación debido al contenido en sí de estas páginas, pero sí pueden tener enlaces de referencia al home de nuestro sitio, por lo tanto podemos aplicar un seguimiento

<meta name=«robots»  content=«noindex, nofollow»/>

Para indicar que no queremos que se indexe la página ni se sigan los enlaces que pueda contener.


¿Cuál es la diferencia entre un Meta robots y robot.txt?

El objetivo principal del uso de los Meta robots y las directrices en el archivo robot.txt es indicar al buscador, qué páginas, sí, deberían ser indexadas y/o rastreadas y cuáles no. Aunque pudiera parecer que son métodos iguales, sin embargo a nivel SEO, si existen diferencias. Y es importante saberlo para lograr los resultados deseados.

Antes de poder empezar con las diferencias, es necesario entender bien estos dos conceptos: rastrear e indexar.

En el rastreo los buscadores acceden al contenido e información de la página y hacen un seguimiento de esta, luego el buscador decide si indexar o no el contenido en el índice de google, de esto dependerá la visualización en los resultados de búsqueda de nuestra página. Ahora bien si el buscador no rastrea una página ahorramos tiempo de rastreo y hacemos un uso optimizado del “crawl-rate”, así el robot rastreará aquellas páginas que son más importantes en tu sitio web. Pero si ocurre lo contrario rastrea pero no indexa, no aparecerá en los resultados de búsqueda y será tiempo perdido del crawl budget, algo que afectará el SEO de nuestra página.


A nivel rastreo:

Es hora de empezar, cuando los robot de google acceden a un nuevo sitio web, buscan primero el archivo Robot.txt para consultar las directivas específicas, si encuentras la directiva <disallow> para una URL específica, el rastreador de google sencillamente pasará por alto dicha URL  y no será indexada. 

Prácticamente habremos cerrado la puerta, los robots Google no pasarán tiempo en una página que no queremos que indexe. Así que aunque hubiéramos puesto Meta Robots en el head de la página, no tendrían acceso.

Por el contrario, si no existe ninguna directriz en el archivo robot.txt, las arañas de google no tendrán ningún problema en rastrear el contenido del sitio web, pero si encuentran en el head una metaetiqueta “noindex”, el robot entenderá que no debe indexar dicha página por lo tanto no aparecerá en los resultados de búsqueda.

Aunque a simple vista vemos que cumplen el mismo objetivo, hay una principal diferencia, el consumo de recursos de rastreo de Google, mientras que al emplear el archivo robot.txt, no tuvo que acceder a la url ni acceder a su contenido, simplemente lo paso por alto, las meta robots si tuvieron que emplear un tiempo de rastreo

En conclusión: El archivo robot.txt es para especificar directrices en forma general a nivel de sitio, mientras las metaetiquetas son más locales, a nivel de URL


A nivel indexación:

Ahora veamos a nivel indexación, como comentamos anteriormente al colocar la directriz <disallow> en el archivo robot.txt, evita que Google rastree e indexe la URL o sitio en cuestión, aun así es posible que Google pueda acceder y leer su contenido, si encuentra que esta URL está enlazada desde un sitio externo, así que es posible que las arañas ingresen y logren indexar tal vez de forma incompleta.

Puedes descubrir algunas URL sin descripción al introducir el footprint site:tudominio.es y ver todas las páginas indexadas de tu web.

Por el contrario un meta robot <no index>, puedes en definitiva evitar que los robot de google pueden indexar la URL 


Otras alternativas de indexación

Además de las etiquetas meta robots y el archivo robot.txt, encontramos otras opciones para controlar la indexación en nuestro sitio web.


Enlace Canonical

Si quieres entender más sobre este recurso muy utilizado te animamos a poder visitar el artículo completo sobre los enlaces canonical.

En términos generales un enlace canonical sugiere a google que el contenido a indexar es la URL adjunta a dicho enlace canónico, esto para evitar contenido duplicado en un sitio web bien de una misma pagina o paginas distintas

Frente a esto debemos tener presente que un enlace canonical, como bien lo comentamos es solo una sugerencia, si google encuentra varios enlaces internos o externos apuntando a la URL determinada, probablemente la indexe aunque el enlace canónico este apuntando a otra URL.


Gestión de parámetros en Google Search Console

Otra manera de poder controlar la indexación de una página es gestionando los parámetros por medio de Google Search Console, así podemos dar instrucciones sobre qué parámetros deben indexar de una URL.