Categorías

Cómo editar robots.txt en WordPress con el plugin Yoast + más opciones

Conozca el archivo robots.txt y cómo instalarlo y editarlo en WordPress.

¿No tiene ni idea de qué es el robots.txt y qué hace por su sitio? ¿Realmente necesitas saber qué es y cómo usarlo? En este artículo, hablamos de lo que es robots.txt y cómo instalar robots.txt en WordPress, con o sin un plugin gratuito como Yoast SEO.

Lo primero que debo decir es que, por defecto, WordPress crea automáticamente un archivo robots.txt para su sitio. Así que, aunque no muevas un dedo, tu sitio ya debería tener el archivo robots.txt de WordPress.

Pero, si lo sabías, es de suponer que estás aquí porque quieres saber más, o añadir más funcionalidad (instrucciones) a este archivo.

Para ello...

...¿Es usted nuevo en el uso de robots.txt y se siente totalmente perdido?

Tal vez alguien de su equipo le haya designado para encargarse de algo en el archivo robots.txt, como "Asegúrese de que tal y tal cosa se añada/bloquee en robots.txt".

Sea como sea, voy a fingir que no sabe nada sobre robots.txt, y le contaré rápidamente todo lo que necesita saber para empezar con este archivo de texto crucial.

Antes de empezar, debo decir que este artículo cubre la mayoría de las instalaciones de WordPress (que están en la raíz de un dominio). En el raro caso de que tenga WordPress instalado en una subcarpeta o subdominio, entonces cómo y dónde instalar el robots.txt puede diferir de lo que detallo a continuación. Dicho esto, estos mismos principios e ideas clave siguen siendo aplicables.

¿Qué es el archivo robots.txt?

Probablemente sepa que existen rastreadores web que visitan los sitios y posiblemente indexan los datos que se encuentran en ellos. También se les llama robots. Son cualquier tipo de bot que visita y rastrea sitios web en Internet. El tipo de robot más común son los bots de los motores de búsqueda o rastreadores de motores de búsqueda como los de Google, Bing, etc. Rastrean las páginas y ayudan a los motores de búsqueda a indexarlas y clasificarlas en las SERP.

Se dice que, al llegar a un sitio, uno de los primeros archivos que los rastreadores de los motores de búsqueda o web crawler deben buscar es el archivo robots.txt.

Un archivo robots.txt es un simple archivo de texto que proporciona instrucciones para los rastreadores de los motores de búsqueda y los rastreadores web. Fue creado a mediados de los años 90 por el deseo de controlar cómo los robots interactúan con las páginas. Permite a los propietarios y desarrolladores web la capacidad de controlar cómo los robots pueden interactuar con un sitio. Puede bloquear el acceso de los robots a determinadas áreas de su sitio, mostrarles dónde pueden acceder a su mapa del sitio o provocar un retraso en el rastreo de su sitio.

Así que, en cierto modo, si hay algunas secciones de su sitio que no quiere que sean rastreadas, un archivo robots.txt puede indicar a los usuarios-agentes respetuosos que no visiten esas carpetas.

Hay algunos rastreadores que han sido diseñados con fines maliciosos, y esos rastreadores pueden no respetar las normas establecidas por el Protocolo de Exclusión de Robots.

Dicho esto, si tiene información delicada en una parte determinada de su sitio web, es posible que desee tomar medidas adicionales para restringir el acceso a esos datos, como la instalación de un sistema de contraseñas.

¿Dónde está el archivo robots.txt?

En la mayoría de las instalaciones de WordPress, el archivo robots.txt se encuentra en el dominio raíz. Es decir, para la mayoría de los sitios de WordPress (que se instalan en el directorio raíz de un dominio), el archivo robots.txt se encuentra en /robots.txt.

Así, por ejemplo, este sitio (seointel.com) tiene una instalación de WordPress en la raíz de su dominio. Así, su archivo robots.txt se encuentra en /robots.txt (https://seointel.com/robots.txt)

¿Realmente necesita editar su archivo robots.txt por defecto?

Si no tiene un archivo robots.txt o si sólo tiene el archivo por defecto de WordPress, los rastreadores pueden rastrear todas las páginas de su sitio web y no sabrían qué áreas no deben rastrear. Esto debería estar bien para aquellos que acaban de empezar con un blog o sitios que no tienen mucho contenido. Sin embargo, para los sitios que tienen mucho contenido y los sitios que manejan información privada, un archivo robots.txt sería necesario.

Para los sitios que tienen mucho contenido, sería una buena práctica configurar un archivo robots.txt que establezca qué sitios no deben rastrearse. ¿Por qué? Porque los robots de los motores de búsqueda suelen tener una cuota de rastreo, una tasa de rastreo o un presupuesto de rastreo para cada sitio web. Los bots sólo pueden rastrear un determinado número de páginas por rastreo y si no terminan de rastrear todas sus páginas, las reanudarán en las siguientes sesiones de rastreo. Esto significa que para los sitios grandes, el rastreo del sitio puede ser más lento y causar una indexación más lenta del contenido nuevo o actualizado. Este problema puede solucionarse impidiendo que los rastreadores rastreen las páginas sin importancia de su sitio, como las páginas de administración, los archivos de plugins y la carpeta de temas. 

De este modo, podrá optimizar su sitio y asegurarse de que los robots sólo rastreen las páginas importantes de su sitio y que las nuevas páginas se rastreen e indexen lo más rápidamente posible. 

También hay casos en los que no se puede evitar el contenido duplicado en un sitio. Algunos optan por añadir la página en el robots.txt para que las páginas duplicadas no sean rastreadas. 

Otra es cuando su sitio está viendo un alto tráfico de bots que puede estar impactando el uso de su servidor o el rendimiento del mismo. Puede bloquear ciertos bots para que no rastreen su sitio o puede establecer un retraso de rastreo. Esto ayuda a mejorar los problemas de rendimiento de su sitio.

Añadir sus mapas de sitio a su archivo robot.txt también ayuda a que el robot de Google encuentre su mapa de sitio y rastree las páginas de su sitio, aunque esto ya no suele añadirse, ya que los mapas de sitio pueden configurarse en Google Search Console.

Comandos de Robots.txt

El archivo robots.txt tiene dos comandos principales. La directiva User-agent y disallow.

  • Agente de usuario es lo que los bots utilizan para identificarse y este comando le permite dirigirse a bots específicos.
  • No permitir indica a los robots que no accedan a una zona determinada de su sitio. 

Además de estos dos comandos comunes, también existen los comandos Permitir que habla por sí mismo y, por defecto, todo en su sitio está marcado como Permitir, por lo que no es realmente necesario utilizarlo. Sin embargo, esto puede ser utilizado cuando usted no permite el acceso a la carpeta principal, pero permite el acceso a las subcarpetas o una carpeta secundaria.

También hay comandos para Retraso en el gateo y Mapa del sitio

También hay casos en los que no se desea que una página sea indexada y la mejor acción puede no ser simplemente desautorizar en el archivo robots txt. El comando Disallow no es lo mismo que el comando noindex etiqueta. Si bien el comando disallow bloquea el rastreo de un sitio por parte de los rastreadores, no impide necesariamente la indexación de una página. Si quiere que una página no se indexe y no aparezca en los resultados de búsqueda, lo mejor será utilizar una etiqueta noindex. 

Ejemplos de robots.txt

Quizá el mejor ejemplo sea el suyo propio. Ya que está leyendo esto, probablemente tenga un sitio de WordPress. Vaya al archivo robots.txt de ese sitio - añada /robots.txt a su dominio raíz. (Si aún no tiene un sitio de WordPress, simplemente siga los ejemplos siguientes).

¿Qué ves?

Ejemplo de robots.txt #1: Un archivo robots.txt en blanco

Es posible que vea un archivo en blanco o vacío, lo cual no es lo mejor, pero técnicamente no hay nada malo en ello. Sólo significa que los rastreadores pueden ir donde pueden.

robots.txt Ejemplo #2: Un archivo robots.txt sencillo

Agente de usuario: *
Permitir: /

Así pues, el funcionamiento de las instrucciones de robots.txt consiste en que hay una llamada al rastreador web o al agente de usuario (puede ser para todos los agentes de usuario o para algunos específicos), seguida en la línea siguiente por una instrucción determinada (normalmente para permitir o no permitir determinadas carpetas o archivos). 

El asterisco (*) implica todos, es decir, todos los usuarios-agentes, y la barra (/) significa el dominio. Así, estas dos líneas de código están diciendo efectivamente: "Todos los usuarios-agentes están permitidos en cualquier lugar de este dominio". 

robots.txt y webcrawlers agencia de inteligencia seo

Lo crea o no, éste tiene exactamente las mismas implicaciones que un archivo robots.txt en blanco y suele ser el archivo robots.txt por defecto.

Veamos uno un poco más complicado...

robots.txt Ejemplo #3: Todos los bots no pueden acceder a wp-admin

Agente de usuario: *
Disallow: /wp-admin/

Sabemos que el asterisco (*) significa todos los bots/rastreadores/agentes usuarios. 
La carpeta wp-admin no está permitida.

Por lo tanto, esta es una llamada (una instrucción) impide que los rastreadores de los motores de búsqueda y otros bots rastreen y pasen por la carpeta wp-admin. (Esto es comprensible, porque la carpeta wp-admin suele ser una zona segura y de acceso exclusivo de una instalación de WordPress).

Ejemplo de robots.txt #4: Quizás el ejemplo más práctico: Proteger sus áreas de pago para que no sean indexadas

Si tienes un área de acceso de pago, una página de descarga o archivos privados que no están protegidos por contraseña, esa página de descarga podría ser visitada por alguien que utilice un navegador Chrome, lo que sospecho que alertaría a Googlebot, diciendo: "Oye, esta persona dejó su área de pago abierta de par en par". 

Entonces, Googlebot podría venir y sin saberlo indexar su área de pago. 

Ahora bien, las posibilidades de que alguien encuentre su área de acceso de pago a través de una búsqueda en Google son escasas... a no ser que tenga conocimientos de los operadores de los motores de búsqueda y sepa qué buscar.

Ejemplo de robots.txt #5: Todos los bots no pueden acceder a wp-admin, determinados bots no pueden acceder en su totalidad

Agente de usuario: *
Disallow: /wp-admin/


Agente de usuario: Exabot
Disallow: /

Agente de usuario: NCBot
Disallow: /

Sabemos desde antes que todos los bots tienen instrucciones de no pasar por la carpeta wp-admin. Pero también tenemos instrucciones adicionales para el campo de usuario-agente - Exabot y usuario-agente NCBot.

Esto significa que usted restringe el acceso del bot a esos 2 usuarios-agentes específicos.

Fíjate que para Exabot y NCBot, aunque las instrucciones disallow son idénticas, se emparejan con cualquiera de las dos. 

Y, fíjate que hay una línea en blanco después de la instrucción (disallow) para todos los usuarios-agentes, una línea en blanco después de la instrucción (disallow) para Exabot, y presumiblemente, una línea en blanco después de la instrucción (disallow) para NCBot.

Esto se debe a que las reglas de robots.txt especifican que si usted tiene una instrucción para agentes de usuario específicos, entonces esos agentes de usuario deben tener su propia llamada (ser nombrados específicamente), y en la(s) siguiente(s) línea(s), enumerar la(s) instrucción(es) para ese agente de usuario. 

En otras palabras, no se pueden agrupar usuarios-agentes específicos ni asignar instrucciones en general a un grupo de usuarios-agentes específicos. Puede utilizar el asterisco (*) para llamar a todos los usuarios-agentes, pero no puede agrupar a usuarios-agentes específicos sin utilizar el ejemplo de la instrucción de llamada de línea siguiente. 

Así que, básicamente, tiene que haber una línea en blanco después de la última instrucción para uno (o todos) los agentes de usuario, seguido por la llamada de otro agente de usuario (seguido por una instrucción en la siguiente línea).

robots.txt Ejemplo #6: Todos los usuarios-agentes, múltiples instrucciones

Agente de usuario: *
Disallow: /wp-admin/
Permitir: /wp-admin/admin-ajax.php
Disallow: /wp-snapshots
No permitir: /trackback

Así, todos los usuarios-agentes tienen prohibido el acceso a wp-admin, con la excepción de que se les permite rastrear un archivo específico en wp-admin (admin-ajax.php), y se les prohíbe cualquier url que comience desde la raíz con wp-snapshots o trackback.

Ejemplo de robots.txt #7: Todos los agentes de usuario, múltiples instrucciones con sitemaps

Agente de usuario: *
Disallow: /wp-admin/
Permitir: /wp-admin/admin-ajax.php
Disallow: /wp-snapshots
No permitir: /trackback

Mapa del sitio: https://example.org/sitemap.xml
Mapa del sitio: https://example.org/sitemap.rss

Este ejemplo es una continuación del utilizado en el ejemplo anterior, con dos líneas añadidas que indican a los robots de búsqueda (o rastreadores web) la ruta del archivo para los mapas de sitio RSS y XML. 

Hay un poco más que se puede hacer con robots.txt, pero creo que estos ejemplos son suficientes para que pueda empezar.

Cómo instalar (o editar) un archivo robots.txt en un sitio de WordPress

Por lo tanto, como he mencionado anteriormente, su sitio WP puede tener ya un archivo robots.txt que se añadió durante la instalación (sólo tiene que comprobar yoursite.com/robots.txt). 

Sin embargo, es posible que desee personalizarlo o darle alguna funcionalidad. Por lo general, hay dos formas de instalar (o editar) un archivo robots.txt en una instalación de WordPress: una utilizando un plugin y otra sin utilizarlo:

  1. Tal vez la manera más fácil es con un plugin (que puedes conseguir gratis). La primera opción que se me ocurre es la versión gratuita del plugin Yoast SEO, que es una potente herramienta seo que puedes instalar en tu sitio. Algunos otros plugins de herramientas SEO, como All In One SEO (AISEO), también son capaces de editar (o añadir) un archivo robots.txt. Hay un montón de herramientas útiles que puede utilizar para ayudarle con esto.
  2. Si no quieres usar plugins seo, puedes crear manualmente un archivo físico para tu archivo robots.txt a través del sistema de gestión de archivos de tu host o servidor. (Esto puede ser cPanel, a través de un cliente FTP, u otra opción proporcionada por su anfitrión).

Cómo instalar un plugin de WordPress para ayudar con robots.txt

  1. En primer lugar, debes saber qué plugin quieres instalar. En este caso, supondremos que quieres instalar Yoast SEO.
  2. Entre en su área de wp-admin o wp-login.
  3. Vaya a Plugins > Añadir nuevo. 
  4. Debería ver un cuadro de búsqueda en el que puede introducir el nombre de un plugin (o palabras clave relativas a determinadas funciones). Introduzca Yoast SEO, y luego haga clic en Enter.
  5. A continuación, verás una página de resultados. Haga clic en el resultado que desee instalar.
  6. Después de instalarlo, debe hacer clic en Activar.
instalar yoast seo plugin wordpress
activar yoast seo plugin wordpress

Cómo instalar un plugin de WordPress para ayudar con robots.txt

Ahora que tienes Yoast SEO instalado, estos son los pasos que puedes seguir para editar o instalar un archivo robots.txt. (Nota: si Yoast ha cambiado desde el momento en que estoy escribiendo esto, algunos de los pasos a continuación pueden ser diferentes, pero creo que Yoast SEO todavía tendrá una función robots.txt).

Paso 1: Saber qué cambios quiere hacer

Esto está claro: quiere cambiar/editar (o añadir) un archivo robots.txt con ciertas instrucciones. Asegúrese de saber cuáles son.

Paso 2: Importante: Haga una copia de seguridad de su archivo robots.txt (si lo hay)

Esto es sencillo: sólo tiene que ir a su archivo robots.txt (site.com/robots.txt) y guardar ese archivo en su ordenador haciendo clic en Ctrl + S (o la combinación que tenga en su teclado para guardar un archivo). 

Por supuesto, esto se hace sólo en caso de que se cometa un error.

Paso 3: Inicie sesión en su sitio web de WordPress.

Paso 4: Haga clic en SEO en el lado izquierdo del panel de control. (Vea la imagen de abajo).

Paso 5: Haga clic en Herramientas en la configuración de SEO.

Paso 6: Habilitar la edición de archivos y hacer clic en el editor de archivos.

Esta opción no aparecerá si está desactivada.

editor de archivos yoast seo

Paso 7: Realice los cambios en su archivo robots.txt.

Puede hacerlo siguiendo los ejemplos anteriores, o utilizando cualquier otra instrucción específica que desee presentar.

crear robots.txt para wordpress

Paso 8: Guarde estos cambios.

Eso es todo. Vaya a la sección siguiente para verificar y probar su archivo robots.txt.

Cómo editar (o añadir) un archivo robots.txt a través de FTP, cPanel o el sistema de gestión de archivos de su host/servidor

Recuerde que cuando se instaló, WordPress probablemente creó un archivo virtual robots.txt. Búscalo cuando entres en las carpetas de tu sitio.

Paso 1: Asegúrese de saber qué cambios quiere hacer, o qué quiere en su archivo robots.txt. 

Paso 2: Importante: Haga una copia de seguridad de su archivo robots.txt. Simplemente vaya a su archivo robots.txt (site.com/robots.txt) y guarde ese archivo en su ordenador. Al hacer esto, si más tarde, comete un error, tiene una versión anterior a la que volver.

Paso 3: Mediante el protocolo de transferencia de archivos (FTP), el archivo cPanel u otra solución de gestión de archivos, acceda a la raíz de su dominio (carpeta raíz) y edite (o cree) un archivo robots.txt. 

(También puede utilizar un editor de texto para crear un archivo de texto en su ordenador local, poner las instrucciones que desee, guardarlo como robots.txt y luego subirlo).

Guarde este archivo con el nombre: robots.txt 

Paso 3: Si ha creado este archivo robots.txt en su ordenador, súbalo a la raíz de su dominio.

Paso 4: Asegúrese de que este archivo robots.txt está ahí. Puedes hacerlo yendo a tu sitio.com/robots.txt

Verificar, probar o comprobar su archivo robots.txt

Cuando se trata de codificar, no hay lugar para los errores, de lo contrario, los robots no ejecutarán las instrucciones que usted desea. 

Por eso es necesario que valide o compruebe su archivo.

Puedes simplemente hacer una búsqueda en Google de un validador o verificador de robots.txt. Hay varias opciones gratuitas disponibles.

Añadir instrucciones a su archivo robots.txt

Para añadir instrucciones a su archivo robots.txt, sólo tiene que seguir los pasos anteriores (ya sea a través de un plugin o de FTP). 

No olvide hacer una prueba final

Cuando haya terminado, haga una prueba final utilizando un validador o verificador de robots.txt.

Sentirse mejor trabajando con WordPress robots.txt?

Al principio de este artículo, te pregunté si te sentías perdido sobre el robots.txt en los sitios de WordPress. Espero que las cosas estén un poco más claras para ti. Recuerda: robots.txt es un simple archivo de texto que indica a los robots de búsqueda (usuarios-agentes) dónde pueden y dónde no deben ir.

Aunque es probable que el archivo robots.txt ya esté en su instalación de WordPress, puede editarlo utilizando un plugin de WordPress (como Yoast SEO) o a través del sistema de gestión de archivos de su proveedor de alojamiento y espero que a través de mi artículo, tenga una mejor idea de cómo hacerlo en su sitio.

Hay muchos usos para el archivo robots.txt. Aunque no sea realmente un archivo para seo y no afecte directamente a la clasificación, ayuda a asegurarse de que su sitio y las páginas correctas sean rastreadas, indexadas, clasificadas para sus términos objetivo en los resultados de los motores de búsqueda, y a ganar tráfico de los motores de búsqueda. Esto, en sí mismo, es razón suficiente para configurar su archivo robots.txt para su sitio de WordPress.

¿Buscando otros era para ayudarle con sus estrategias de optimización de motores de búsqueda y ganar tráfico orgánico a su sitio? ¿Quieres ser un experto en SEO y buscas más información sobre SEO? Echa un vistazo a nuestros otros contenido sobre SEO y permítanos ayudarle a posicionarse en Google y otros motores de búsqueda importantes. 

DK Fynn

SIA STAFF SEO WRITER

DK Fynn biografía completa aquí.