Categorie

Come modificare robots.txt in WordPress con Yoast Plugin + altre opzioni

Impara il file robots.txt e come installarlo e modificarlo in WordPress.

Non hai idea di cosa sia robots.txt e cosa faccia per il tuo sito? Avete davvero bisogno di sapere cos'è e come usarlo? In questo articolo, parliamo di cosa è robots.txt e come installare robots.txt su WordPress, con o senza un plugin gratuito come Yoast SEO.

La prima cosa che dovrei dire è che per impostazione predefinita, WordPress crea automaticamente un file robots.txt per il tuo sito. Quindi, anche se non alzi un dito, il tuo sito dovrebbe già avere un file robots.txt di WordPress.

Ma, se lo sapevate, siete presumibilmente qui perché volete saperne di più, o aggiungere altre funzionalità (istruzioni) a questo file.

A tal fine...

...Sei nuovo di robots.txt e ti senti completamente perso?

Forse qualcuno nel tuo team ti ha designato per occuparti di qualcosa sul file robots.txt, come "Assicurati che tale-e-quello sia aggiunto/bloccato su robots.txt".

In ogni caso, farò finta che tu non sappia nulla di robots.txt, e ti dirò rapidamente tutto quello che devi sapere per iniziare con questo file di testo cruciale.

Prima di iniziare, dovrei dire che questo articolo copre la maggior parte delle installazioni di WordPress (che sono alla radice di un dominio). Nel raro caso in cui avete WordPress installato su una sottocartella o sottodominio, allora come e dove si installa robots.txt può essere diverso da quello che io dettaglio qui sotto. Detto questo, questi stessi principi e idee chiave si applicano ancora.

Cos'è robots.txt?

Probabilmente sapete che ci sono dei web crawler che visitano i siti ed eventualmente indicizzano i dati trovati su quei siti. Questi sono anche chiamati robot. Sono qualsiasi tipo di bot che visita e striscia i siti web su internet. Il tipo più comune di robot sono i bot dei motori di ricerca o search engine crawler come quelli di Google, Bing, ecc. Essi scansionano le pagine e aiutano i motori di ricerca a indicizzare le pagine e a classificarle nelle SERP.

Si dice che, arrivando a un sito, uno dei primi file che i crawler dei motori di ricerca o web crawler dovrebbero cercare è il file robots.txt.

Un file robots.txt è un semplice file di testo che fornisce istruzioni per i crawler dei motori di ricerca e i web crawler. È stato creato a metà degli anni '90 dal desiderio di controllare come i robot interagiscono con le pagine. Permette ai proprietari e agli sviluppatori web la possibilità di controllare come i robot possono interagire con un sito. Puoi bloccare ai robot l'accesso a particolari aree del tuo sito, mostrare loro dove la tua sitemap può essere accessibile, o causare un ritardo nella scansione del tuo sito.

Quindi, in un certo senso, se ci sono alcune sezioni del tuo sito che non vuoi che siano scansionate, un file robots.txt può istruire gli utenti-agenti che rispettano le regole a non visitare quelle cartelle.

Ci sono alcuni crawler che sono stati progettati per scopi maliziosi, e questi crawler possono non rispettare gli standard stabiliti dal Robots Exclusion Protocol.

Detto questo, se hai informazioni sensibili su una certa parte del tuo sito, potresti voler prendere misure extra per limitare l'accesso a quei dati, come l'installazione di un sistema di password.

Dov'è il file robots.txt?

Per la maggior parte delle installazioni di WordPress, il file robots.txt si trova sul dominio principale. Cioè, per la maggior parte dei siti WordPress (che sono installati nella directory principale di un dominio), il file robots.txt può essere trovato in /robots.txt.

Così, per esempio, questo sito (seointel.com) ha un'installazione WordPress sulla radice del suo dominio. Quindi, il suo file robots.txt si trova in /robots.txt (https://seointel.com/robots.txt)

Hai davvero bisogno di modificare il tuo file robots.txt predefinito?

Se non avete un file robots.txt o se avete solo il file di default di WordPress, i crawler possono strisciare tutte le pagine del vostro sito web e non saprebbero quali aree non dovrebbero strisciare. Questo dovrebbe andare bene per chi ha appena iniziato con un blog o siti che non hanno molto contenuto. Tuttavia, per i siti che hanno un sacco di contenuti e siti che gestiscono informazioni private, un file robots.txt sarebbe necessario.

Per i siti che hanno molti contenuti, sarebbe una buona pratica impostare un file robots.txt che stabilisce quali siti non scansionare. Perché? Questo perché i bot dei motori di ricerca di solito hanno una quota di crawl, un tasso di crawl o un budget di crawl per ogni sito web. I bot possono scansionare solo un certo numero di pagine per scansione e se non finiscono di scansionare tutte le vostre pagine, riprenderanno a scansionarle nelle prossime sessioni di scansione. Questo significa che per i siti di grandi dimensioni, la scansione del sito può essere più lenta e causare un'indicizzazione più lenta dei contenuti nuovi o aggiornati. Questo problema può essere risolto impedendo ai crawler di scansionare le pagine non importanti del tuo sito, come le pagine di amministrazione, i file dei plugin e la cartella dei temi. 

Facendo questo, puoi ottimizzare il tuo sito e assicurarti che i robot scansionino solo le pagine importanti del tuo sito e che le nuove pagine siano scansionate e indicizzate il più velocemente possibile. 

Ci sono anche casi in cui il contenuto duplicato non può essere evitato in un sito. Alcuni scelgono di aggiungere la pagina nel robots.txt in modo che le pagine duplicate non vengano scansionate. 

Un altro è quando il tuo sito vede un alto traffico di bot che può avere un impatto sull'uso del tuo server o sulle sue prestazioni. Puoi bloccare alcuni bot dal crawl del tuo sito o puoi impostare un ritardo di crawl. Questo aiuta a migliorare i problemi di performance del tuo sito.

Aggiungere le sitemaps al file robot.txt aiuta anche il bot di Google a trovare la tua sitemap e a scansionare le pagine del tuo sito, anche se spesso questo non viene più aggiunto perché le sitemaps possono essere impostate in Google Search Console.

Comandi Robots.txt

Il file robots.txt ha due comandi principali. La direttiva User-agent e la direttiva disallow.

  • User-agent è ciò che i bot usano per identificarsi e questo comando permette di colpire bot specifici.
  • Disabilita dice ai robot di non accedere a un'area particolare del tuo sito. 

Oltre a questi due comandi comuni, ci sono anche i comandi Permettere che parla da solo e, come impostazione predefinita, tutto sul vostro sito è contrassegnato come Allow, quindi non è davvero necessario usarlo. Questo può essere usato però quando si disconosce l'accesso alla cartella padre ma si permette l'accesso alle sottocartelle o a una cartella figlia.

Ci sono anche comandi per Crawl-delay e Sitemap

Ci sono anche casi in cui non si vuole che una pagina sia indicizzata e la migliore linea d'azione potrebbe non essere solo il disallowing nel file robots txt. Il comando Disallow non è lo stesso del comando noindex tag. Mentre il comando disallow blocca i crawler dalla scansione di un sito, non blocca necessariamente l'indicizzazione di una pagina. Se vuoi che una pagina non sia indicizzata e non appaia nei risultati di ricerca, la cosa migliore da fare è usare un tag noindex. 

Esempi di robots.txt

Forse l'esempio migliore è il tuo stesso esempio. Dato che stai leggendo questo, probabilmente hai un sito WordPress. Vai al file robots.txt effettivo di quel sito - aggiungi /robots.txt al tuo dominio principale. (Se non hai ancora un sito WordPress, segui semplicemente gli esempi qui sotto).

Cosa vedi?

robots.txt Esempio #1: Un file robots.txt vuoto

Potresti vedere un file vuoto o vuoto, che non è il massimo, ma tecnicamente non c'è niente di male. Significa solo che i crawler possono andare dove possono.

robots.txt Esempio #2: un semplice file robots.txt

User-agent: *
Permettere: /

Quindi, il modo in cui le istruzioni di robots.txt funzionano è che c'è un richiamo al web crawler o all'user-agent (questo può essere per tutti gli user-agent o per quelli specificamente nominati), seguito sulla linea successiva da una certa istruzione (di solito o per permettere o non permettere certe cartelle o file). 

L'asterisco (*) implica tutti, cioè tutti gli utenti-agenti, e la barra (/) indica il dominio. Quindi, queste due righe di codice stanno effettivamente dicendo: "Tutti gli agenti-utente sono ammessi ovunque su questo dominio". 

robots.txt e webcrawlers seo intelligence agency

Che ci crediate o no, questo ha esattamente le stesse implicazioni di un file robots.txt vuoto ed è spesso il file robots.txt predefinito.

Guardiamo uno leggermente più complicato...

robots.txt Esempio #3: Tutti i bot vietati a wp-admin

User-agent: *
Non permettere: /wp-admin/

Sappiamo che l'asterisco (*) significa tutti i bot/crawler/user-agent. 
La cartella wp-admin non è ammessa.

Quindi, questo è un richiamo (un'istruzione) impedisce ai crawler dei motori di ricerca e ad altri bot di strisciare e passare attraverso la cartella wp-admin. (Questo è comprensibile, perché la cartella wp-admin è di solito un'area sicura, solo per il login, di un'installazione WordPress).

robots.txt Esempio #4: Forse l'esempio più pratico: Proteggere le tue aree a pagamento dall'essere indicizzate

Se hai un'area di accesso a pagamento, una pagina di download o file privati che non sono protetti da password, quella pagina di download potrebbe essere visitata da qualcuno che usa un browser Chrome, che sospetto avviserebbe Googlebot, dicendo: "Ehi, questa persona ha lasciato la sua area a pagamento completamente aperta". 

Poi, Googlebot potrebbe venire e indicizzare inconsapevolmente la tua area a pagamento. 

Ora, le possibilità che qualcuno trovi la tua area a pagamento tramite una ricerca su Google sono basse... a meno che forse non abbia una conoscenza degli operatori dei motori di ricerca e sappia cosa cercare.

robots.txt Esempio #5: tutti i bot non ammessi a wp-admin, bot specifici non ammessi del tutto

User-agent: *
Non permettere: /wp-admin/


User-agent: Exabot
Non permettere: /

User-agent: NCBot
Non permettere: /

Sappiamo da prima che tutti i bot sono istruiti a non passare attraverso la cartella wp-admin. Ma abbiamo anche istruzioni aggiuntive per il campo user-agent - Exabot e user-agent NCBot.

Questo significa che si limita l'accesso del bot a questi 2 specifici utenti-agenti.

Notate che per Exabot e NCBot, anche se le istruzioni di disconoscimento sono identiche, sono ancora abbinate a uno dei due. 

E, notate che c'è una riga vuota dopo l'istruzione (disallow) per tutti gli utenti-agenti, una riga vuota dopo l'istruzione (disallow) per Exabot, e presumibilmente, una riga vuota dopo l'istruzione (disallow) per NCBot.

Questo perché le regole di robots.txt specificano che se hai un'istruzione per specifici user-agent, allora questi user-agent devono avere il loro callout (essere specificatamente nominati), e sulla prossima linea (o linee), elencare le istruzioni per quell'user-agent. 

In altre parole, non potete raggruppare specifici utenti-agenti o assegnare generalmente istruzioni a un gruppo di specifici utenti-agenti. Potete usare l'asterisco (*) per richiamare tutti gli utenti-agenti, ma non potete altrimenti raggruppare utenti-agenti specifici senza usare l'esempio di istruzione callout-next-line sopra. 

Quindi, fondamentalmente, ci deve essere una linea vuota dopo l'ultima istruzione per uno (o tutti) gli user-agent seguita dal richiamo di un altro user-agent (seguito da un'istruzione sulla linea successiva).

robots.txt Esempio #6: Tutti gli agenti utente, istruzioni multiple

User-agent: *
Non permettere: /wp-admin/
Consentire: /wp-admin/admin-ajax.php
Non permettere: /wp-snapshots
Non permettere: /trackback

Quindi, tutti gli user-agent sono disabilitati da wp-admin, con l'eccezione che sono autorizzati a strisciare un file specifico in wp-admin (admin-ajax.php), e disabilitati da qualsiasi url che inizia dalla root con wp-snapshots o trackback.

robots.txt Esempio #7: Tutti gli agenti utente, istruzioni multiple con sitemap

User-agent: *
Non permettere: /wp-admin/
Consentire: /wp-admin/admin-ajax.php
Non permettere: /wp-snapshots
Non permettere: /trackback

Mappa del sito: https://example.org/sitemap.xml
Mappa del sito: https://example.org/sitemap.rss

Questo esempio è una continuazione di quello usato nell'esempio precedente, con due linee aggiunte che dicono ai bot di ricerca (o ai web-crawler) il percorso dei file per le sitemaps RSS e XML. 

C'è un po' di più che si può fare con robots.txt, ma penso che questi esempi siano sufficienti per iniziare.

Come installare (o modificare) un file robots.txt su un sito WordPress

Quindi, come ho detto prima, il tuo sito WP potrebbe già avere un file robots.txt che è stato aggiunto durante l'installazione (basta controllare yoursite.com/robots.txt). 

Tuttavia, si potrebbe desiderare di personalizzarlo o dargli qualche funzionalità. Ci sono generalmente 2 modi per installare (o modificare) un file robots.txt su un'installazione di WordPress - uno usando un plugin, e l'altro senza l'uso di un plugin:

  1. Forse il modo più semplice è con un plugin (che si può ottenere gratuitamente). La prima opzione che mi viene in mente è la versione gratuita del plugin Yoast SEO che è un potente strumento seo che potete installare sul vostro sito. Alcuni altri plugin di strumenti SEO, come All In One SEO (AISEO), sono anche in grado di modificare (o aggiungere) un file robots.txt. Ci sono molti strumenti utili che potete usare per aiutarvi con questo.
  2. Se non vuoi usare i plugin seo, puoi creare manualmente un file fisico per il tuo file robots.txt tramite il sistema di gestione dei file del tuo host o server. (Questo può essere cPanel, anche se un client FTP, o un'altra opzione fornita dal tuo host).

Come installare un plugin WordPress per aiutare con robots.txt

  1. Per prima cosa, sappiate quale plugin vorreste installare. In questo caso, supponiamo che tu voglia installare Yoast SEO.
  2. Accedi alla tua area wp-admin o wp-login.
  3. Vai su Plugins > Add New. 
  4. Dovresti vedere una casella di ricerca dove puoi inserire il nome di un plugin (o parole chiave relative a certe caratteristiche). Inserisci Yoast SEO, poi clicca su Invio.
  5. Vedrai quindi una pagina di risultati. Clicca sul risultato che vuoi installare.
  6. Dopo averla installata, dovreste poi cliccare su Activate.
installare yoast seo plugin wordpress
attivare yoast seo plugin wordpress

Come installare un plugin WordPress per aiutare con robots.txt

Ora che avete installato Yoast SEO, ecco i passi che potete fare per modificare o installare un file robots.txt. (Nota: se Yoast è cambiato dal momento in cui sto scrivendo questo, alcuni dei passaggi qui sotto potrebbero essere diversi, ma credo che Yoast SEO avrà ancora una funzione robots.txt).

Passo1: Sapere quali cambiamenti vorresti fare

Questo è chiaro: vuoi cambiare/modificare (o aggiungere) un file robots.txt con certe istruzioni. Assicurati di sapere quali sono.

Passo 2: Importante: fai il backup del tuo file robots.txt (se c'è)

Questo è semplice: basta andare al tuo file robots.txt (site.com/robots.txt) e salvare quel file sul tuo computer cliccando Ctrl + S (o qualunque sia la combinazione sulla tua tastiera per salvare un file). 

Naturalmente, questo viene fatto solo nel caso in cui si commetta un errore.

Passo 3: Accedi al tuo sito WordPress.

Passo 4: Fare clic su SEO sul lato sinistro del cruscotto. (Vedi l'immagine qui sotto).

Passo 5: Fare clic su Strumenti nelle impostazioni SEO.

Passo 6: Abilita la modifica del file e clicca su editor di file.

Questa opzione non apparirà se è disattivata.

file editor yoast seo

Passo 7: Crea le modifiche al tuo file robots.txt.

Puoi farlo seguendo gli esempi qui sopra, o usando qualsiasi altra istruzione specifica che vuoi caratterizzare.

creare robots.txt per wordpress

Passo 8: Salvare queste modifiche.

Dovrebbe essere così! Vai alla sezione sottostante su come verificare e testare il tuo file robots.txt.

Come modificare (o aggiungere) un file robots.txt via FTP, cPanel o il sistema di gestione dei file del tuo host/server

Ricorda che quando è stato installato, WordPress ha probabilmente creato un file robots.txt virtuale. Cercalo quando vai nelle cartelle del tuo sito.

Passo 1: Assicurati di sapere quali modifiche vorresti fare, o cosa vuoi nel tuo file robots.txt. 

Passo 2: Importante: fai un backup del tuo file robots.txt. Vai al tuo file robots.txt (site.com/robots.txt) e salva quel file sul tuo computer. Facendo questo, se più tardi fai un errore, hai una versione precedente a cui tornare.

Passo 3: Utilizzando il File Transfer Protocol (FTP), il file cPanel, o un'altra soluzione di gestione dei file, accedi alla radice del tuo dominio (cartella principale) e modifica (o crea) un file robots.txt. 

(In alternativa, puoi semplicemente usare un editor di testo per creare un file di testo sul tuo computer locale, metterci le istruzioni che vuoi, salvarlo come robots.txt e poi caricarlo).

Salva questo file con il nome: robots.txt 

Passo 3: Se hai creato questo file robots.txt sul tuo computer, caricalo nella root del tuo dominio.

Passo 4: Assicurati che questo file robots.txt sia presente. Puoi farlo andando su yoursite.com/robots.txt

Verificare, testare o controllare il tuo file robots.txt

Quando si tratta di codifica, non c'è spazio per gli errori, altrimenti i robot non eseguiranno le istruzioni desiderate. 

Ecco perché è necessario convalidare o controllare il file.

Puoi semplicemente fare una ricerca su Google per un validatore o controllore robots.txt. Ci sono diverse opzioni gratuite disponibili.

Aggiungere istruzioni al tuo file robots.txt

Per aggiungere istruzioni al tuo file robots.txt, segui semplicemente i passi sopra (tramite un plugin o FTP). 

Non dimenticare di fare un test finale

Quando hai finito, fai un test finale usando un validatore o un checker robots.txt.

Sentirsi meglio nel lavorare con WordPress robots.txt?

All'inizio di questo articolo, ho chiesto se vi sentivate persi riguardo al robots.txt sui siti WordPress. Speriamo che le cose siano un po' più chiare per voi. Ricorda: robots.txt è solo un semplice file di testo che dice ai bot di ricerca (utenti-agenti) dove possono e non devono andare.

Anche se robots.txt è probabilmente già presente nella vostra installazione di WordPress, è possibile modificarlo utilizzando un plugin per WordPress (come Yoast SEO) o tramite il sistema di gestione dei file del vostro host e spero che attraverso il mio articolo, abbiate un'idea migliore su come farlo sul vostro sito.

Ci sono molti usi per il file robots.txt. Mentre potrebbe non essere realmente un file per il seo e non influisce direttamente sul rank, aiuta a fare in modo che il vostro sito e le pagine giuste siano scansionate, indicizzate, classificate per i vostri termini target nei risultati dei motori di ricerca, e a guadagnare traffico dei motori di ricerca. Questo, di per sé, è un motivo sufficiente per impostare il file robots.txt per il vostro sito WordPress.

Cercate altri era per aiutarvi con le vostre strategie di ottimizzazione dei motori di ricerca e guadagnare traffico organico al vostro sito? Vuoi diventare un esperto SEO e cerchi altre informazioni SEO? Controlla il nostro altro contenuto sul SEO e permetteteci di aiutarvi a posizionarvi su Google e sugli altri principali motori di ricerca. 

DK Fynn

SIA STAFF SEO WRITER

DK Fynn biografia completa qui.