Che cosa intende Google per “crawl budget” ?

Scritto il

Il blog di Google dedicato ai Webmaster ha appena pubblicato un interessante post per fare chiarezza sul dibattuto e delicato tema del “crawl budget“, termine tecnico che sta ad indicare il parametro o il valore che Google attribuisce al nostro sito web ai fini della sua attività di scansione.

In altre parole, esso è il budget di scansione (crawl) che Google riserva per le nostre pagine web. Per questo, se vogliamo capire se il nostro sito piace a Big G la prima cosa da fare è dare un’attenta occhiata alle statistiche di scansione presenti all’interno della Google Search Console.

Attraverso questo prezioso strumento che Google ci mette a disposizione possiamo infatti osservare i dati di scansione degli ultimi 90 giorni e da qui verificare quanto tempo il motore di ricerca dedica alla scansione del nostro sito. Appunto qual’è il crawl budget che Big G ci ha assegnato .

E’ evidente che un budget alto rivela che Google apprezza i nostri contenuti, tornando a scansionarli più volte. In pratica, se Googlebot passa al setaccio le nostre pagine web ogni giorno, sta a significare che lo spider tiene a ciò che pubblichiamo considerandolo contenuto valido e di qualità da indicizzare ed offrire agli utenti delle sue SERP.

In particolare, i valori da tenere  in considerazione per un’analisi del proprio crawl budget sono essenzialmente due:

  1.  il numero di pagine scansionate quotidianamente: il valore ideale è quello di avere un numero totale di pagine sottoposte a scansione più alto o pari al numero delle pagine presenti sul sito web.
  2. il tempo impiegato per il download: valore che indica principalmente il tempo che Googlebot impiega per effettuare una scansione delle nostre pagine. E’ consigliabile ed importante cercare di mantenere tale valore il più basso possibile andando ad aumentare la velocità del nostro sito web.

COSA DICE GOOGLE ?

Dopo aver chiarito il concetto di crawl budget vediamo ora cosa dice in proposito Google attraverso le parole del suo analista Gary Illyes.

Illyes tiene a chiarire proprio il significato di crawl budget, sottolineando come questo sia un aspetto del quale la maggior parte degli editori non dovrebbe preoccuparsi più del dovuto.

DISTINZIONE TRA SITI PICCOLI E GRANDI

Se un sito è composto da poche migliaia di pagine, nella maggior parte dei casi, sarà scansionato interamente in maniera efficace senza particolari accorgimenti.

Diverso è invece il caso di siti più grandi, composti da decine, centinaia o migliaia di pagine, dove è importante stabilire dei criteri di priorità in maniera da “indicare” a Googlebot su quali risorse concentrare la propria attività di crawling.

LIMITE DI SCANSIONE

In questa prospettiva, lo specialista Google introduce il concetto di “Crawl rate limit” corrispondente al limite massimo di scansioni che Google assegna ad un determinato sito.

In altre parole, esso rappresenta il numero di connessioni simultanee che Googlebot decide di avviare in parallelo per sottoporre a scansione un sito, così come il tempo che lo spider decide di aspettare tra un’attività e l’altra.

Tale limite di “Crawl rate” può oscillare verso l’alto o verso il basso sulla base di 2 fattori specifici:

  • Crawl health: è l’indice di salute, in termini di scansioni, che dipende dalla velocità di risposta del sito. Se il sito risponde velocemente, il limite sale, aumentando di conseguenza le possibilità di scansioni da parte di Google. Al contrario, se il sito rallenta o risponde con errori server, tale limite cala, determinando una diminuzione delle scansioni da parte di Googlebot.
  • Gestione del limite nella Search Console: i proprietari dei siti web possono ridurre o alzare il livello di scansione di Googlebot direttamente nella Search Console, sebbene aumentare manualmente tale livello non comporti un automatico incremento del “crawl budget”.

Domanda di scansione

Al di là del limite di scansione, Google chiarisce inoltre che anche se tale limite non fosse raggiunto, se non c’è domanda da parte dell’indicizzazione, si avrà comunque una bassa attività da parte di Googlebot.

In particolare, i due fattori che giocano un ruolo significativo nel determinare la domanda di scansione, si legge sempre sul blog ufficiale di Google, sono:

  1. Popolarità: le URL che sono più popolari su Internet tendono ad essere sottoposte a scansione più spesso, in maniera da averle sempre fresche ed aggiornate all’interno dell’indice.
  2. Mancanza di freschezza: i sistemi Google tentano di impedire l’indicizzazione di URL che diventano “stantie”, ossia contenuti “datati” e obsoleti che presumibilmente suscitano scarso interesse, oltre che una “bad user experience” nei visitatori.

In aggiunta a ciò, altri fattori che influiscono sulla “domanda di scansione” sono
gli eventi che accadono a livello del sito, come migrazioni di contenuti o spostamenti di interi siti che possono determinare un aumento della domanda di scansione per reindicizzare i contenuti in base alle nuove URL.

Mettendo assieme velocità e domanda di scansione  viene definito il crawl budget corrispondente al quantitativo di URL che Googlebot può e vuole scansionare per un dato sito web.

Fattori che influenzano il crawl budget

Gary Illyes continua il suo articolo elencando alcuni ulteriori fattori che, secondo le analisi Google, possono influenzare in negativo la scansione ed indicizzazione di un sito:

In ordine di importanza, queste sono le categorie di URL a basso valore aggiunto che vanno quindi a “penalizzare” il “crawl budget”:

Sprecare risorse del server su pagine come queste avrà la conseguenza negativa  di esaurire l’attività di “crawling” a disposizione attraverso l’indicizzazione di pagine che in realtà non hanno alcun valore, portando così indirettamente ad un grave e significativo ritardo nella scoperta degli altri contenuti del sito di valore e qualità.

Domande più frequenti

L’articolo si conclude con una selezione delle domande più interessanti sul tema che riportiamo qui sotto, tradotte, integralmente.

D: la velocità del sito influisce sul mio crawl budget? Che mi dite riguardo errori?

R: Fare un sito più veloce migliora non solo l’esperienza degli utenti ma aumenta anche la velocità di scansione. Per Googlebot avere un sito veloce è un segno di server in salute, in maniera che possa ottenere più contenuti simultaneamente dallo stesso numero di connessioni. Il rovescio della medaglia è che un numero significativo di errori 5xx o di connessioni di timeout sono una segnale del contrario, e per questo lo scansionamento rallenta.
Per questo consigliamo di prestare attenzione al Crawl Errors report in Search Console , il rapporto sugli errori di scansione disponibile nella Search Console e mantenere il numero degli errori server bassi.

D: La scansione è un fattore di ranking?

A: Un aumento della velocità di scansione non necessariamente porta a migliorare le posizioni nei risultati di ricerca. Google utilizza centinaia di segnali per classificare i risultati, e sebbene la scansione sia necessaria per essere nei risultati, non è un segnale per il posizionamento.

D: Le URL alternative e i contenuti incorporati (embedded) vengono conteggiati nel crawl budget ?

R: In generale, qualsiasi URL che Googlebot scansiona viene conteggiata nel “crawl budget” di un sito. URL alternative, come AMP o hreflang, così come i contenuti incorporati, come CSS e JavaScript, possono essere sottoposti a scansione e consumare il budget di scansione di un sito. Allo stesso modo,  lunghe catene di redirect possono avere un effetto negativo sulle scansioni.

D: Posso controllare Googlebot con la direttiva “crawl-delay”?

R: La regola robots.txt non standard di “crawl-delay” non viene elaborata da Googlebot.

D: La direttiva nofollow influisce sul budget di scansione?

A: Dipende. Qualsiasi URL che viene scansionato influisce sul budget di scansione, quindi, anche se la pagina segna una URL come nofollow può essere lo stesso sottoposta a scansione se un’altra pagina del sito, o di qualsiasi altra pagina sul web, non etichetta il collegamento come nofollow.

Per noi di RdMedia che siamo quotidianamente alle prese con la gestione del “crawl budget” di alcuni siti web più “grossi” questi chiarimenti da parte di Google sono preziosi e ci aiuteranno a fare ancora meglio il nostro lavoro !