Google SitemapI motori di ricerca usano dei programmi per scansionare il web, e identificare nuove pagine e pagine aggiornate da inserire nei propri indici. Si parla di Spider, Crawler o Robots. Ma ci sono altri modi con cui i motori di ricerca prendono informazioni sulle pagine che potrebbero includere nelle loro SERP.

Un documento da Google, “Sitemaps: Above and Beyond the Crawl of Duty (pdf)”, esamina l’efficacia delle sitemaps XML, che Google ha annunciato come un esperimento chiamato Google Sitemaps nel 2005. L’esperimento sembra aver avuto successo.

Le sitemaps XML sono un modo per i webmaster di aiutare il motore di ricerca ad indicizzare le pagine dei propri siti web, proprio attraverso l’uso di queste sitemaps. Yahoo e Microsoft si sono messi in collaborazione con Google per aggiungere il supporto alle sitemaps XML non molto dopo, e sono state lanciate una serie di pagine che spiegano il protocollo sitemaps.

Il documento ci dice che approsimativamenmte 35 milioni di siti web usano le sitemap XML, nel mese di ottobre 2008, fornendo dati per diversi miliardi di URLs. Mentre le sitemap XML sono state adottate da un grande numero di siti, noi non abbiamo avuto molte informazioni per alcuni dei motori di ricerca su quanto sono state utili le sitemaps, come potrebbero essere utilizzate insieme ai crawler e se facciano differenza sulla quantità di pagine indicizzate e sulla velocità di indicizzazione.

Sitemap Xml

Il documento risponde ad alcune di queste domande, con uno sguardo a come Google usa queste sitemap per scoprire le pagine e i nuovi contenuti i pagine già esistenti, così come un caso di studio su tre siti web differenti – Amazon, CNN e Pubmed.

L’approccio di Amazon alle sitemaps XML ruota attorno all’elevato numero di URL elencati – 20 milioni, più l’aggiunta di prodotti regolarmente. Inoltre viene anche indicata la versione “canonica” o migliore, delle pagine dei prodotti nel proprio sito web.

L’approccio del sito della CNN alle sitemaps XML si focalizza a segnalare ad aiutare Google a trovare tutti i nuovi URL tutti i giorni, affrontando anche la questione di pagine “canoniche” e non.

PubMed è un enorme archivio di URL elencati nella loro sitemap XML,  e un tasso di cambio di URL mensile.

Una parte dello studio è stata limitata a 500 milioni di URL trovati nelle sitemaps XML, e incentrata su decidere se usare le Sitemap provviste per l’inclusione di pagine di alta qualità o semplicemente i crawler da soli, senza considerare le informazioni delle sitempas.

Un altro aspetto dello studio riguardante 5 miliardi di URL che sono stati trovati sia tramite le sitemaps XML si attraverso la scansione da parte di programmi di scansione del web. Sembra che attraverso l’approccio delle sitemaps i nuovi contenuti siano stati trovati molto più velocemente:

Abbiamo studiato quale dei due sistemi di scansione, sitemaps e scansione semplice, osserva gli URLs per primo. Abbiamo condotto questo test su un database contenente più di cinque miliardi di URL che sono stati osserbati da entrambi i sistemi. Secondo le più recenti statistiche, al momento della scrittura di questo documento, il 78% di questi documenti sono stati osservati prima attraverso le sitemaps, rispetto al restante 22% osservati per prima tramite la normale scansione.

L’ultima sezione del documento descrive come le informazioni dalle sitemaps XML possono essere usate da un motore di ricerca per decidere su quali pagine di un sito eseguire la scansione per prime.

Se state usando le sitemap XML sul vostro sito, potreste trovare interessante questo caso di studio, soprattutto su come Amazon, CNN e Pubmed organizzano ed usano le loro sitemap.

Se non state usando le sitemap sul vostro sito, vi suggerisco di leggere questo documento, e di prendere in considerazione l’uso di una sitemap per il vostro sito.

One Response

Leave a Reply

Your email address will not be published.