SitemapImmaginate un motore di ricerca che possa permettere alle persone di insegnare ad un programma di web crawling come navigare all’interno delle pagine di un sito pieno di link java script e altre pagine di solito accessibili solo attraverso selezioni o input di testo in form.

Perché un motore di ricerca dovrebbe spingere un utente ad assistere un programma di crawling ad esplorare il contenuto di pagine normalmente nascoste alla maggior parte di programmi di crawling?

Utenti che insegnano ai web Crawlers.

Qui abbiamo tre esempi di persone che potrebbero aiutare un crawler a scansionare un sito:

Webmaster – I motori di ricerca possono avere difficoltà a scansionare le pagine a causa dei link java script, dei link inclusi come opzioni nei form dei menu a tendina, e altre pagine che sono accessibili solamente attraverso form.
Mentre i motori di ricerca ci forniscono degli strumenti per provare a rendere più facile ai webmaster avere le pagine dei propri siti indicizzati, come quelle che si trovano su Google Webmaster Tools, Yahoo Site Explorer, e Webmaster Center – Live Search, nessuno di questi strumenti offerti si rivolge veramente al problema.

Per un webmaster che vuole avere modi alternativi di raggiungere le pagine dietro i java script o i form, può essere difficile fare in modo che un motore di ricerca indicizzi queste pagine. E se ci fosse un metodo per fare in modo che uno webmaster possa allenare un crawler ad accedere a pagine che si trovano dietro i forms e i java script incluso negli strumenti per webmaster forniti dal motore di ricerca?
Un webmaster potrebbe aiutare ad insegnare al programma di web crawling qual’è il modo più efficace di scansionare il suo sito web, a navigare nelle pagine del sito in un certo ordine, a riempire i form nel sito, e a interagire con le pagine del sito nel modo in cui vuole lo webmaster.

Queste interazioni possono essere catturate per creare regole di scansione del sito mediante le operazioni di apprendimento. Le regole poi potrebbero essere usate successivamente da un web crawler per scansionare il sito.

Recensori manuali – Qualcuno che recensisce manualmente il contenuto della struttura delle pagine web per vedere se i motori di ricerca possono effettivamente migliorare il modo in cui quelle pagine vengono indicizzate dal motore di ricerca potrebbe creare delle regole per il programma di crawling per far seguire i link in una maniera logica o per riempire il form di ricerca per trovare meglio le pagine più rilevanti nei siti.

Sottoscrittori di contenuto – Programmi come i feed RSS e gli strumenti mashup possono portare il contenuto di un sito a qualcuno interessato a vederlo, senza che quella persona debba visitare pagine multiple.
Se le persone interessate a quel contenuto potessero allenare il programma a scansionare attraverso i form che si trovano in luoghi come i siti per trovare lavoro o delle agenzia di viaggi, o altri siti che hanno il proprio contenuto al di là di form, potrebbe aiutarli ad intercettare il contenuto del sito e a consegnarlo direttamente a loro.

Problemi con il Crawling focalizzato

Qui abbiamo due tipi comuni di web crawling.

Free crawling – quando un programma di scansione trova una pagina, immagazzina la pagina e l’indirizzo o l’ URL, esegue tutti link che si possono trovare in quella pagina per localizzare altre pagine web.

Crawling Focalizzato– un programma di scansione prova a scansionare solo le pagine che contengono un tipo specifico di contenuto, o le pagine “rilevanti”.
Ci sono diversi differenti approcci per il crawling focalizzato, ma un programma di scansione può finire per scansionare pagine irrilevanti o mancare pagine rilevanti per differenti ragioni:

Diversità di Design and Struttura – C’è molta diversificazione e variazione tra il design e la struttura delle pagine web, e se il crawler segue una singola regola logica o poche regole logiche quando passa tra le pagine, potrebbe non essere accurato nel determinare la rilevanza delle pagine quando si trova ad affrontare un largo spettro di pagine diverse.

Pagine irrilevanti in una catena di link- Ipotizziamo che molti crawlers focalizzati seguano quelle pagine che contengono uno specifico tipo di contenuto che si linkano spesso l’un l’altra. Questo può essere fuorviante – se un crawler non segue un link ad una pagina che sembra non contenere uno specifico tipo di contenuto che si sta ricercando, e ci sono pagine che sono rilevanti oltre a quella catena di link che includono quella pagina, allora il contributo rilevante può essere tralasciato.

Pagine accessibili solamente attraverso Form – A volte è necessario riempire dei form, come ad esempio dei form di ricerca per l’assunzione di lavoro, per accedere al contenuto web rilevante, come le assunzioni di lavoro e le descrizioni. I moduli differiscono molto da un sito all’altro, e anche all’interno dello stesso sito, così che il contenuto rilevante può essere facilmente tralasciato se un crawler non capisce come riempire i diversi tipi di modulo.

Mancanza di accesso a contenuto limitato – Un proprietario di un sito potrebbe non volere che alcune pagine siano indicizzate, le quali però sono rilevanti per la focalizzazione della scansione.

Le cose che un web Crawler può imparare dall’osservare qualcuno che naviga attraverso un sito:

Qui ci sono alcune delle cose che un web crawler può imparare da un utente:

  • Quali sono le pagine che hanno più probabilità di essere rilevanti
  • Quali pagine hanno meno probabilità di essere rilevanti
  • Come riempire al meglio i moduli per accedere al contenuto dinamico
  • Come fare e perché cliccare in particolari parti di una pagina che sono state navigate come ad esempio gli URL o i bottoni o le schede
  • Come selezionare i valori da un menu a tendina

Una domanda di brevetto di Yahoo esplora in profondità i modi in cui una persona può aiutare le scansioni di una pagina web :

Yahoo

Cattura automatica del contenuto web con l’assistenza dell’utente
Inventato da Amit Jaiswal, Arup Malakar e Binu Raj
Assegnato a Yahoo
Domanda di brevetto USA 20090019354
Pubblicato il 15 gennaio 2009
Archiviato l’11 settembre 2007

Estratto

Viene divulgato un metodo per l’esecuzione delle attività su un sito. Le attività di navigazione di un utente su un sito web vengono catturate. Le attività di browsing comprendono l’apposizione di etichette alle pagine web e il riempimento dei moduli. Le attività catturate vengono analizzate per la formulazione di modelli.

Le regole per l’esecuzione di attività su un sito web sono basate sulla generazione di modelli. Vengono eseguiti ulteriori attività su un sito secondo le regole ed il contenuto del sito viene attratto. Il contenuto catturato viene usato in tali servizi e applicazioni web, inclusi i crawlers.

Le regole che un programma di scansione web può imparare guardando qualcuno usare un particolare sito possono essere espanse dal programma per svolgere altre attività in quelle pagine che l’utente può non avere eseguito.

Esempio:
Un sito web con molti link è diviso in tre categorie, elenchi di posti di lavoro, sezioni non correlate al lavoro, e link alla homepage del sito.
Qualcuno può aver visitato alcune delle pagine con gli elenchi dei lavori, ma non tutte.
Il programma di scansione può imparare delle regole dalle visite delle pagine delle liste dei lavori, per capire come visitare tutte le pagine delle inserzioni di lavoro.

Conclusioni

Il brevetto Cattura Automatica ci fornisce molti dettagli su come l’interazione tra sito e utente può essere usata per aiutare il programma di crawling dei motori di ricerca ad indirizzare i tre tipi di attività che ho menzionato all’inizio di questo post:

  • Un webmaster che allena un crawler a trovare pagine che dovrebbero essere indicizzate sui suoi siti,
  • Un revisore manuale che impara ad un crawler come trovare le pagine, e;
  • Un sottoscrittore normale che mostra al programma i tipi di informazioni che dovrebbero sottoscrivere e a cui dovrebbero essere spediti gli aggiornamenti.

Ci sono anche un paio di vecchie domande di brevetto Yahoo che potrebbero essere utilizzate con i metodi di questo presente a cui vale la pena dare un’occhiata per saperne di più su come Yahoo potrebbe provare ad indicizzare il contenuto del web e che si riferiscono ad alcuni di problemi che il crawling focalizzato spesso si trova ad affrontare:

Ho visto una quantità di persone dire in posti diversi del web che un motore di ricerca potrebbe imparare ad indicizzare dalle nuove pagine usando toolbars e altri strumenti per trovare nuove pagine che non ha ancora indicizzato.

La domanda di brevetto Yahoo che si occupa delle attività dell’utente per trovare nuovo contenuto da indicizzare nel web ipotizza l’uso di una toolbar per trovare pagine che si trovano ad un livello ulteriore, mostrando come un motore di ricerca possa imparare ai programmi di crawling come indicizzare più pagine e come creare delle regole site-specific sull’indicizzazione delle pagine prestando attenzione a come le persone navigano il web, interagiscono con le pagine, e riempiono i moduli.
Permettere agli webmaster e alle persone che vogliono sottoscrivere del contenuto di insegnare esplicitamente ai programmi di crawling come si navigano le pagine potrebbe alleviare il lavoro dei motori di ricerca e spostarlo sulle persone che potrebbero utilizzare i servizi che quei motori di ricerca potrebbero fornire.

Questo è sicuramente un passo al di là delle Sitemap XML.

Ringraziamenti

Si ringraziano:

Sara Radicia, webmaster di Firefox Blog e traduttrice per la traduzione del testo.
SeobytheSea per la stesura originale dell’articolo in lingua inglese e per la collaborazione data.

About The Author

Ideatore e Web Master di SeoPoint.org, si occupa di SEO dal 2007. E’ stato relatore a diversi eventi organizzati da GT Idea Srl. E’ moderatore nel Forum GT, la community di riferimento per i SEO in Italia. Studia Ingegneria Industriale presso l'Università degli Studi della Tuscia di Viterbo. Sognatore, appassionato di corsa e outdoor e scout da sempre.

7 Responses

  1. Testato

    Cosa molto interessante! Grazie.

    Forse questa è una via per i motori di ricerca ontologici e semantici?

    Oppure è una cosa totalmente diversa?

    Rispondi
  2. Liberlex

    Ciao. Volevo segnalarti un problema.Nell'indice web gli ultimi tre contenuti del mio sito non sono indicizzati. E' come se da una decina di giorni Google non aggiornasse le pagine relative al mio sito, nonostante io abbia inviato la sitemap a tutti i motori di ricerca (anche in Google Webmaster). E' qualcosa di normale? Saluti, Liberlex.

    Rispondi

Leave a Reply

Your email address will not be published.