Oggi, navigando tra gli articoli, ne ho trovato uno che ritengo essere molto interessante e volevo quindi riproporvelo.

Questo articolo riguardante il Freshness Update di Google è stato pubblicato da Justin Briggs sul suo blog.

È estremamente interessante perché va ad analizzare, attraverso alcuni brevetti resi pubblici, come il motore di ricerca potrebbe capire che stiamo cercando qualcosa che rientra nella categoria “notizie fresche” e i metodi che potrebbe utilizzare per dare valore alle notizie fresche

Chiedo scusa perché in alcuni casi non si riesce a trovare un equivalente in italiano di quanto Justin scriva e quindi ho dovuto usare un po’ di inventiva, spero non me ne vogliate (ad esempio “Stale Content” = “Contenuti Stantii” ma per non dare una connotazione negativa ho preferito utilizzare “Contenuti Statici” oppure i termini “fresco” e “freschezza” usati un po’ impropriamente).

Data di Inizio

Per iniziare ci sono due principali gruppi di contenuti:

  1. i Contenuti Statici – Contenuti non aggiornati da molto tempo.
  2. i Contenuti Freschi – Contenuti aggiornati più recentemente/frequentemente, che includono anche nuovi contenuti.

Per capire quanto un contenuto valga, il motore di ricerca guarda la data di inizio del documento che include sia la data vera e propria che l’orario di pubblicazione. Possiamo avere due differenti tipi di valori iniziali.

  1. la data di inizio del documento (primo crawling o prima indicizzazione o varie).
  2. la data di inizio del documento una volta apparso come risultato di ricerca.

In poche parole, un articolo appena apparso sul web può avere una data di inizio recente ma non venire mostrato in SERP per un lungo periodo di tempo.

Le date di inizio possono derivare da:

  1. la data del primo passaggio dello spider.
  2. la data di quando è stato trovato per la prima volta un link verso la pagina.

Esistono diversi modi con cui Google potrebbe guardare la data di inizio, ma non sappiamo quale potrebbe usare. Potrebbe perfino usare diversi tipi contemporaneamente il tutto dipende dal caso specifico.

I motori di ricerca possono anche definire una soglia da superare prima di definire la data di inizio. Per esempio, la soglia potrebbero essere tre links, quindi sebbene il motore di ricerca trovo i primi due links la data di inizio non viene ancora definita fino alla scoperta del terzo. Questo procedimento è facile immaginarlo applicato ai Social Media dove un primo link ha poca rilevanza ma, una volta che si è avviata la diffusione della notizia, il valore soglia viene facilmente raggiunto e superato.

Google ci dice:

“uno dei fattori di freschezza – una delle maniere in cui si può determinare se un contenuto è fresco o meno – è il momento in cui la pagina è stata visitata per la prima volta dallo spider”

Una volta definita la data di inizio può essere calcolato un delta tra il timestamp della query e la data di inizio. Questo delta è “l’età” del documento. Inoltre, questo delta può essere usato come lasso di tempo per il calcolo dei links guadagnati. Ad esempio una pagina pubblicata da un giorno ma con 10 backlinks può essere valutata diversamente da una pagina che 100 backlinks ma pubblicata da dieci anni.

Grazie a queste informazioni, il motore di ricerca può usare i dati storici per dare un peso al risultato. Nel brevetto US 2011/0029542 (link), viene fornita la seguente equazione:

H = L/ln(F+2)

Dove: H = History Adjusted Score (Il punteggio legato alla freschezza del link), L = Link Score (la rilevanza calcolata con gli usuali metodi di analisi dei links) e F = Elapsed Time (il delta di cui si è parlato prima).

Per coloro che amano maggiormente la matematica possono trovare più informazioni leggendo il brevetto, ma in ogni caso è piuttosto chiaro di come il valore del link diminuisca. Il grafico dell’equazione potrebbe essere qualcosa del genere.

 

 

Il risultato evidente della funzione è che un URL riceve un valore maggiore a seconda di quanto sia vicino alla data di inizio della pagina. Questo valore diminuisce rapidamente con l’aumento del delta ma la sua corsa non è lineare ma logaritmica e perciò questa perdita di valore tende ad affievolirsi col tempo. Ipoteticamente si arriverà ad un punto il cui la perdita di valore sarà sufficientemente lenta da rendere quasi irrilevante l’aumento del delta.

Bisogna anche far notare che questa equazione si deve applicare soltanto alle queries che danno importanza al fattore temporale.

Età Media del Set di Documenti

Un altro metodo per assegnare un valore utilizzando la date di inizio è quello di confrontare ogni documento di un set con l’età media di ogni documento. Il singolo documento nel set potrà poi essere valutato in base alla differenza tra l’età del documento e la media del set.

 

Questo metodo potrebbe essere applicato per i prima 10, 30 o 50 risultati di una queries in cui è rilevante la freschezza.

Cambiamenti nelle Pagine

Fino a questo punto si è assunto che il documento non fosse cambiato nel tempo, ma questa analisi può esser estesa guardando le parti del contenuto che sono cambiate rispetto a quelle che sono rimaste invariate. Un esempio banale è la homapage che estrae i contenuti di un blog, i quali cambiano frequentemente, mentre il resto della pagina resta inalterato.

 

 

Il valore dato al documento (Update Score) dall’aggiornamento dei contenuti viene calcolato attraverso una sommatoria ponderata.

 

U = f(UF,UA)

 

Dove: U = Update Score, UF = Upadate Frequency Score (punteggio legato alla frequenza di aggiornamento) e UA = Update Amount Score (punteggio legato alla percentuale della pagina su cui ha influito il cambiamento).

In pratica, se si cambia poco contenuto bisogna aggiornarlo più spesso per avere lo stesso valore dato ad aggiornamenti meno frequenti ma di un maggiore contenuto.

Inoltre l’UA si potrebbe dare un peso diverso ai diversi elementi su cui ha influito l’aggiornamento. Ad esempio, se si aggiorna il menù di navigazione o la sidebar il peso che viene assegnato potrebbe essere minimo o addirittura nullo.

Inoltre i motori di ricerca potrebbero confrontare l’UF e l’UA per determinare il tasso di crescita degli aggiornamenti e capire se stia aumentando o diminuendo.

 

Punteggio Legato alle Queries

Se una frase, o un gruppo di frasi, vengono ricercate più frequentemente ciò potrebbe indicare che una query è diventata popolare. Nel caso, i documenti legati a questa query potrebbe venire posizionati più in alto rispetto ad elementi di altre query e il motore di ricerca potrebbe aumentare il peso legato alla freschezza delle pagine.

Il motore di ricerca potrebbe anche guardare il CTR del risultato per un periodo di tempo. Se un articolo in un gruppo di risultati ottiene un CTR che aumenta nel tempo, il suo punteggio potrebbe venire aumentato e il suo ranking potrebbe aumentare. Se un documento con contenuti “statici” subisce un considerevole aumento di visite in poco tempo potrebbe far cambiare al documento la categoria con cui era stato classificato e quindi farlo passare da “contenuto statico” a “contenuto fresco” e quindi subire i vari fattori legati al tempo.

 

Punteggio Legato ai Links

Un procedimento analogo a quello descritto poco fa potrebbe essere fatto sui links. Se appaiono (o scompaiono) un gran numero di links, il tasso di cambiamento potrebbe essere utilizzato dal motore di ricerca per capire se un contenuto sta diventando fresco (o statico). Analogamente al caso precedente, il relativo peso dato ai singoli documenti verrebbe cambiato in funzione della nuova classificazione.

Inoltre il motore di ricerca potrebbe valutare la freschezza degli stessi links. E quindi il valore dato dal link potrebbe essere determinato in funzione del tempo da cui lo stesso è stato sottoposto. Il valore potrebbe potrebbe essere anche valutato in funzione dell’Update Score descritto precedentemente.

FreshRank

FreshRank è un termine coniato dallo stesso Justin Briggs (autore del post originale) per descrivere la “freschezza” che viene passata dai links (come viene indicato nel brevetto US 2010/0325114.

 

Il FreshRank viene usato in combinazione ad una analisi del tipo di fonte da cui proviene il link. Quindi se il link viene da siti considerati avere Contenuti Statici (Stale) o da siti con Contenuti Freschi (Fresh) il sito verrà valutato diversamente.

 

 

Bloccare i Contenuti Statici

Un altro metodo che promuove i contenuti freschi, e crea un sistema che priviligia contenuti freschi, sia attraverso la creazione di un sistema vero e proprio che attraverso la mera eliminazione dei contenuti statici (come descritto nel brevetto US 7987172).

In questo modo i motori di ricerca riducono la possibilità di fornire risultati statici. Questo è un processo iterativo che, attraverso un successivi passaggi del crawler sulle pagine, permette di determinare l’intervallo ottimale tra i vari crawl.

 

 

Ripetendo il processo viene aggiustato l’intervallo di crawl dei documenti.

 

 

Questo processo iterativo prenderà in considerazione solamente i cambiamenti considerevoli apportati al documento.

Questo procedimento, combinato con alcuni updates quale Caffeine, permette a Google di dare maggiore priorità ad alcuni siti giacché si aumenta la velocità del processo di indicizzazione e calcolo del ranking. Nel processo, verrà quindi analizzato se la pagina ha subito un cambiamento dall’ultimo crawl e, nel caso, si andrà ad analizzare tale cambiamento.

Altri fattori, quali PageRank e il CTR in SERP, potranno essere usati, in aggiunta, per determinare la frequenza di crawling.

Interessante in questo sistema è il fatto che processo permette una molto rapida indicizzazione dei contenuti freschi.

 

Usare i Microblog (Social)

Un altro brevetto interessante, stavolta di Yahoo!, perla dell’utilizzo dei dati provenienti dal microblogging per determinare il ranking US 2011/0246457A1 (link). È interessante anche perché il microblogging indubbiamente è fonte di notizie fresche.

Google ci dice:

“Molto spesso quando si tratta di breaking news i microblog sono i primi a pubblicare. Noi siamo in grado di mostrare risultati per eventi recenti o per hot topics entro pochi minuti dalla indicizzazione della pagina, inoltre noi cerchiamo sempre di fornire il risultato più rilevante e lavoriamo per migliorare in questo”

Sappiamo che sicuramente Google usa i microblog, e il prevetto di Yahoo! ci fornisce alcune idee interessanti su come possa fare.

Una delle cose interessanti che si leggono nel brevetto è che si utilizzano diversi crawler per i contenuti web e quelli dei microblog. I contenuti vengono analizzati e trattati diversamente.

 

 

Gli URLs trattati vengono mantenuti separati e posizionati indipendentemente prima di essere combinati tra di loro, per poi essere restituiti all’utente. Il brevetto fornisce anche una lista di microblog usati per ottenere URLs fresche (quali Twitter, MySpace, LinkedIn, Tumblr e altri). Bisogna sempre sottolineare, come fa anche il brevetto tra l’altro, che questo processo viene utilizzato solo per queries in cui il fattore tempo è importante.

Attivare gli Algoritmi per le Ricerche “Fresche”

Tutti i potenziali metodi che abbiamo analizzato sono legati a queries che vengono considerate dal motore di ricerca “fresche”. Nei qual casi, ci sono una numero di fattori dovuti alla freschezza che vengono utilizzati insieme ai normali fattori per la determinazione del ranking.

Una cosa interessante in questi brevetti è la capacità di apprendimento automatico del sistema, come descritto nel brevetto US 2011/0093459.

Il problema comunque che ci si pone è legato a come il motore di ricerca possa capire se una frase, o un set di frasi, sono queries che cercano la notizie fresche. Il motore di ricerca può guardare i cambiamenti, come la variazione di quali il volume di traffico per una query, la variazione di links o l’aumento di citazioni, come segnale di freschezza. Tramite questi fattori il motore di ricerca può capire se una query è “molto chiaccherata”.

In questo caso i segnali inviati dagli utenti permettono al motore di ricerca di capire di che tipo si tratta la query digitata. Ad esempio quando usa celebrità muore improvvisamente la query legata a quel nome diventa una query fresca, Google non mostrerà più risultati legati ai lavori (quali film) di quella celebrità ma verranno mostrate notizie relativa alla sua dipartita.

Interessante è notare che il brevetto dice:

“Gli esperimenti indicano che circa il 34.6% delle informazione provenienti dai Network viene considerata legata alla freschezza”

E nell’annuncio del Freshness Update, Google dice:

“colpirà circa il 35% delle ricerche”.

 

 

Leave a Reply

Your email address will not be published.