Che effetto abbiamo nel ranking se aggiorniamo spesso una pagina? Se abbiamo uno pagina che ha subito modifiche come verrà valutata dal motore di ricerca?

Un brevetto della Microsoft ci da un’idea di come i vari motori di ricerca abbiano risposto a queste domande, riporto l’estratto con link al brevetto:

ASSIGNING RELEVANCE WEIGHTS BASED ON TEMPORAL DYNAMICS

Inventors: Dumais; Susan T.; (Kirkland, WA) ; Elsas; Jonathan Louis; (Pitsburgh, PA) ; Liebling; Daniel John; (Seattle, WA)

US Patent Application 20100325131

Application Number: 12/488594

Publication Date: 23/12/2010

Filing Date: 22/06/2009

Abstract

A system described herein includes a receiver component that receives a first dataset, wherein the first dataset comprises temporal dynamics pertaining to a document that is accessible by a search engine, wherein the temporal dynamics comprise an identity of a term corresponding to the document and an indication that the term has been subject to change over time. The system also includes a weight assignor component that assigns a relevance weight to the document based at least in part upon the temporal dynamics pertaining to the document, wherein the relevance weight is utilized by the search engine to assign a ranking to the document with respect to at least one other document when the search engine retrieves the document.

Che cosa ci dice?

L’estratto ci dice che il motore di ricerca fa riferimento ad un documento nel quale sono riportati i singoli cambiamenti nel corso di tempo. Quindi il motore assegna un valore al documento che sarà poi rilevante nel ranking.

Perciò il motore non si limita ad una analisi della pagina allo stato attuale ma tiene bene a mente i cambiamenti che sono avvenuti.

Però il dire che il motore assegna un valore sarebbe un po’ troppo semplicistico, infatti il brevetto ci dice:

“[0007]Pursuant to an example, a first score can be assigned to a document independent of a query, wherein the first score is based at least in part upon temporal dynamics of the document. For instance, an identity of a particular term that is subject to change in the document can be ascertained, and rate of change of such term can be taken into consideration when determining the first score. Further, nature of one or more terms that have altered over time can be considered when determining the first score, such as whether the term is included in the document, whether the term is a tag assigned to the document by a user, whether the term is included in anchor text of the document, etc. The first score may then be used to rank the document with respect to at least one other document in a ranked list of documents.

[0008]Additionally or alternatively, a second score can be assigned to the document, wherein the second score is dependent upon the content and/or nature of the query. For instance, a received query can be classified as either information seeking or navigational. A navigational query is a query that is employed by users who want to navigate to a particular document (e.g., a homepage of a particular newspaper). An information seeking query is a query that is employed by users to locate particular (e.g., recent) information. The second score can be assigned to the document based at least in part upon the classification of the query. Furthermore, temporal dynamics of the document may also be considered when determining the second score. The document may then be ranked within a ranked list of documents based at least in part upon the second score.”

e:

“[0043]The weight assignor component 112 can receive the classification generated by the query classifier component 402 and can assign a weight to the document 108 based at least in part upon the classification (and temporal dynamics corresponding to the document 108). As indicated above, separate models (e.g., three separate models) can be generated for the document 108, and based upon the classification, one of the models can be assigned a greater weight when compared to other models. For instance, if the query classifier component 402 classifies the query as navigational, the weight assignor component 112 can give greater deference to the language model (e.g., virtual document) that includes terms that change infrequently over time. If the query classifier component 402 classifies the query as informational, the weight assignor component 112 can give greater deference to the language model that includes terms that change more frequently over time.”

Esso ci dice che i pesi sono diversi. Un primo valore assegnato non dipende dal tipo di query e, ovviamente, ha valenza nel ranking. Invece un secondo valore è assegnato in funzione del contenuto della pagina e della query. Un utente che cerca utilizzando una query informazionale probabilmente sarà più interessato a notizie più aggiornate mentre un utente che compone query navigazionali non avrà un grande interesse per pagine più aggiornate, il motore di ricerca tiene conto di questo.

Quali sono i fattori che vengono considerati?

Questo brevetto ci parla dei vari elementi che sono presi in considerazione nell’assegnazione del “peso” quali:

  • Le parole del documento;
  • Gli Anchor Text;
  • Colore e dimensioni delle immagini;
  • La posizione del testo e delle immagini;
  • La query utilizzata;
  • Frequenza dei cambiamenti;
  • Le modifiche apportate;
  • Altri cambiamenti che possono essere apportati del tempo..

Questo brevetto è molto interessante anche perché ci mostra, ancora una volta, come il motore di ricerca faccia distinzione tra i tipi di queries che sono state formulate e vediamo, ancora una volta, le potenzialità di questo fatto.

One Response

  1. spedizioni

    Non so se esistono strumenti ma sicuramente tra i vari consigli che posso darti per l'ottimizzazione ci sono

    – Selezionare solo le informazioni necessarie
    – Selezionare solo le righe necessarie
    – utilizzare correttamente la clausola WHERE oppure evitare le SubQuery a favore dell'uso di JOIN

    Ti consiglio anche di utilizzare la funzionalità EXPLAIN che permette di testare la query e riceverne delle informazioni utili sull'utilizzo delle risorse.

    Rispondi

Leave a Reply

Your email address will not be published.