Michele De Capitani ci parla di LDA: Latent Dirchlet Allocation, l’algoritmo semantico che potrebbe utilizzare Google.
Gli algoritmi di ranking nel tempo si sono evoluti sempre di più: l’unico fattore che c’è sempre stato e che resterà sempre sono i contenuti.
Si è però passati dalla semplice analisi dei tags e della keyword density all’analisi dei fattori esterni, compresi links e analisi dello spam e della duplicazione dei contenuti.

Michele passa a fare una rassegna delle maggiori paure dei SEO, una di queste è quella di dover stravolgere tutto ciò che sappiamo e la semantica potrebbe fare questo in parte.
Lo studio della semantica è un campo molto difficile e “tecnico”, che però può avere interessanti applicazione nella SEO, va quindi analizzato.
L’analisi dei links probabilmente è già portata ad altissimi livelli, quindi non si hanno grandi prospettive di sviluppo degli algoritmi; al contrario l’analisi dei contenuti può essere sviluppata ancora molto.

Alcune Sigle Fondamentali

IR(Information Retrieval), l’analisi del contenuto nell’ambito della ricerca.
TF/IDF(Term Frequency/Inverse Document Frequency) – In pratica la keyword density
LSA(Latent Semantic Anlysis) – Analisi Semantica Latente
PLSA (Probabilistic Latent Semantic Anlysis) – Analisi Semantica Probabilistica Latente
LSI(Latent Semantic Indexing) – Indicizzazione Semantica
LDA(Latent Dirichlet Anlysis) – Analisi Latente di Dirichlet
HTMM(Hidden Topic Markov Models) – Modelli di Markov sui Documenti Nascosti

Da scaricare: lab.prima-posizione.it/seo-tools/tf-idf.zip

LSA

E’ una tecnica di elaborazione del linguaggio naturale che analizza le relazioni fra insiemi di documenti e che produce un’insieme di concetti correlati. La LSA però non rileva i diversi significati di un termine(polisemia).

LSI

Non è altro che l’applicazione della LSA in ambito IR, cioè di recupero delle informazioni.

PLSA

È un miglioramento della LSA apportando un calcolo probabilistico ai risultati. E’ statisticamente più salda proprio grazie al fatto che è un calcolo probabilistico.
Genera però troppi collegamenti fra termini-argomenti.

LDA

È un’evoluzione della PLSA. Con LDA si riesce a superare la generazione di rumore(overfitting). Genera tutti i collegamenti fra gli argomenti latenti e le parole osservate, basandosi sulla probabilità di correlazione e la distribuzione delle parole generate da quell’argomento.
Tramite la LDA i motori di ricerca potrebbero riuscire a capire se una frase, una porzione di testo o un documento sia correlato a una determinata key(o a un determinato argomento ancora meglio) senza che quella key sia mai citata.

HTMM

Potenzia la LDA partendo da due presupposti: frasi prossimi tendono a mantenersi, ovvero a parlare dello stesso argomento ed è difficile trovare bruschi cambiamenti di argomento fra frasi successive.
HTMM è un’esplicita rappresentazione per il topic di ogni frase, risolvendo il problema legato alla polisemia.

HTMM richiede però molta più potenza di calcolo.

La Pratica

Google parla di HTMM e LDA dal 2007. Ha inoltre pubblicato due brevetti a tema semantica e LDA applicati alla IR.
Anche Yahoo e Bing, in ritardo, si stanno muovendo.
L’ingegneria informatica, parallelamente lavora sulla semantica: PAM, CTM E IFTM sono studiati da tecnici di grandi aziende come la IBM.

Test SEO

L’obiettivo è mettere a confronto la SEO tradizionale e la “SEOMantica”.
Il test è tuttora in corso, è effettuato su keywords nuove e non competitive.
Per l’analisi della semantica possiamo usare: adwords keywords suggestion, suggetimenti per le ricerche correlate, espansione delle query e vocabolario dei sinonimi.

Dal test è risultato che le “vittorie” del sito che faceva attenzione alla semantica e non alla mera ripetizione di keywords, h1, ecc. sono di più di quelle delle pagine SEO “classiche”.

Comunque l’ottimizzazione classica del contenuto ha ancora una buona rilevanza sul ranking, soprattutto quando le keyword sono nuove. Le pagine “semantiche” risultano più performanti quando andiamo a verificare il ranking anche per le keyword in trust. Gli algoritmi di Google sulla semantica esistono e competono con gli altri fattori del ranking, ma non sono ancora abbastanza affinati.

Le Slide

6 Responses

  1. Lavorare Online

    Interessante questo speech, sicuramente da approfondire… Concetti abbastanza nuovi un pò per tutti penso…

    Solo una precisazione: lab.primaposizione.it/seo-tools/tf-idf.zip non funziona perchè il link giusto è: lab.prima-posizione.it/seo-tools/tf-idf.zip 😉

    Rispondi
  2. dechigno

    Grazie Paolo, per il riassunto.. presto pubblicherò i risultati dei miei test, dando la possibilità di vedere esattamente la composizione delle pagine e dei testi scritti.

    @Valerio – grazie, per il commento.. credo sia stato un intervento un po' controverso, per quello l'introduzione era costruita sulle "paure" e sulle "credenze"… 😛

    Rispondi
    • pdellov

      Grazie a te per aver approfondito questo argomento, a mio parere molto interessante 🙂 Ora aggiorno il post con le slide.. Per il resto, rimango in attesa dei risultati dei test 🙂

      Rispondi

Leave a Reply

Your email address will not be published.