Twitter RSS Feed

SEOMantica: Semantica e SEO – Convegno GT

Scritto da Stefano Sarao il 12 dicembre 2010

Stampa Questo Articolo Stampa Questo Articolo

Michele De Capitani ci parla di LDA: Latent Dirchlet Allocation, l’algoritmo semantico che potrebbe utilizzare Google.
Gli algoritmi di ranking nel tempo si sono evoluti sempre di più: l’unico fattore che c’è sempre stato e che resterà sempre sono i contenuti.
Si è però passati dalla semplice analisi dei tags e della keyword density all’analisi dei fattori esterni, compresi links e analisi dello spam e della duplicazione dei contenuti.

Michele passa a fare una rassegna delle maggiori paure dei SEO, una di queste è quella di dover stravolgere tutto ciò che sappiamo e la semantica potrebbe fare questo in parte.
Lo studio della semantica è un campo molto difficile e “tecnico”, che però può avere interessanti applicazione nella SEO, va quindi analizzato.
L’analisi dei links probabilmente è già portata ad altissimi livelli, quindi non si hanno grandi prospettive di sviluppo degli algoritmi; al contrario l’analisi dei contenuti può essere sviluppata ancora molto.

Alcune Sigle Fondamentali

IR(Information Retrieval), l’analisi del contenuto nell’ambito della ricerca.
TF/IDF(Term Frequency/Inverse Document Frequency) – In pratica la keyword density
LSA(Latent Semantic Anlysis) – Analisi Semantica Latente
PLSA (Probabilistic Latent Semantic Anlysis) – Analisi Semantica Probabilistica Latente
LSI(Latent Semantic Indexing) – Indicizzazione Semantica
LDA(Latent Dirichlet Anlysis) – Analisi Latente di Dirichlet
HTMM(Hidden Topic Markov Models) – Modelli di Markov sui Documenti Nascosti

Da scaricare: lab.prima-posizione.it/seo-tools/tf-idf.zip

LSA

E’ una tecnica di elaborazione del linguaggio naturale che analizza le relazioni fra insiemi di documenti e che produce un’insieme di concetti correlati. La LSA però non rileva i diversi significati di un termine(polisemia).

LSI

Non è altro che l’applicazione della LSA in ambito IR, cioè di recupero delle informazioni.

PLSA

È un miglioramento della LSA apportando un calcolo probabilistico ai risultati. E’ statisticamente più salda proprio grazie al fatto che è un calcolo probabilistico.
Genera però troppi collegamenti fra termini-argomenti.

LDA

È un’evoluzione della PLSA. Con LDA si riesce a superare la generazione di rumore(overfitting). Genera tutti i collegamenti fra gli argomenti latenti e le parole osservate, basandosi sulla probabilità di correlazione e la distribuzione delle parole generate da quell’argomento.
Tramite la LDA i motori di ricerca potrebbero riuscire a capire se una frase, una porzione di testo o un documento sia correlato a una determinata key(o a un determinato argomento ancora meglio) senza che quella key sia mai citata.

HTMM

Potenzia la LDA partendo da due presupposti: frasi prossimi tendono a mantenersi, ovvero a parlare dello stesso argomento ed è difficile trovare bruschi cambiamenti di argomento fra frasi successive.
HTMM è un’esplicita rappresentazione per il topic di ogni frase, risolvendo il problema legato alla polisemia.

HTMM richiede però molta più potenza di calcolo.

La Pratica

Google parla di HTMM e LDA dal 2007. Ha inoltre pubblicato due brevetti a tema semantica e LDA applicati alla IR.
Anche Yahoo e Bing, in ritardo, si stanno muovendo.
L’ingegneria informatica, parallelamente lavora sulla semantica: PAM, CTM E IFTM sono studiati da tecnici di grandi aziende come la IBM.

Test SEO

L’obiettivo è mettere a confronto la SEO tradizionale e la “SEOMantica”.
Il test è tuttora in corso, è effettuato su keywords nuove e non competitive.
Per l’analisi della semantica possiamo usare: adwords keywords suggestion, suggetimenti per le ricerche correlate, espansione delle query e vocabolario dei sinonimi.

Dal test è risultato che le “vittorie” del sito che faceva attenzione alla semantica e non alla mera ripetizione di keywords, h1, ecc. sono di più di quelle delle pagine SEO “classiche”.

Comunque l’ottimizzazione classica del contenuto ha ancora una buona rilevanza sul ranking, soprattutto quando le keyword sono nuove. Le pagine “semantiche” risultano più performanti quando andiamo a verificare il ranking anche per le keyword in trust. Gli algoritmi di Google sulla semantica esistono e competono con gli altri fattori del ranking, ma non sono ancora abbastanza affinati.

Le Slide


Stefano Sarao
Si occupa della gestione di portali di medie dimensioni e sviluppa temi Wordpress, con un particolare occhio alla SEO. È stato relatore al Convegno GT 2010 con un intervento sull'influenza di Facebook sul ranking.

Potresti Trovare Interessanti Anche:

Commenti

5 Commenti »

  • Lavorare Online ha detto:

    Interessante questo speech, sicuramente da approfondire… Concetti abbastanza nuovi un pò per tutti penso…

    Solo una precisazione: lab.primaposizione.it/seo-tools/tf-idf.zip non funziona perchè il link giusto è: lab.prima-posizione.it/seo-tools/tf-idf.zip ;)

  • dechigno ha detto:

    Grazie Paolo, per il riassunto.. presto pubblicherò i risultati dei miei test, dando la possibilità di vedere esattamente la composizione delle pagine e dei testi scritti.

    @Valerio – grazie, per il commento.. credo sia stato un intervento un po' controverso, per quello l'introduzione era costruita sulle "paure" e sulle "credenze"… :P

  • pdellov ha detto:

    Grazie a te per aver approfondito questo argomento, a mio parere molto interessante :) Ora aggiorno il post con le slide.. Per il resto, rimango in attesa dei risultati dei test :)

  • pdellov ha detto:

    Correggo subito, grazie per la segnalazione :)

  • SEOMantica: come l’algoritmo semantico di Google usa LDA e HTMM | Seo Marketing News - Primaposizione.it ha detto:

    [...] anche questo post riepilogativo scritto dall'ottimo Paolo Dello Vicario. E il video originale di Amit Gruber e il post ufficiale sul blog di Google dove si parla [...]

Lascia un Commento!

Aggiungi il tuo commento qui sotto, o trackback dal tuo sito. Puoi anche iscriverti tramite subscribe to these comments i feed RSS.

Scrivi solo ottimi commenti, evitando lo spam.

Puoi usare questi tags:
<a href="" title=""> <abbr title=""> <acronym title=""> <b> <blockquote cite=""> <cite> <code> <del datetime=""> <em> <i> <q cite=""> <strike> <strong> <pre lang="" line="" escaped="" highlight="">