SEOMantica: Semantica e SEO – Convegno GT
Scritto da Stefano Sarao il 12 dicembre 2010
Michele De Capitani ci parla di LDA: Latent Dirchlet Allocation, l’algoritmo semantico che potrebbe utilizzare Google.
Gli algoritmi di ranking nel tempo si sono evoluti sempre di più: l’unico fattore che c’è sempre stato e che resterà sempre sono i contenuti.
Si è però passati dalla semplice analisi dei tags e della keyword density all’analisi dei fattori esterni, compresi links e analisi dello spam e della duplicazione dei contenuti.
Michele passa a fare una rassegna delle maggiori paure dei SEO, una di queste è quella di dover stravolgere tutto ciò che sappiamo e la semantica potrebbe fare questo in parte.
Lo studio della semantica è un campo molto difficile e “tecnico”, che però può avere interessanti applicazione nella SEO, va quindi analizzato.
L’analisi dei links probabilmente è già portata ad altissimi livelli, quindi non si hanno grandi prospettive di sviluppo degli algoritmi; al contrario l’analisi dei contenuti può essere sviluppata ancora molto.
Alcune Sigle Fondamentali
IR(Information Retrieval), l’analisi del contenuto nell’ambito della ricerca.
TF/IDF(Term Frequency/Inverse Document Frequency) – In pratica la keyword density
LSA(Latent Semantic Anlysis) – Analisi Semantica Latente
PLSA (Probabilistic Latent Semantic Anlysis) – Analisi Semantica Probabilistica Latente
LSI(Latent Semantic Indexing) – Indicizzazione Semantica
LDA(Latent Dirichlet Anlysis) – Analisi Latente di Dirichlet
HTMM(Hidden Topic Markov Models) – Modelli di Markov sui Documenti Nascosti
Da scaricare: lab.prima-posizione.it/seo-tools/tf-idf.zip
LSA
E’ una tecnica di elaborazione del linguaggio naturale che analizza le relazioni fra insiemi di documenti e che produce un’insieme di concetti correlati. La LSA però non rileva i diversi significati di un termine(polisemia).
LSI
Non è altro che l’applicazione della LSA in ambito IR, cioè di recupero delle informazioni.
PLSA
È un miglioramento della LSA apportando un calcolo probabilistico ai risultati. E’ statisticamente più salda proprio grazie al fatto che è un calcolo probabilistico.
Genera però troppi collegamenti fra termini-argomenti.
LDA
È un’evoluzione della PLSA. Con LDA si riesce a superare la generazione di rumore(overfitting). Genera tutti i collegamenti fra gli argomenti latenti e le parole osservate, basandosi sulla probabilità di correlazione e la distribuzione delle parole generate da quell’argomento.
Tramite la LDA i motori di ricerca potrebbero riuscire a capire se una frase, una porzione di testo o un documento sia correlato a una determinata key(o a un determinato argomento ancora meglio) senza che quella key sia mai citata.
HTMM
Potenzia la LDA partendo da due presupposti: frasi prossimi tendono a mantenersi, ovvero a parlare dello stesso argomento ed è difficile trovare bruschi cambiamenti di argomento fra frasi successive.
HTMM è un’esplicita rappresentazione per il topic di ogni frase, risolvendo il problema legato alla polisemia.
HTMM richiede però molta più potenza di calcolo.
La Pratica
Google parla di HTMM e LDA dal 2007. Ha inoltre pubblicato due brevetti a tema semantica e LDA applicati alla IR.
Anche Yahoo e Bing, in ritardo, si stanno muovendo.
L’ingegneria informatica, parallelamente lavora sulla semantica: PAM, CTM E IFTM sono studiati da tecnici di grandi aziende come la IBM.
Test SEO
L’obiettivo è mettere a confronto la SEO tradizionale e la “SEOMantica”.
Il test è tuttora in corso, è effettuato su keywords nuove e non competitive.
Per l’analisi della semantica possiamo usare: adwords keywords suggestion, suggetimenti per le ricerche correlate, espansione delle query e vocabolario dei sinonimi.
Dal test è risultato che le “vittorie” del sito che faceva attenzione alla semantica e non alla mera ripetizione di keywords, h1, ecc. sono di più di quelle delle pagine SEO “classiche”.
Comunque l’ottimizzazione classica del contenuto ha ancora una buona rilevanza sul ranking, soprattutto quando le keyword sono nuove. Le pagine “semantiche” risultano più performanti quando andiamo a verificare il ranking anche per le keyword in trust. Gli algoritmi di Google sulla semantica esistono e competono con gli altri fattori del ranking, ma non sono ancora abbastanza affinati.




Interessante questo speech, sicuramente da approfondire… Concetti abbastanza nuovi un pò per tutti penso…
Solo una precisazione: lab.primaposizione.it/seo-tools/tf-idf.zip non funziona perchè il link giusto è: lab.prima-posizione.it/seo-tools/tf-idf.zip
Grazie Paolo, per il riassunto.. presto pubblicherò i risultati dei miei test, dando la possibilità di vedere esattamente la composizione delle pagine e dei testi scritti.
@Valerio – grazie, per il commento.. credo sia stato un intervento un po' controverso, per quello l'introduzione era costruita sulle "paure" e sulle "credenze"…
Grazie a te per aver approfondito questo argomento, a mio parere molto interessante
Ora aggiorno il post con le slide.. Per il resto, rimango in attesa dei risultati dei test 
Correggo subito, grazie per la segnalazione
SEOMantica: come l’algoritmo semantico di Google usa LDA e HTMM | Seo Marketing News - Primaposizione.it ha detto:
[...] anche questo post riepilogativo scritto dall'ottimo Paolo Dello Vicario. E il video originale di Amit Gruber e il post ufficiale sul blog di Google dove si parla [...]
Lascia un Commento!
SeoPoint sui Social
Scopri un Evento Unico!
Advertisting
Cerca nel Sito
Categorie