Concetti e terminologia SEO base: indicizzazione

8 aprile 2012

Un mio cliente che desidera rimanere anonimo mi scrive:

Ciao Giacomo,

Puoi aiutarmi a sciogliere un dubbio sul significato di “indicizzazione nei motori di ricerca”?

In tempi e luoghi differenti autorevoli SEO hanno adoperato questo termine con accezioni differenti.

Il dubbio è questo: una pagina noindex scansionata e archiviata da un crawler si definisce indicizzata? Oppure viene definita indicizzata solamente quando è resa pubblica nelle SERP?

Da tecnico non ho dubbi a sostenere che una pagina noindex può essere definita indicizzata; ciò detto, leggo di tutto e il contrario di tutto.

Tu di quale parrocchia sei?

Visto che la domanda, tutt’altro che banale, richiedeva una risposta articolata e questa risposta poteva essere d’interesse generale, ho pensato che valesse la pena rispondere pubblicamente.

Il quesito è legittimo, poiché effettivamente il termine “indicizzazione”, entrato a far parte del gergo SEO da poco meno d’una ventina d’anni (ossia da quando esistono i motori di ricerca web), in questo contesto risulta utilizzato con accezioni diverse (a volte anche dalle stesse persone); le più diffuse sono per mia esperienza le seguenti:

  1. alcuni di noi utilizzano colloquialmente il termine “indicizzazione” per riferirsi in realtà al crawling, ossia alla richiesta di un URL e al conseguente scaricamento della relativa risorsa da parte del crawler o spider o bot che dir si voglia;
  2. altri (compreso il sottoscritto) utilizzano lo stesso termine per riferirsi al momento in cui l’URL relativo alla risorsa scaricata dal crawler appare nelle SERP delle ricerche rilevanti (es., [site:example.com]);
  3. altri infine utilizzano il termine in modo a mio avviso fuorviante (riferendosi, probabilmente, all’attività di segnalazione di una risorsa web ai motori di ricerca tramite sitemap XML, link o altro), inducendo chi legge all’erronea conclusione che l’indicizzazione sia un’attività svolta dai consulenti SEO, ossia da attori esterni ai motori di ricerca stessi.

Tutte queste tre accezioni sono in realtà in aperto contrasto con l’etimologia di “indicizzazione” e col significato letterale che tale termine assume nel contesto dell’information retrieval: in quel contesto, il termine fa infatti riferimento ad un processo complesso che ha luogo internamente ad un sistema di ricerca e recupero di informazioni, dopo la fase di acquisizione e prima che la risorsa “indicizzata” possa essere restituita in un insieme di risultati. Scopo di questo processo è facilitare e velocizzare il funzionamento del sistema stesso, il cui compito è innanzitutto selezionare il sottoinsieme di documenti pertinenti rispetto ad una determinata interrogazione (query), per poi ordinarli in base ad un punteggio di rilevanza.

Figure 1. High Level Google Architecture

Nel caso specifico dei motori di ricerca web, per capire (a grandissime linee) come funziona questo processo può essere utile dare una letta al seminale paper dei creatori di Google, The Anatomy of a Large-Scale Hypertextual Web Search Engine: la sezione 4, “Anatomy”, che delinea l’architettura ad alto livello del motore di ricerca come fu originariamente progettato, può essere interpretata come una sorta di schema a blocchi applicabile alla maggior parte dei motori di ricerca moderni.

La parte che c’interessa qui è quella che illustra la funzione del componente denominato indexer (indicizzatore), dalla quale cito:

The indexing function is performed by the indexer and the sorter. The indexer performs a number of functions. It reads the repository, uncompresses the documents, and parses them. Each document is converted into a set of word occurrences called hits. The hits record the word, position in document, an approximation of font size, and capitalization. The indexer distributes these hits into a set of “barrels”, creating a partially sorted forward index. The indexer performs another important function. It parses out all the links in every web page and stores important information about them in an anchors file. This file contains enough information to determine where each link points from and to, and the text of the link.

Compito dell’indexer è quindi non solo effettuare il parsing del contenuto dei documenti scaricati, estraendo da questi una serie di informazioni memorizzabili in un indice strutturato, funzionale alla fase di retrieval, ma anche estrarre ed elaborare le informazioni sui link eventualmente contenuti nei documenti stessi.

Per rispondere quindi alla domanda del mio cliente: io sono della “parrocchia” che ritiene che anche una risorsa con meta tag robots noindex possa definirsi “indicizzata” secondo l’accezione etimologicamente corretta di questo termine, nella misura in cui tale risorsa sia stata scaricata da un crawler ed i suoi contenuti elaborati da un parser/indexer/sorter, poiché l’indicizzazione consiste anche nell’elaborazione delle informazioni relative ai link eventualmente contenuti in un documento web; cosa che, come sappiamo, avviene anche in presenza di noindex (a patto naturalmente che i link, ed il documento che li contiene, siano privi di nofollow).

E voi, di che “parrocchia” siete? :)

Oops… dimenticavo: È passato talmente tanto tempo dalla domanda alla risposta, che avevo perfino dimenticato di aver fatto un post preparatorio, allo scopo di poter verificare se, ed in che misura, il contenuto di una pagina con noindex può influire sulla tematizzazione delle pagine da essa linkate. :D
Lascio al lettore il compito di verificare sperimentalmente questa tesi:

  • Pagina-cavia (con meta tag robots noindex);
  • query 1 (stringa contenuta nell’URL della pagina-cavia);
  • query 2 (stringa contenuta nel tag title della pagina-cavia);
  • query 3 (stringa contenuta nel tag h1 della pagina-cavia);
  • query 4 (stringa contenuta nel testo della pagina-cavia);
  • query 5 (stringa contenuta nel testo di ancoraggio di un link, presente sulla pagina-cavia, che punta alla home page di questo sito).

{ 5 comments… read them below or add one }

GIO 10 aprile 2012 alle 12:13

Sempre interessante!

seowebmaster 16 aprile 2012 alle 09:53

Post completo di informazioni la pagina test mi sembra di averla già vista 2 mesi fà!

E’ uno dei blog che ho salvato nei preferiti… mi togli una curiosità Giacomo ?

in altre parole stai anche dicendo, che se io creassi 1.000 pagine = noindex
anche su domini diversi, con un anchor-text, queste non verrebbero indicizzate
su Google, ma questi 1.000 links forse presi in considerazione….

E sarebbe “black-hat seo” una cosa del genere, a tuo giudizio ?

Giacomo 16 aprile 2012 alle 10:00

Ciao Carmelo, grazie degli apprezzamenti. Sì, hai inteso bene: noindex non significa che i link non verranno presi in considerazione (per quello esiste nofollow).

“1.000 link” da pagine con noindex, su domini diversi? Tutti con lo stesso anchor text? :)
Non è “black-hat SEO”, ma di sicuro quei link non sono link “editoriali”. ;)

Maria 21 marzo 2013 alle 11:58

Ciao Giacomo!
Complimenti per l’articolo :-)
Mi sorge però un dubbio…a questo punto mi chiedo, per evitare contenuti duplicati, secondo il tuo parere di esperto, è meglio indicizzare o no categorie e tag? Sono in confusione. Quale pratica adotteresti tu? Mi domando anche se va bene inserire lo stesso articolo in 2 categorie o in più tag.
Grazie mille!

Giacomo 21 marzo 2013 alle 12:13

Ciao Maria, mi spiace ma non sono in grado di rispondere alle tue domande (che peraltro esulano dall’argomento di questo post) se non con un generico “dipende”.

Leave a Comment

You can use these HTML tags and attributes: <a href="" title=""> <abbr title=""> <acronym title=""> <b> <blockquote cite=""> <cite> <code> <del datetime=""> <em> <i> <q cite=""> <strike> <strong>

Previous post:

Next post: