From the category archives:

Internet Marketing News

No Robots Allowed
Image courtesy Ivo Gomes (with modifications)

Analizzando periodicamente i log file di siti ad alto traffico è normale trovare richieste generate da crawler che non portano alcun beneficio al sito stesso e ne consumano inutilmente le risorse: fra questi spiccano i bot operati da scraper, gli spider facenti riferimento a sconosciuti quanto improbabili servizi di ricerca, ed ultimo non ultimo i tool utilizzati dai SEO a fini di “intelligence” per reperire informazioni sui link uscenti di un sito.

I bot che si identificano con uno User-Agent univoco e che rispettano lo standard robots.txt possono essere bloccati con una direttiva “Disallow”.

Purtroppo non sempre entrambe le condizioni si verificano: infatti alcuni bot malevoli inviano uno User-Agent vuoto o farlocco, ed anche quelli dotati di uno U-A proprio, che magari dichiarano pubblicamente di rispettare robots.txt, spesso e volentieri di fatto non lo rispettano, volutamente oppure a causa di bug.

Ecco quindi come mi regolo abitualmente per bloccare efficacemente le richieste dei bot inutili e/o indisciplinati, usando come esempio DotBot, il crawler del servizio Open Site Explorer offerto dal sito per SEO “Moz”, il quale, per la cronaca, dai log che ho analizzato risulta ignorare le direttive “Disallow”. N.B.: la scelta di usare DotBot è puramente casuale; infatti avrei potuto prendere ad esempio negativo i bot di altri servizi analoghi, che a loro volta non rispettano robots.txt: tanto per citarne uno, Ahrefsbot.

Le semplici istruzioni che seguono sono riferite al web server Apache.

I bot che non si identificano con uno User-Agent univoco possono essere bloccati solo a livello di indirizzo IP o hostname. Consiglio di bloccare esclusivamente per indirizzo IP (o classe di indirizzi IP) e non per hostname, per non costringere il web server ad un lookup (risoluzione dell’indirizzo IP in un nome di host) di ogni client, che potrebbe generare un notevole volume di traffico DNS ed incidere negativamente sulla performance del sito.

In tal caso è sufficiente aggiungere una direttiva “Deny” in cima al file .htaccess nella root directory del sito:

Deny from 217.23.11.15

Per quanto riguarda invece i bot che si identificano con uno User-Agent univoco (è il caso del bot di Moz), indipendentemente dal fatto che essi dichiarino di rispettare robots.txt, consiglio di bloccarli usando sia una direttiva “Disallow: /” indirizzata specificamente a quello U-A nel file robots.txt, sia un blocco a livello di User-Agent, sia un blocco a livello di indirizzo IP, nel file .htaccess, in modo tale da bloccare (con codice di stato HTTP 403) tutte le richieste del bot, tranne quella del file robots.txt stesso.

Nel file robots.txt useremo perciò le seguenti righe (avendo cura di inserirle dopo eventuali direttive indirizzate a “User-agent: *”):

User-agent: dotbot
Disallow: /

Mentre nel file .htaccess scriveremo:

SetEnvIfNoCase User-Agent "DotBot" bad_bot

Order Allow,Deny
Allow from all
Deny from env=bad_bot

# DotBot
Deny from 208.115.113.92

<Files "robots.txt">
Order Deny,Allow
Allow from all
Satisfy Any
</Files>

That’s all.

Eventuali domande o commenti via Google+.

{ Comments on this entry are closed }

What You SEE Is What You INDEX?
La comunicazione di alcune novità rilevanti sul blog ufficiale di Google Webmaster Central ieri, seguita da questo post di Enrico Altavilla su Google+, mi hanno dato lo spunto per un nuovo test SEO.

Scopo del test è verificare, alla luce delle novità annunciate da Google, l’eventuale indicizzazione di contenuti la cui visibilità nella pagina renderizzata dal browser sia controllata tramite JavaScript.

In particolare ho deciso di testare, nell’ordine:

  1. L’indicizzazione di testo e link la cui visibilità sia impedita di default (tramite “display:none;”), ma che siano visualizzabili on demand, in seguito ad un’azione dell’utente (click su un collegamento JavaScript);
  2. L’indicizzazione di testo e link che vengano inseriti nel documento HTML solo in seguito ad un’azione dell’utente (click su un collegamento JavaScript);
  3. L’indicizzazione di testo e link la cui visibilità sia impostata a “display:none;” via JavaScript, dopo l’evento “DOM ready”;
  4. L’indicizzazione di testo e link che vengano rimossi dal documento HTML via JavaScript, dopo l’evento “DOM ready”;
  5. L’indicizzazione di testo e link la cui visibilità sia impostata a “display:none;” via JavaScript, prima dell’evento “DOM ready”;
  6. L’indicizzazione di testo e link che vengano rimossi dal documento HTML via JavaScript, prima dell’evento “DOM ready”;
  7. L’indicizzazione di testo e link la cui visibilità sia impostata da “display:none;” a “display:block;” via JavaScript, dopo l’evento “DOM ready”;
  8. L’indicizzazione di testo e link che vengano inseriti nel documento HTML via JavaScript, dopo l’evento “DOM ready”;
  9. L’indicizzazione di testo e link la cui visibilità sia impostata da “display:none;” a “display:block;” via JavaScript, prima dell’evento “DOM ready”;
  10. L’indicizzazione di testo e link che vengano inseriti nel documento HTML via JavaScript, prima dell’evento “DOM ready”.

Il subtest n. 1 è la ripetizione di un test analogo che avevo già fatto in passato, e che aveva dato esito positivo; i test n. 2-10 invece sono nuovi (per me).

Per escludere possibili interferenze dovute alla syndication dei contenuti del blog via feed RSS, ho deciso di creare per questo test una semplice pagina HTML statica.

I commenti a questo post rimarranno chiusi; chi lo desiderasse può rivolgermi eventuali domande via Google+.

Aggiornamento (25/05/2014): Ho aggiunto i subtest 5-10.

{ Comments on this entry are closed }

Alternative E-mail: The Anti-Gmail Movement [click to continue…]

{ Comments on this entry are closed }

Red pill or blue pill?

[click to continue…]

{ Comments on this entry are closed }

SEO disinformation

17 aprile 2013

Rapporto “Stato dell’indicizzazione” di Google Webmaster Tools [click to continue…]

{ Comments on this entry are closed }

Il cliente che ha fretta

17 aprile 2013

Il mio gommista, Fragni Carlo, quando lo chiamo per prenotare il cambio gomme e gli dico che ho fretta, mi risponde che dovevo scantarmi prima [sic].

{ Comments on this entry are closed }

«Prima di tutto sono necessari contenuti popolari. Se i motori di ricerca si accorgono di un aumento di traffico alzano il sito nel ranking. Ma una volta che i click calano, la posizione si abbassa»

[click to continue…]

{ Comments on this entry are closed }

Shameless Self-Promotion

{ Comments on this entry are closed }

Ricondivido anche qui “An Insight, An Idea with Tim Berners Lee: What Is Wrong with Social Networking?”, una straordinaria conversazione di trenta minuti nella quale il sognatore-tessitore del web tocca temi come openness, impatto economico ed effetti socio-culturali della rete, sicurezza e diritto di accesso all’informazione, educazione e digital divides (sì, al plurale, perché i divari sono due); ossia alcuni dei capitoli più importanti del nostro presente e futuro “digitale”. E lo fa in modo come sempre illuminante. Ascoltatelo.

{ Comments on this entry are closed }

Less is More

15 aprile 2013

g- [click to continue…]

{ Comments on this entry are closed }