Ecco un piccolo “hack” che vi permetterà di estrarre tutte le URL del vostro sito che Google ha indicizzato in pochissimi minuti.

Per mettere in pratica questa tecnica utilizzeremo Google Chrome ed due ottime estensioni per il browser, entrambe disponibili gratuitamente all’interno del Chrome Web Store.

Per prima cosa dovremo eseguire una query per verificare quante URL del sito che vogliamo analizzare sono presenti nell’indice del motore. E’ un procedimento molto semplice, basta digitare “site: ” seguito dal nome di dominio del nostro sito (senza “www.” iniziale) nel campo di ricerca di Google.
Esempio:

Site-command

Una volta effettuato questo passaggio andiamo nelle impostazioni di ricerca di Google ed impostiamo il limite di risultati di ricerca per pagina a 100 (il massimo consentito).

impostazioni-ricerca

Adesso installiamo le estensioni per Google Chrome Infinite Scroll for Google e Link Klipper.

Mentre la prima ci consentirà – scorrendo la pagina dei risultati di ricerca verso il basso – di avere in una sola pagina tutte le URL che rispondono alla nostra query, la seconda estensione – davvero molto utile – ci consentirà con un clic di esportare tutti i link (quindi tutte le URL) presenti nella pagina e scaricarli in formato CSV per Excel.

Una volta scaricati in Excel tutti i link apriamo il nostro file.
Troveremo una serie di URL che corrispondono al nostro sito ma anche una serie di URL relative a siti di proprietà di Google: questo perchè Link Klipper estrae i link presenti in pagina, quindi anche le URL che puntano a pagine della webcache di Google, a pagine di Google traduttore o link interni al motore stesso.

Risolviamo molto semplicemente. Applichiamo un filtro personalizzato alla nostra colonna Excel e filtriamo per testo non contenente “google” ed eventualmente un’altra variabile (ad esempio “youtube”).

filtro-personalizzato

Così facendo, una volta applicato il filtro avremo come risultato soltanto le URL che non contengono al proprio interno la parola “google” o la parola “youtube”: avremo cioè epurato la nostra colonna con i link presenti nella pagina dei risultati di ricerca dalle URL che puntano alle diverse proprietà Google.

Quello che rimane a questo punto saranno soltanto URL del sito per cui abbiamo eseguito la query di ricerca. Ecco allora che abbiamo estratto tutte le URL del nostro sito indicizzate da Google in meno di 5 minuti.