Carica in Knime i dati della Google Search Console usando la Google Search API

Questo workflow, scaricabile gratuitamente dal Knime Hub, permette di caricare in Knime i dati della ricerca di Google, tramite la Google Search API, superando i limiti associati all'utilizzo della Google Search Console.

E' stato sviluppato sulla base dell'ottimo workflow "Google_​Search_​Console_​API" realizzato da Philipp Katz (puoi scaricarlo gratuitamente da NodePit, richiede l'estensione Palladian for KNIME: OAuth Nodes). Le modifiche apportate sono le seguenti:

  • è stato aggiornato il nodo di autenticazione iniziale (era in beta);
  • possono essere scaricati i dati di più site url (da indicare in apposita tabella);
  • è stata modificata la query per estrarre tutti i campi disponibili (pagina, query, device, nazione, impessioni, clic, CTR, posizione);
  • è possibile estrarre più delle 1.000 righe previste come standard dalla Google Search API.

Come il workflow su cui si basa richiede l'estensione Palladian for Knime e il relativo nodo "OAuth Connector" che supporta i flussi OAuth 2.0 (RFC6749) e 1.0a (RFC5849) per l'autenticazione con varie API. Puoi scaricarlo da questa pagina su NodePit, dove trovi anche tutti i dettagli "tecnici".

Clicca qui per scaricare il workflow "Google Search Console - Get data via API - public".


2 parole sulla Google Search Console

La Google Search Console è uno strumento fornito gratuitamente da Google che consente al proprietario di un sito web di monitorare e ottimizzare le prestazioni del suo sito sito nei risultati di ricerca (SERP). Fornisce informazioni utili sulle parole chiave che portano il traffico al sito, sulle impressioni, sui clic, sulla percentuale di clic (CTR) e sulla posizione media nel risultati della ricerca; permette, inoltre, di identificare eventuali problemi di indicizzazione e di ricevere notifiche su eventuali errori tecnici.

Può essere consultata tramite l'interfaccia utente (dashboard) disponibile online; questa modalità di accesso, tuttavia, ha due limiti:

  • è possibile esportare al massimo 1000 righe di dati. Per alcuni siti questo può non essere un problema, per altri, sì;
  • keywords e pagine mostrate nella SERP sono analizzate separatamente. In altre parole, posso sapere come il mio sito si posiziona per determinate keyword e come si posizionano le singole pagine, ma non posso sapere quali sono le keywords che portano traffico (o impressioni) ad una specifica pagina.

2 parole sulla Google Search API

Entrambi questi limiti sono superati ricorrendo alla Google Search API. La Google Search API è un'interfaccia di programmazione che:

  • consente agli sviluppatori di accedere ai dati di ricerca di Google in modo strutturato e automatizzato (senza dover quindi ricorrere al download del file csv o xlsx dall'interfaccia utente);
  • permette di estrarre fino a 25mila righe di dati al giorno;
  • fornisce, per ogni pagina del sito comparsa nella SERP, le parole chiave utilizzate nella ricerca, le impressioni, i clic, il CTR, la posizione media nella SERP, il tipo di dispositivo utilizzato, il Paese di origine e la data della ricerca. 

Il passo successivo - e necessario - è quello di rendere questi dati direttamente disponibili in Knime, che è il compito affidato proprio a questo workflow. Il workflow prende in input:

  • il range di date da estrarre
  • le url dei siti da analizzare
  • le chiavi API per la Google Search Console

e restituisce in output una tabella in Knime con i risultati della ricerca di Google per tutti i siti indicati. Dati che saranno trasformati in SEO report con un secondo workflow (che sto ultimando in questi giorni)

2 parole, infine, su Knime

KNIME, abbreviazione di Konstanz Information Miner e pronunciato "naɪm", è una piattaforma open source per l'analisi dei dati. Dotata di componenti per machine learning e data mining, offre un'interfaccia grafica intuitiva che consente agli utenti di assemblare facilmente nodi per l'estrazione, trasformazione, caricamento (ETL), modellazione, analisi e visualizzazione dei dati. Questa è la definzione più o meno ufficiale. Io lo definisco semplicemente come il mio "parco dei divertimenti" per la data analytics.

Per finire...

A corredo riporto qualche informazione utile sia per approfondire questo tema, sia per adattare il workflow alle proprie esigenze.

.... come aumentare il numero di righe

Senza nessun'altra indicazione le Google Search API forniscono in risposta le prime 1.000 righe; tuttavia è possibile scaricarne fino a 25.000 e, volendo, arrivare a 50mila specificando nella query il numero di riga iniziale e il numero di righe da restituire. 50mila è anche il limite giornaliero.

Per scrivere la query, scegliere e/o aggregare per dimensione: Ottenere i tuoi dati sul rendimento
Per come ottimizzare le query sui dat del traffico di ricerca: Eseguire query sui dati analitici della Ricerca Google e Search Analytics: Query.

.... come inserire il dominio (la proprietà) da analizzarre 

Google Search Console supporta due diversi tipi di proprietà dei siti web:

  1. proprietà del prefisso URL (es: https://www.mycokiemix.net)
  2. proprietà del dominio (es: mycokiemix.net)

Le due proprieta, nella chiamata alla Google Search API vanno indicate in modo diverso:

  • nel primo caso (proprietà del prefisso URL) la requestURL va indicata inserendo la "/" finale. Ad esempio: POST https://www.googleapis.com/webmasters/v3/sites/siteUrl/searchAnalytics/query , per la proprietà https://www.mycookiemix.net va inserito l'url https://www.mycookiemix.net/ (che, dopo l'encoding, diventa https%3A%2F%2Fwww.mycookiemix.net%2F. Ma a fare questo ci pensano i nodi del workflow) 
  • nel secondo caso (proprietà del dominio) non va inserita la "/" e deve essere inserito il prefisso sc-domain: (nell'esempio di prima,  sc-domain:mycookiemix.net che, dopo l'encoding, diventa sc-domain%3Amycookiemix.net)

... link utili

Commenti

Post popolari in questo blog

Building a high-performance data and AI organization - MIT report 2023

AI Will Transform the Global Economy. Let’s Make Sure It Benefits Humanity. - IFM blog

Dove trovare raccolte di dati (dataset) utilizzabili gratuitamente