Capire i motori di ricerca

postato da Petra Dal Santo - KEA s.r.l. [14/09/2021 07:35]
foto

L'offerta di testi dedicati alla SEO, all’ottimizzazione delle pagine web per i motori di ricerca, è vasta e aggiornata.

Il libro di Dirk Lewandowski, Suchmaschinen verstehen (Capire i motori di ricerca; 3a edizione, Wiesbaden, Springer Vieweg, 2021) non è una guida pratica al search engine marketing, ma illustra i meccanismi (tecnologici, economici e sociali) che presiedono al funzionamento dei motori di ricerca e di Google in particolare. Capire i motori di ricerca ci aiuta a svolgere con maggiore consapevolezza le attività di SEO e di advertising online, nonché a usare meglio le funzioni di ricerca.

Dirk Lewandowski è professore di Information Research & Information Retrieval presso la Hochschule für Angewandte Wissenschaften Hamburg (HAW Hamburg)


***


Motori di ricerca: ruolo e criticità


I motori di ricerca algoritmici sono il servizio internet più usato, più di e-mail, messaggistica e social media, e svolgono un’importantissima funzione economica e sociale, di formazione del sapere. Secondo Lewandowski, in particolare alcuni fattori rendono attualmente delicato il ruolo dei motori di ricerca:



  • Il dominio del motore di ricerca algoritmico, rispetto ad altri metodi di ricerca di contenuti pubblicati sul web (es. indici, come il vecchio Yahoo; sistemi di social bookmarking; piattaforme di question&answer)

  • La posizione assolutamente dominante di Google, quanto meno nel mondo occidentale

  • Il tentativo, da parte di Google, di bilanciare le esigenze degli utenti, degli autori dei contenuti, degli inserzionisti pubblicitari e di Google stesso in quanto editore

  • L’esistenza di un conflitto di interessi in Google fra il suo ruolo di intermediario e di editore, interessato a privilegiare i propri contenuti

  • L’ampiezza dei dati sul comportamento dell’utente, che Google registra non solo durante l’interazione fra utente e motore di ricerca, ma anche grazie agli altri elementi del suo ecosistema (account Google dell’utente, browser Chrome, Google Analytics)

  • Il modello di business su cui si basano i motori di ricerca, finanziati in modo preponderante dalla vendita di pubblicità contestuale

  • La mancanza di trasparenza delle regole di funzionamento dei motori di ricerca, in particolare di quelle di ranking (cioè di selezione e ordinamento di documenti che il motore giudica rilevanti in relazione alla ricerca dell’utente)

  • La pigrizia degli utenti, che preferiscono ricevere con poco sforzo risultati sufficientemente soddisfacenti, senza preoccuparti di apprendere tecniche più avanzate (operatori booleani e comandi) o di approfondire la conoscenza dei meccanismi che governano i motori di ricerca.


Tipi di motori di ricerca algoritmici


Vi sono due tipi di motori di ricerca algoritmici: gli orizzontali (universali) e i verticali.

I motori di ricerca verticali sono specializzati, per esempio, in un insieme di fonti dati (es. per garantire un’adeguata frequenza di crawling, le fonti delle news sono determinate e limitate a priori), in tipi di contenuto e di formato (es. immagini e video), in contenuti non presenti all’interno del world wide web (es. i libri digitalizzati da Google Books sono una collezione proprietaria e differenziante), nell’acquisizione di dati trascurati dal motore di ricerca universale in fase di crawling e indexing (es. Google Scholar indicizza anche autore, fonte dell’articolo scientifico, anno di pubblicazione, numero di citazioni), nella presentazione dei risultati in forma distinta rispetto a quelli testuali della ricerca orizzontale (es. cluster di news, le immagini, i video).


Oggetto dei motori di ricerca


Oggetto dei motori di ricerca sono i documenti (non siti, come nel caso degli indici, es. Yahoo) disponibili nel world wide web (non di tutto internet; es. i motori di ricerca non agiscono sulle e-mail che pure appartengono a internet, ma non al www).

Caratteristiche distintive del www sono il linguaggio HTML, l’attribuzione a ogni documento di un URL (indirizzo web) univoco e i link per collegare fra loro i documenti.

Dei documenti reperiti nel www i motori di ricerca creano una versione locale, aggiornata periodicamente. Il database locale non coincide tuttavia con il www, per vari motivi: la profondità del web non ne rende economicamente vantaggiosa l’esplorazione oltre un certo limite; sono tralasciate disconnected pages non linkate ad altre pagine, contenuti duplicati, documenti esclusi dagli autori/editori mediante il file Robots.txt e documenti riconosciuti come spam e spider traps (es. i calendari perpetui, che costringerebbero i crawler a seguire senza fine i loro link interni); documenti leciti solo in alcune nazioni e documenti che ricadono sotto il diritto all’oblio possono essere presenti nel database locale, ma non fra i risultati della ricerca.

Infine, sebbene l’evoluzione tecnologica sposti sempre più in là i confini, i motori di ricerca hanno accesso solo ai contenuti del surface web, non a quelli del deep web (da non confondere con il dark web, l’insieme dei siti internet nascosti e accessibili solo attraverso browser dedicati al fine di mantenere anonima e privata l’attività online).

Il deep, o invisible, web si compone di risorse accessibili via web, ma che non sono nel www e che quindi sfuggono ai motori di ricerca: contenuti di intranet, protetti da password o soggetti a pagamento; contenuti ad accesso limitato pubblicati dagli utenti sui social network; risorse escluse dal crawling mediante apposita dichiarazione nel file Robots.txt; pagine web generate dinamicamente in risposta alle interrogazioni degli utenti; dati aggiornati in tempo reale; immagini, video e altri file multimediali con poco testo di contorno; documenti potenzialmente accessibili ai crawler, ma attualmente inesplorati (es. per motivi di profondità, di frequenza di aggiornamento, di collocazione oltre il numero massimo di risultati visualizzati nella SERP).

Va sottolineato che, in conseguenza della focalizzazione dei motori di ricerca sui documenti del surface web, i social network costituiscono un ambiente di ricerca parallelo rispetto a quello esplorato dai motori di ricerca.


Business model dei motori di ricerca e bilanciamento degli interessi


Partendo dal presupposto che attualmente i motori di ricerca si finanziano prioritariamente attraverso la vendita di annunci pubblicitari contestuali alle ricerche degli utenti, i motori cercano di bilanciare gli interessi di quattro stakeholder:



  • Gli utenti, che - per fidelizzarsi -cercano risultati rilevanti con poco sforzo

  • Gli autori/editori, che usano le tecniche di SEO per influenzare il comportamento dei motori. Ciclicamente i motori reagiscono ai tentativi degli autori/editori di migliorare in modo scorretto il posizionamento di loro documenti

  • Gli investitori pubblicitari, interessati a poter pubblicare annunci sempre più personalizzati e quindi potenzialmente rilevanti per i loro interlocutori

  • L’azienda titolare del motore di ricerca (Google in particolare), quando opera anche come editore ed è quindi interessato a promuovere i contenuti pubblicati sulle proprie piattaforme (es. i video di YouTube, anziché quelli editi da terze parti.


I tre componenti di base dei motori di ricerca


Crawler, indexer e searcher sono i tre componenti di base che presiedono alle funziono fondamentali dei motori di ricerca.


Crawler


I crawler sono agenti software automatici che, passando di link in link e considerando le sitemap XML dei siti, esplorano le pagine HTML del surface web, ne recepiscono soprattutto testo e struttura, e creano il database locale su cui agisce l’indexer, aggiornandolo periodicamente con una frequenza che dipende anche da popolarità e tasso di aggiornamento dei singoli documenti/siti.

Lewandowski sottolinea che i crawler, quelli Google in particolare, seguono tre direttrici:



  • Scan&link

  • Host&serve, quando - come Google nel caso dei video pubblicati su YouTube - i crawler scansionano User Generated Content residenti su piattaforme di proprietà dell’azienda titolare del motore di ricerca

  • Scan&serve, quando - come nel caso di Google Libri - le aziende titolari dei motori di ricerca digitalizzano oggetti del mondo reale non presenti nel web, li scansionando con i propri crawler, elaborandoli e rendendoli ricercabili.


Oltre a crawler orizzontali/universali, esistono crawler verticali (focused crawler), specializzati per esempio nella scansione di determinati formati (es. le immagini, di cui recepiscono il testo contestuale, i metadati automatici e quelli redatti dall’autore, le dominanti di colore) o nella scansione a frequenza elevata di fonti predefinite (es. le news)


Indexer


L’indexer agisce sul database locale creato e aggiornato dai crawler, modularizza i contenuti dei documenti e ne elabora la rappresentazione ricercabile da parte del searcher.

Come metodi mutuati dalle applicazioni di information retrival, l’indexer estrae i termini dal testo del documento e crea un indice inverso, che correla a ogni termine tutti i documenti che lo contengono.

Per elaborarne la versione ricercabile, l’indexer indicizza non solo il testo del documento, ma anche i metadati (automatici - es. lunghezza del documento, ampiezza del sito di cui è parte, tasso di aggiornamento di documento/sito - e quelli redatti dall’autore) e gli anchor text dei link in ingresso (equiparati a descrizioni brevi del documento redatte da parti terze, anziché dall’autore/editore). Va sottolineato, che solo i dati che l’indexer estrae dal documento e include nella sua rappresentazione potranno essere oggetto delle ricerche del searcher.

L’indexer esprime anche un giudizio sulla popolarità del documento, su cui ritorneremo più avanti.

Come il crawling, anche l’indicizzazione è un processo iterativo, finalizzato a recepire aggiornamenti e cancellazioni.


Searcher


Prima di poter selezionare e proporre risultati il più possibile rilevanti e solo quelli rilevanti, il searcher deve interpretare la ricerca dell’utente, prendendo anche in considerazione, per esempio, la cronologia di ricerca dell’utente, la sua localizzazione, la sua interazione con i risultati di precedenti ricerche e la permanenza sui documenti selezionati, il comportamento di utenti in passato hanno svolto ricerche analoghe.

In fase di ricerca, il searcher agisce sulla rappresentazione del documento elaborata dall’indexer e salvata nel database locale del motore di ricerca.


Comportamento e aspettative dell’utente medio nel confronti dei motori di ricerca


Gli obiettivi di ricerca principali sono:



  • Venire a conoscenza di un dato oggettivo. In questo caso esiste una risposta giusta al quesito dell’utente

  • Acquisire informazioni utili alla soluzione di un problema. Non esiste una risposta giusta: l’utente elabora la sua risposta consultando i documenti trovati

  • Trovare o ritrovare un URL (obiettivo di navigazione)

  • Eseguire una transazione (es. download, iscrizione, acquisto).


Lewandowski sottolinea la “pigrizia” degli utenti medi, che si affidano alle doti interpretative del motore di ricerca preferito, normalmente Google. L’utente inserisce espressioni brevi, formate negli USA da 1,7-2,9 parole; solo se è il motore a suggerirle, selezionano espressioni più lunghe e specifiche; usano raramente operatori booleani, comandi e moduli di ricerca avanzata.

Viceversa, l’evoluzione tecnologica dei motori di ricerca è volta in buona parte a ridurre lo sforzo richiesto all’utente in termini di formulazione del quesito e di interazione con la funzione di ricerca. Vanno in questa direzione, per esempio, il supporto di dispositivi diversi da PC e dispositivi mobili e il disaccoppiamento tra funzione di ricerca e browser; il supporto di comandi vocali e gestuali; l’anticipazione proattiva degli eventuali bisogni informativi e transazionali dell’utente noto da parte della funzione di ricerca incorporata in un determinato dispositivo; la possibilità di proseguire le ricerche senza soluzione di continuità, a cavallo fra dispositivi e software distinti. Secondo Lewandowski le tecnologie di ricerca saranno sempre più diffuse e sempre meno percepibili da parte delle persone, andando verso una trasparenza tipica anche di altri agenti dell’infosfera.


Giudizio del motore di ricerca sulla rilevanza di un documento in relazione al quesito dell’utente


La formulazione del giudizio è necessaria al motore di ricerca per selezionare i documenti e per ordinarli in base alla maggiore/minore rilevanza, che essi hanno in relazione al quesito formulato dall’utente e alla sua interpretazione da parte del motore stesso.

In quanto fattore differenziante, le regole di ranking fanno parte dei segreti industriali dei motori di ricerca. Nel 2017 Google dichiarava di tenere in considerazione circa 200 parametri, a testimonianza della complessità del tema.

Lewandowski offre una panoramica sui principali fattori che contribuiscono alla formazione del giudizio di rilevanza da parte del motore di ricerca.


Fattori relativi al testo



  • Corrispondenza fra termini cercati e termini presenti nel documento e nell’anchor text dei link in ingresso

  • Frequenza di apparizione dei termini anche in relazione alla lunghezza del testo e al tipo di parola

  • Densità delle parole chiave

  • Posizione dei termini e loro posizione nei punti chiave del documento (tag dei Titoli, enfasi in grassetto e corsivo, metatag Title e Description)

  • Vicinanza fra più termini cercati

  • Varianti ortografiche e correzioni

  • Sinonimi

  • Testo degli anchor text dei link in ingresso.


Popolarità


Il PageRank di Google è l’esempio più celebre di indice di popolarità: esso stima la probabilità che un utente, seguendo in modo casuale i link sul web, si imbatta in un dato documento (modello del random surfer).

La probabilità cresce in base al numero di documenti che linkano al documento di destinazione, in base al PageRank delle pagine che contengono i link in ingresso e al fatto che i link provengano da nodi della rete a traffico molto elevato, che a sua volta l’utente ha più probabilità di incontrare casualmente. Considerare i link in ingresso al fine di stimare la popolarità di un documento, significa tenere in considerazione il giudizio di qualità degli autori/editori che linkano a esso.

I motori di ricerca, tuttavia, guardano la questione anche dal punto di vista degli utenti, considerano i clic su un documento da parte di tutti gli utenti, di segmenti o di singoli utenti, nonché il tempo di permanenza sul documento (la registrazione dei dati della sessione permette al motore di ricerca di calcolare il tempo che passa fra il clic sul link a un documento e il ritorno eventuale dell’utente sul motore, per esempio per scegliere un nuovo documento o raffinare la ricerca).

Dato che gli utenti cliccano perlopiù sui primi risultati, è però improbabile che un documento che appare nelle posizioni di rincalzo scali la classifica solo grazie ai clic degli utenti.


L’integrazione fra il motore di ricerca di Google e altri strumenti dell’ecosistema di Google per giungere alla piena comprensione dell’utente


Preso di per sé, il motore di ricerca di Google può conoscere le ricerche degli utenti, i loro clic e stimare il tempo di permanenza su un documento, nel caso in cui l’utente - dopo averlo consultato - faccia ritorno alla SERP.

Lewandowski sottolinea, che è solo grazie a browser proprietari (es. Google Chrome), a strumenti di personalizzazione del proprio account di Google (navigazione come utente loggato con opzione Attività web e app attiva) e a strumenti di analisi dei siti web (es. Google Analytics, che condivide con la piattaforma i dati dei siti monitorati) che il motore di ricerca riesce ad acquisire dati sul comportamento dell’utente dopo l’abbandono della SERP, ricavandone un quadro molto più completo, capace di guidare l’erogazione di annunci pubblicitari più rilevanti, non solo di risultati della ricerca più rilevanti.


Attualità


Il criterio di attualità controbilancia quello di popolarità, che di solito privilegia documenti dotati di maggiore anzianità.

Il motore di ricerca assume come data di creazione del documento quella del suo primo reperimento da parte del crawler.

La data di aggiornamento del documento è invece più difficile da determinare e per farlo, i motori di ricerca seguono un procedimento indiziale: modifica del contenuto, modifica dei link in ingresso, modifica del traffico (che può denotare il maggiore/minore interesse per un documento aggiornato/obsoleto), data di aggiornamento esplicitata nel documento. La data di aggiornamento del file presente sul server web non è considerata affidabile, poiché può mutare anche in presenza di modifiche irrilevanti ai fini dell’iterazione delle procedure di crawling e indexing.


Localizzazione dell’utente


Considerare la localizzazione dell’utente permette al motore di ricerca di privilegiare documenti nella lingua dell’utente e, se rilevante ai fini della ricerca (considerando che circa il 20% delle ricerche ha rilevanza locale), i cui contenuti “prossimi” all’utente.


Personalizzazione per il singolo utente


A parità di ricerca, risultati e ordinamento degli stessi sono distinti in base all’utente.

La personalizzazione presuppone la conoscenza dell’utente da parte del motore di ricerca, acquisita attraverso la raccolta dati (es. demografici, psicografici, interessi e attività personali): essa non va confusa con la contestualizzazione, ovvero con l’adeguamento dei risultati alla situazione dell’utente (es. localizzazione, ora del giorno, ricerche simili da parte di altri utenti).


Fattori tecnici


Tra i fattori tecnici che influiscono sulla formulazione del giudizio di rilevanza di un documento spiccano la velocità di caricamento della pagina, la responsività (siti mobile friendly), il supporto del protocollo sicuro HTTPS, le caratteristiche del dispositivo dell’utente (es. la navigazione mediante PC o Mac influenza i risultati di ricerche legate a software o accessori).


Presentazione dei risultati della ricerca sulla SERP


Lewandowski propone una panoramica sui tipi di risultati presenti sulla search engine results page, sulla struttura delle informazioni dei vari tipi di risultati, nonché sull’influenza che questi fattori hanno sulla selezione dei documenti da parte degli utenti.


Tipi di risultati della ricerca


In linea con il suo business model, in particolare Google presenta per primi gli annunci pubblicitari contestuali, visibili anche su piccoli dispositivi senza scrollare la pagina. Dato che l’utente tende a cliccare sui primi risultati visibili, ciò può indurre le aziende ad acquistare spazi pubblicitari, anche nel caso in cui siano già presenti nelle prime posizioni dei risultati della ricerca organica.

Dopo il blocco pubblicitario, Google può mostrare - singoli o intercalati - i seguenti tipi di risultati:

Poi, singolarmente o intercalati, si possono presentare i seguenti blocchi di tipi di risultati:



  • Risultati organici provenienti dal web index

  • Risultati della universal serch, cioè comprensivi dei risultati rilevanti provenienti dalle collezioni verticali, specializzate

  • Risposte “secche” a quesiti a cui è possibile rispondere univocamente, esponendo dati di fatto (es. la data di nascita di una persona)

  • Presentazione di knowledge graph, frutto dell’elaborazione e dell’aggregazione automatiche di contenuti disponibili su un dato tema (es. una persona famosa, una città, un brand noto).


Va sottolineato, che in caso di presentazione di risposte “secche” e di knowledge graph l’utente può soddisfare le proprie esigenze informative senza abbandonare la SERP. Dato che il modello di business basato sulla vendita di annunci contestuali funziona solo se il motore di ricerca, attraverso la SERP, induce l’utente ad accedere ai documenti/siti delle parti terze (non a permanere sulla SERP), i motori frenano su questo tipo di servizi per non minare la propria base di sussistenza. Modelli integrativi potrebbero prevedere, per esempio, il micropagamento da parte dei motori dei contenuti forniti dagli autori/editori e inclusi nei risultati fruibili solo sulla SERP.


Struttura delle informazioni variabile per tipo di risultato della ricerca


Per ogni risultato della ricerca, il motore mostra contenuti variabili in base al tipo di risultato.

Oltre al titolo del documento (estratto dal metatag Title), al nome di dominio e all’URL completo, nonché alla descrizione breve (che può provenire dal metatag Description, da fonti esterne - es. l’anchor text di link in ingresso -, o dall’elaborazione da parte del motore del contenuto del documento in relazione ai termini cercati), possono apparire, per esempio: valutazioni e recensioni, informazioni estratte dal markup semantico del documento (es. schema.org), dati desunti dal documento (es. autore, data di aggiornamento), numero di citazioni ricevute da articoli accademici.


Influsso della presentazione dei risultati sulla selezione dell’utente


Gli studi indicano che lo sguardo dell’utente è attratto dal primo blocco (pubblicità) e dalle prime posizioni del secondo blocco (risultati organici in formato testo). Tuttavia, se nel secondo blocco appaiono risultati più ricchi rispetto a quelli testuali, allora l’utente li preferisce rispetto alle prime posizioni dei risultati organici in formato testo.

Sul comportamento di selezione dell’utente influiscono però anche altri fattori: il tipo di dispositivo e la risoluzione che determinano il numero di risultati visibili senza scrollare la SERP; la scarsa distinguibilità degli annunci, per esempio in Google; l’evidenziazione dei termini cercati.


SEO come strumento degli autori/editori per influenzare il comportamento del motore di ricerca


Il search engine marketing (SEM) comprende, oltre al search engine advertising (SEA; acquisto di annunci contestuali), anche la SEO, ovvero l’ottimizzazione di sito e documenti da parte di autori/editori.

La finalità è analoga: posizionarsi in modo ottimale rispetto a determinate ricerche, in modo tale da generare traffico e, auspicabilmente, conversioni. Tuttavia, mentre la SEA ottiene un risultato “immediato”, che perdura fintanto che l’autore/editore paga per la pubblicazione degli annunci, la SEO eseguita correttamente è un investimento che rende nel medio-lungo periodo.

Lewandowski propone una panoramica sui fattori su cui intervenire per influenzare la formulazione del giudizio del motore e quindi il posizionamento del documento rispetto a una data ricerca dell’utente.


Contenuti



  • Inserire nel testo termini veramente cercati dagli utenti (es. usando il Keyword Planner di Google)

  • Creare documenti che rispondono a quesiti tipici degli interlocutori, da essi cercati sui motori di ricerca

  • Dedicare un documento a ogni topic e trattarlo in modo esaustivo

  • Mantenere aggiornato il documento, in base alle esigenze informative

  • Produrre non anche contenuti multimediali (il peso dei motori di ricerca verticali è sempre maggiore) e localizzati.


Architettura del sito



  • Garantire ai motori di ricerca l’accessibilità e indicizzabilità tecniche del documento

  • Ridurre i tempi di caricamento delle pagine web

  • Rendere il sito responsivo e mobile friendly

  • Supportare il protocollo sicuro HTTPS

  • Creare URL parlanti che includano i termini cercati veramente dagli utenti

  • Evitare contenuti duplicati, contrassegnando eventualmente l’originale con l’attributo del tag link rel=canonical.


Codice HTML



  • Sfruttare i tag dei Titoli, i metatag (in particolare Title e Description) e le enfasi, grassetto e corsivo

  • Arricchire semanticamente il markup del documento (es. usando il dizionario schema.org supportato da Google).


Fiducia dei motori di ricerca nel sito che ospita il documento


L’autorità, desunta dai link in ingresso, l’engagement, desunto dal tempo di permanenza degli utenti sulla pagina e l’anzianità del dominio sono


Link in ingresso al documento


Quantità e soprattutto qualità dei link in ingresso, nonché pertinenza e rilevanza dei loro anchor text, contribuiscono ad accrescere l’indice di popolarità di un documento. È quindi opportuno che autori/editori favoriscano in modo lecito (es. non attraverso l’acquisto di link) la creazione di link in ingresso al documento e la diffusione della sua conoscenza attraverso i social media. Lewandowski sottolinea tuttavia, che non va sovrastimata la capacità dei social network di generare traffico: es. perfino il sito di Ikea riceverebbe solo circa il 3% del suo traffico dall’insieme dei social network su cui è presente.


Fattori legati all’utente


Conoscere i propri interlocutori tipici, e le loro esigenze informative e transazionali, è il presupposto migliore per realizzare documenti rilevanti, in grado di aumentare il tempo medio di permanenza dell’utente sulla pagina.

Anche l’erogazione di contenuti localizzati (per lingua e, laddove possibile, per prossimità) contribuisce ad allungare i tempi di consultazione del documento e del sito di cui fa parte.