Rapporto uomo-macchina: storia di una incomprensione

postato da Petra Dal Santo - KEA s.r.l. [19/02/2017 11:50]
foto

Come percepiamo, conosciamo e agiamo all’interno di ambienti fisici, naturali o costruiti che siano? Che cosa rende gli ambienti digitali radicalmente diversi da quelli fisici? Perché uomini e macchine faticano strutturalmente a capirsi? Come usare le informazioni in chiave architettonica? Come comporre software intesi come contesti, come spazi di possibilità da esplorare?
A queste e a molte altre domande tenta di rispondere lo splendido libro di Andrew Hinton, Understanding Context. Environment, Language and Information Architecture, O'Reilly Media, 2014

Ambienti fisici: naturali e costruiti

Negli ambienti fisici, naturali e costruiti, la nostra percezione riguarda superfici, sostanze, oggetti, ambienti ed eventi.

Le superfici e la sostanza di cui sono fatte esprimono potenzialità fisiche che cogliamo immediatamente tramite i nostri sensi, mentre i passaggi da una superficie / sostanza all’altra strutturano e rendono riconoscibile l’ambiente.

Gli oggetti sono superfici / sostanze distinte. Possono essere attaccati (fissi) o staccati (mobili). A parità di oggetto, la sua fissità o mobilità può esprimere un diverso potenziale. Per esempio, un ramo staccato da un albero ci suggerisce l’uso come un bastone, mentre un ramo attaccato all’albero non ha questa potenzialità. Gli oggetti possono essere o meno agenti: noi e gli animali siamo casi particolari di oggetti animati, ma vedremo che anche molti oggetti digitali sono agenti.

Layout / luogo / ambiente fisico, naturale o costruito. L’ambiente è caratterizzato dalla relazione di elementi invarianti, che ci permettono di distinguere un ambiente da un altro, di riconoscerlo come sistema, di orientarci al suo interno e di percepirne le potenzialità. Per esempio nell’ambiente “bicicletta”, le ruote, la trasmissione e il manubrio sono elementi di sistema invarianti. Percepiamo la relazione fra gli elementi non come una relazione gerarchica, ma come nidificazione / ecosistema, che ammette sovrapposizioni parziali fra gli elementi.

Percepiamo, comprendiamo e interpretiamo superfici, sostanze, oggetti e ambienti agendo su di essi. Viceversa la nostra percezione, comprensione e interpretazione sono finalizzate ad agire in modo efficiente ed efficace su oggetti e ambienti. Questo circolo è sintetizzabile dal termine interpret-azione.

A parità di superfici, sostanze, oggetti e ambienti ogni agente può percepirne potenzialità differenti. Per esempio, un ramo o un albero esprimono potenzialità diverse per noi e per un volatile. Lo stesso agente può inoltre percepire potenzialità differenti della stessa superficie, sostanza, oggetto e ambiente in base alla sua situazione, ai suoi bisogni e compiti. Per esempio la stessa autostrada è percepita in modo diverso dall’automobilista e dal pedone. Il contesto è dunque lo spazio-tempo della relazione biunivoca di interpret-azione fra agente, situazione in cui l’agente si trova (bisogni, compiti, background, ecc.) e ambiente.

Superfici, sostanze, oggetti e ambienti non sono immutabili. L’evento è il cambiamento di secondo il principio di causalità. Per economizzare gli sforzi, gli esseri viventi, noi compresi, sono ciechi ai cambiamenti non rilevanti ai fini dell’interpret-azione. Gli ambienti non naturali, ma costruiti dall’uomo, tendono a modificare o addirittura a sospendere la correlazione naturale, diretta, fra causa ed effetto. Per comprendere i nessi causali in ambienti costruiti, la percezione e l’esperienza non sono sufficienti, ma è necessario apprendere i nessi causali dalle comunicazioni di chi li ha progettati e attuati.

Su che cosa si basa la nostra l’interpret-azione di oggetti e ambienti?

La nostra interpret-azione di oggetti e ambienti si basa su due modalità distinte e integrate: la percezione di informazioni fisiche e la cognizione di informazioni cosiddette linguistiche (semantiche, simboliche, concettuali).

Informazione fisica e percezione

L’informazione fisica è costituita dalle caratteristiche fisiche intrinseche a oggetti e ambienti. Non è creata intenzionalmente e non ha finalità comunicative: esiste a prescindere dal fatto di essere colte da un agente. Ha una velocità di cambiamento molto bassa.

La percezione è il metodo cognitivo che accomuna l’uomo agli altri esseri viventi. Si basa sul circolo fra azione e interpretazione: agendo interpretiamo oggetti e ambienti; viceversa, l’interpretazione ci aiuta a ottimizzare l’azione su oggetti e ambienti. Si tratta di un concetto dinamico. La percezione non richiede una riflessione consapevole, ma - in base alle capacità dei nostri sensi - coglie immediatamente l’espressività delle caratteristiche fisiche e delle variazioni dei sistemi con cui siamo in simbiosi. Obiettivo della percezione è permettere all’essere vivente di interpretare il sistema quanto basta per agire in simbiosi con esso e assicurarsi la sopravvivenza.

La percezione è un metodo di interpret-azione body-first (James Gibson parla di “embodied cognition”), basata sull’immediatezza irriflessa (“information pick-up”). La percezione è tendenzialmente tacita, inconscia e automatica.

Per definire l’informazione fisica percepibile, Gibson conia il termine di “affordance”. L’affordance definisce il sistema a cui concorrono la rete di caratteristiche intrinseche di oggetti e ambienti, nonché le capacità di un determinato soggetto percipiente. L’affordance non è unica, ma è relativa, definita cioè dalla relazione biunivoca fra oggetto / ambiente e soggetto percipiente / agente.

Informazione linguistica (semantica, simbolica, concettuale) e cognizione

L’informazione linguistica è creata intenzionalmente da un mittente per comunicare qualcosa a un destinatario. Ha una velocità di cambiamento media.

Il livello dell’informazione linguistica (Gibson parla di “display”) crea una vera e propria infrastruttura (“information architecture”) che può reggersi in modo autonomo o sovrapporsi a quello dell’informazione fisica per aumentarne o modificarne il senso (da questo punto di vista la Realtà Aumentata non ha inventato nulla di nuovo!).

Per sua natura l’informazione linguistica è convenzionale e contestuale, comprensibile solo se mittente e destinatario si muovono su un terreno comune (storico, culturale, di dominio, ecc.). Per esempio la cassetta delle lettere esprime informazioni fisiche che ogni persona (più in generale, ogni essere vivente) può percepire, ma comunica anche informazioni linguistiche (cioè il fatto di essere un elemento del sistema di gestione della corrispondenza), che possono essere comprese solo da persone situate nello stesso spazio di negoziazione in cui si colloca anche la cassetta delle lettere. Convenzionalità e contestualità rendono le informazioni linguistiche meno stabili di quelle fisiche e quindi potenzialmente ambigue: la disambiguazione è un elemento costitutivo della comunicazione.

La sovrapposizione fra livello dell’informazione fisica e livello dell’informazione linguistica conferisce un’espressività comunicativa più complessa a oggetti e ambienti.

L’informazione linguistica può essere parlata o scritta. Il linguaggio orale è lineare, legato all’evento, mentre il linguaggio scritto è slegato dall’evento: aumenta la capacità di astrazione e categorizzazione, è persistente (a meno della distruzione del suo supporto), può essere archiviato e richiamato, può essere oggetto di analisi e facilita la trasmissione. L’informazione linguistica scritta può basarsi su icone e indicatori oppure su simboli: mentre le icone, gli indicatori (per esempio l’indicatore del livello di carburante di un’autovettura) e, per certi versi, anche le metafore mantengono il legame con l’oggetto e ambiente cui si riferiscono, il simbolo è astratto e comprensibile solo se mittente e destinatario sono situati su un terreno comune (sono rappresentazioni visibili dell’invisibile). L’astrazione determina anche la flessibilità del simbolo, come dimostrato dai concetti, che sono un caso particolare di simboli: un unico termine può rappresentare un intero sistema, che le persone sono in grado di reificare, cioè di “vedere” come oggetti e ambienti monolitici e concreti (per esempio il concetto di società).

La cognizione, necessaria per recepire le informazioni linguistiche, è un metodo di interpret-azione brain-first (Gibson parla di “disembodied cognition”), basato sulla mediazione della riflessione. La cognizione è esplicita, volontaria, riflessiva.

È interessante notare che, in prima battuta l’informazione linguistica viene appresa cognitivamente, ma che - una volta appresa -, anch’essa viene percepita come una “seconda natura” dell’oggetto e dell’ambiente, quasi fosse un’informazione fisica. Dato che la cognizione richiede più sforzi della percezione, si tratta di una strategia tacita, inconscia e automatica per economizzare gli sforzi.

Satisficing: strategie per economizzare gli sforzi cognitivi

Secondo Gibson, nel nostro processo di interpret-azione di un oggetto o ambiente, il livello percettivo, fisico, immediato e irriflesso, precede quello cognitivo, mentale e mediato dalla riflessione, poiché - rispetto alla cognizione - la percezione richiede uno sforzo minore.

Dal momento che gli esseri viventi, compreso l’uomo, tendono a economizzare gli sforzi, la mediazione della riflessione (cognizione) scatta solo quando l’immediatezza irriflessa (percezione) non produce un risultato di interpret-azione sufficientemente soddisfacente (“satisficing” = satisfy + suffice).

Solo in presenza “attriti” la nostra modalità di funzionamento passa da percettiva a cognitiva.

Percezione e cognizione sono metodi distinti, ma integrati (Gibson parla di “soft assembly”). Nel processo di interpret-azione non facciamo una distinzione consapevole fra informazione fisica e linguistica, fra percezione e cognizione: avvertiamo solo un senso di minore o maggiore fatica. È nel suo insieme, fisico e linguistico, che l’ambiente influenza le nostre azioni.

Su percezione e cognizione influiscono non solo l’ambiente, ma anche la situazione, i bisogni e i compiti della persona, la socialità e la cultura, l’esperienza e l’apprendimento, nonché la memoria.

Anche la memoria funziona secondo il principio del satisficing, del massimo risultato con il minimo sforzo. Esiste una memoria tacita, che si forma inconsapevolmente e involontariamente nel tempo, sulla base delle nostre percezioni ed esperienze, e una memoria esplicita, che utilizziamo quando impariamo a memoria e richiamiamo alla memoria consapevolmente e volontariamente.

La memoria tacita aumenta le nostre capacità di ottimizzare l’interpret-azione in un determinato ambiente e quindi di sopravvivere al suo interno. Si tratta di una capacità fisica che, come la percezione, l’uomo condivide con gli altri esseri viventi. La memoria tacita, rispetto a quella esplicita, richiede uno sforzo minore da parte del soggetto ed è quindi sempre la prima opzione.

Nel complesso condividiamo con gli altri esseri viventi la tendenza naturale a economizzare gli sforzi e quindi ad agire prima di pensare, basando l’interpret-azione di oggetti e ambienti anzitutto sulla percezione e sulla memoria tacita, e solo in caso di risultati al di sotto della soglia del satisficing su cognizione e memoria esplicita.

Oggetti, ambienti e informazioni digitali: l’altro tout court

Negli anni Quaranta del secolo scorso, Claude Shannon affronta il problema dell’archiviazione e della trasmissione di contenuti, e utilizza il termine “informazione” per definire un messaggio ridotto alla sua descrivibilità matematica (come sequenza di bit, di binary digits, digitale), neutro rispetto alla sua componente semantica, di senso.

Intrinsecamente il linguaggio digitale non offre appigli alla nostra attività di percezione e cognizione, poiché è pensato per consentire il funzionamento di macchine (computer e software), nonché la comunicazione fra di esse, non per essere compreso immediatamente dagli esseri umani.

Perché possiamo comprenderlo, il linguaggio digitale va tradotto, sovrapponendo a posteriori al messaggio il livello semantico di cui è stato privato in fase di digitalizzazione.

Il livello semantico, non essenziale al funzionamento della macchina, è aggiunto solo a quelle parti della macchina, che è previsto entrino a contatto con le persone. Le ontologie - che descrivono, sempre in termini logico-matematici, elementi e relazioni di un determinato dominio - sono funzionali a questa attività di donazione di senso a posteriori.

La teoria dell’informazione si applica non solo all’archiviazione e alla trasmissione, ma anche all’elaborazione (computing). In particolare Alan Turing e Norbert Wiener affermano, che ogni messaggio descrivibile in termini logico-matematici può essere elaborato da una macchina. La capacità di elaborazione implica che la macchina acquisti - al pari dell’uomo e degli altri esseri viventi, sebbene con modalità differenti - lo status di agente, capace di decidere e di agire in modo autonomo all’interno del nostro mondo.

In ogni ambiente digitale, ad agire non è solo la persona, ma sempre anche il software, rendendo necessariamente duplice la prospettiva dell’interpret-azione: oltre al punto di vista della persona, va considerato anche quello del software.

Perché la macchina possa decidere e agire nel nostro mondo, esso va ricreato all’interno della macchina con strumenti logico-matematici, secondo i principi dell’astrazione e della rappresentazione.

Ciò implica, che le macchine partono dall’astrazione logico-matematica (brain-first), anziché dalla percezione fisica, mentre l’uomo e gli altri esseri viventi partono dalla percezione fisica (body first) e, all’occorrenza, attivano gli strumenti cognitivi. La prospettiva di partenza diametralmente opposta è la causa originaria della difficoltà di interazione fra uomo e macchina.

Va sottolineato che nelle interfacce uomo-macchina per la prima volta è possibile interagire con la rappresentazione di elementi e delle loro relazioni. Mentre possiamo solo osservare gli oggetti raffigurati in un quadro, l’interfaccia di ogni software ci permette di agire sugli oggetti e ambienti rappresentati e di ricevere di ritorno la loro reazione.

Gli ambienti digitali, non sono fisici, ma non per questo sono meno reali. Oggetti e ambienti digitali che popolano le interfacce software acquistano per noi una affordance simulata, a cui applichiamo lo stesso approccio fisico-percettivo con cui approcciamo oggetti e ambienti fisici (naturali o costruiti). Anche negli ambienti digitali percepiamo la relazione fra gli elementi non come una relazione gerarchica, ma come nidificazione / ecosistema, che ammette una sovrapposizione parziale fra gli elementi. Per esempio: in un’applicazione web Progetti, Documenti, Manager, Autori, Team possono essere altrettanti elementi invarianti (sezioni); l’applicazione del concetto di nidificazione / ecosistema permette all’utente non solo di esplorarli singolarmente (verticalmente), ma anche di tracciare in modo autonomo percorsi di collegamento multi-dimensionali, basati sulla sua situazione, sui suoi bisogni e compiti, passando, per esempio, da un autore ai documenti che ha prodotto oppure verificando quali sono i team di cui un autore fa parte e qual è il manager di ognuno, ecc.

Rispetto a quelli fisici, gli oggetti e ambienti digitali presentano peculiarità, che li rendono radicalmente diversi:

  • Essendo simulata, l’affordance di oggetti e ambienti digitali non è fisica, ma solo linguistica (semantica, simbolica, concettuale). In quanto tale, nulla vieta che modifichi o addirittura contraddica il comportamento degli omologhi fisici, ingenerando in noi un senso di spaesamento

  • Non essendo governati da regole fisiche, ma da regole logico-matematiche, i rapporti di causa-effetto di oggetti e ambienti digitali, nonché degli oggetti fisici digitalmente aumentati dell’IoT (Internet of Things, internet delle cose), non sono evidenti - poiché di solito non vediamo né comprendiamo immediatamente il codice sorgente su cui si basa il funzionamento della macchina -, e possono contravvenire alle regole di funzionamento degli omologhi fisici o degli oggetti non IoT. L’affordance digitale non è mai naturale, ma è sempre convenzionale: come tale andrebbe anzitutto spiegata da parte di chi ha progettato e attuato il nesso e poi appresa dall’utente tramite cognizione ed esperienza, non tramite la percezione - il che richiede uno sforzo, che cerchiamo istintivamente di evitare

  • Essendo guidato da regole logico-matematiche, non fisiche, senza mutare di aspetto, lo stesso oggetto e ambiente digitale può mutare il proprio comportamento in base alla modalità in cui si trova, portandoci a trarre conclusioni errate e a commettere errori, se il tipo di modalità o la scelta compiuta dalla macchina in nostra vece non sono comunicati chiaramente in termini linguistici. Ecco due esempi: il tab Shopping di Google dà priorità ai prodotti sponsorizzati, ma questo comportamento non è chiaro e noi siamo indotti a pensare che il criterio di presentazione dei risultati sia lo stesso delle altre funzioni di ricerca, fondato sulla rilevanza; alcuni sistemi di e-commerce basano la localizzazione automatica dell’utente sul suo indirizzo IP, il che non garantisce un posizionamento sufficientemente preciso e rischia di essere spiazzante

  • Essendo svincolata dalla fisicità, la velocità di cambiamento delle informazioni digitali è molto elevata

  • Come già sottolineato, per economizzare gli sforzi, gli esseri viventi, noi compresi, sono ciechi ai cambiamenti non rilevanti ai fini dell’interpret-azione. Negli ambienti digitali i cambiamenti sono ancora più difficili da percepire, poiché i nessi causali non sono auto-evidenti e gli spazi sono spesso molto ridotti (soprattutto in ambito mobile).

Composizione del contesto: princìpi per lo sviluppo di ambienti digitali

Il contesto è la rete di relazioni, unica e personale, che - tramite l’azione, il portato storico (esperienza) e la narrazione (donazione di senso) - si crea fra ogni agente, ogni agito e la situazione in cui ogni agente si trova.

L’agente può essere la persona oppure la macchina: nel digitale la prospettiva è sempre duplice.

La situazione è una componente importante del contesto. Per esempio, il fatto di essere pedoni o automobilisti cambia il senso che, in quella determinata situazione, ha la medesima autostrada. Il contesto è unico e personale per ogni agente, e può essere percepito diversamente dallo stesso agente in vari momenti.

Comporre il contesto, cioè progettare oggetti e ambienti digitali, significa creare spazio (spacemaking) per creare senso (sensemaking). Nella composizione del contesto:

  • Si tratta di costruire un tutto strutturato (ambiente) mediante la relazione fra le sue parti (elementi)

  • Il tipo di relazione fra le parti è di nidificazione, non di gerarchia (relazione di tipo ecologico)

  • Relazioni e struttura (la “mappa del territorio”) non sono neutrali, ma frutto del punto di vista e delle decisioni del progettista. In quanto tale, la mappa afferma che cosa l’ambiente è e come funziona, è cioè la rappresentazione del suo senso

  • È necessario tenere in considerazione i diversi modi in cui gli agenti (persone, software) percepiscono / conoscono l’agito, nonché le situazioni in cui gli agenti possono trovarsi

  • La presenza di elementi e relazioni invarianti, nonché la coerenza interna della mappa e la sua corrispondenza a uno degli “schemi mentali” familiari agli agenti tipici sono fondamentali, affinché gli utenti possano orientarsi nell’ambiente, interpretarlo (cioè condensarlo in una propria narrazione carica di senso) e agire in modo efficiente ed efficace

  • Il progettista ha a disposizione solo strumenti linguistici (semantici, simbolici, concettuali) per creare, a partire dalla mappa, uno spazio carico di senso e per ingenerare nell’utente una determinata interpret-azione (in questo senso ogni mappa è uno strumento di potere). È oggettivamente difficile veicolare tramite informazioni linguistiche che cos’è e come funziona un ambiente digitale: in primo luogo, perché l’utente dovrebbe avere un approccio cognitivo, non percettivo a questo tipo di informazioni, mentre egli parte sempre dalla percezione, attivando cognizione e memoria esplicita solo quando i risultati delle sue interpret-azioni sono al di sotto della soglia del satisficing; in secondo luogo, poiché il digitale contestualizza di meno le informazioni linguistiche, richiedendo quindi a monte un’attenta attività di disambiguazione per non pregiudicarne la comprensibilità da parte degli utenti tipici. Disambiguare significa anche che il progettista è chiamato a sfruttare proficuamente la nostra capacità di cogliere metafore per integrare tacitamente informazione fisica, linguistica e digitale. Gli strumenti linguistici per creare, a partire dalla mappa, uno spazio carico di senso sono:

    • Etichette. Immagini e testi atti a nominare le cose

    • Relazioni. Creano un tutto dalle parti. Dovrebbero essere stabilite privilegiando il principio della nidificazione. Possono essere di vario tipo: relazioni fra elementi sovra- e subordinati o di pari grado; relazioni basate su matrici, liste, faccette; relazioni fra elementi non contigui (percorsi di collegamento); relazioni fra mondo fisico e funzione digitale, ecc. L’ uso controllato del linguaggio, le ontologie, le tassonomie e i thesauri aiutano a stabilire relazioni intelligibili

    • Regole. Le regole riguardano le azioni che gli agenti possono compiere. Anch’esse sono comunicate in termini linguistici (ne è un esempio la riga di mezzania della carreggiata, che - in base al tipo di tratto - ci indica la possibilità o meno di effettuare un sorpasso).

Nella composizione del contesto occorre considerare che le persone di norma non hanno un approccio logico e lineare né alla formulazione, né allo svolgimento del proprio compito: si comporta piuttosto in modo erratico, iterativo ed esperienziale, seguendo il “profumo” dei contenuti e delle azioni che via via paiono più funzionali al raggiungimento dello scopo - come un cacciatore / raccoglitore. Spesso situazioni, bisogni e compiti si chiariscono alle persone strada facendo.

A prescindere dai rari casi in cui è necessario far seguire all’operatore un percorso lineare e predefinito (per esempio in attività di data entry oppure nell’applicazione di protocolli medicali), il progettista non deve disegnare i molteplici modi di uso del software (poiché è impossibile predefinire le esigenze di ogni agente, anche tipico), ma rendere comprensibile l’ambiente (in base ai principi di nidificazione, ecosistema e sovrapposizione parziale; non di gerarchia, verticalizzazione, silos e compartimenti stagni), in modo tale che ogni persona possa trovare la sua via di esplorazione, narrazione (sensemaking) e interpret-azione.

Anche per il fatto che la memoria tacita, rispetto a quella esplicita, richiede uno sforzo minore da parte del soggetto ed è quindi sempre la prima opzione, il progettista non deve presupporre che l’utente impari a memoria e richiami alla memoria consapevolmente e volontariamente la sequenza delle procedure.

I software dovrebbero nascere per supportare un approccio simile al metodo pedagogico Montessori, dando alle persone gli strumenti per scoprire l’ambiente a modo proprio, conferendogli senso attraverso la propria personale narrazione, cioè tramite l’attività linguistica con cui cerchiamo un filo rosso, una coerenza interna a un sequenza di nostre interpret-azioni. I software dovrebbero essere spazi di possibilità da esplorare, resilienti. Un esempio interessante di questo approccio è IFTTT (If This Than That), applicazione che incorpora il principio del Service Design e del System of Activities Hub. In IFTTT non sono centrali le funzioni (che cosa fa il software), ma il modo in cui l’applicazione aiuta l’agente a portare a termine un compito. Anche la proazione del software va vista in funzione del principio di leggibilità della complessità, non di esautorazione della persona.

“Put knowledge in the world”: per essere spazi di possibilità da esplorare, i software non devono occultare la complessità, ma renderla comprensibile alle persone, se possibile già alla percezione fisica, altrimenti alla cognizione mentale e alla memoria esplicita. Passare dal seamless al seamfull, “mostrare le cuciture” significa rendere evidente e disponibile all’interpret-azione la complessità, permettendo alla persona di costruire la propria personale “mappa del territorio”, di dare coerenza e senso all’ambiente e di esplorarlo in base a finalità puntuali.