Bias: la realtà distorta!
6 min readImmaginate di voler scrivere un algoritmo che permette di riconoscere un cane in una foto. Per svilupparlo ci sono due opzioni. La prima consiste nell’inserire tra i dati di base tutto quel che compone l’immagine di un cane: orecchie, muso, mantello, eccetera. Ossia i criteri espliciti.
Ci renderemo presto conto che il lavoro è enormemente immenso. Si tratta infatti di definire, non un solo cane, ma tutti i possibili cani con i relativi fonti di bias. Se si stabilisce che il cane ha due orecchie, il nostro “raffinatissimo” algoritmo sarà poi in grado di riconoscere un cane con un orecchio solo? E dovremmo anche definire quel che NON è un cane, in modo che il programma non rischi di confondere cani e cinghiali, per esempio. Per fare ciò, dovremmo considerare ogni possibile angolazione, posizione e configurazione del cane. In altre parole, ci ritroveremmo di fronte un numero infinito – ma mai sufficiente – di regole da stabilire sul programma.
L’altra opzione è l’apprendimento automatico. Il principio è molto semplice. Si presentano delle foto che contengono (o meno) un cane indicandogli, volta per volta, se e dove è presente il cane nell’immagine mostrata. Questo si chiama “apprendimento supervisionato”. Dopo un certo lasso di tempo e un numero considerevole di foto, l’algoritmo avrà sviluppato da solo dei criteri di categorizzazione, sui quali poi si baserà per riconoscerlo in una foto.
Si tratta di criteri impliciti desunti “dall’esperienza” e sviluppati dall’algoritmo stesso e non dai suoi estensori. È il cosiddetto apprendimento per esempi, che non ricorre a regole esplicite.
La precisione dell’algoritmo dipende dalla quantità delle immagini su cui si basa l’apprendimento, quindi dalla rappresentatività del campione di immagini elaborate. Ed è lì, nei dati iniziali, che si annidano i bias! Per restare al nostro esempio: se il campione canino non includesse “cani nudi peruviani” (una delle cinque razze senza pelo al mondo), l’algoritmo potrebbe benissimo non riconoscerlo, mentre invece un occhio umano ci vedrebbe immediatamente un cane.
Sebbene i bias siano un problema piuttosto tedioso da risolvere nel machine learning, non sono affatto una novità; basti pensare che i primi algoritmi di riconoscimento facciale non riconoscevano una persona nera.
In definitiva, il termine “bias” indica due cose:
1. L’algoritmo non ha imparato qualcosa che dovrebbe conoscere;
2. L’algoritmo ha appreso una regola sbagliata.
Il primo caso è quello che si verificava nei primi algoritmi addestrati su un ampio campione di immagini ma che tengono in considerazione – senza che i programmatori se ne rendano conto – solo persone bianche. Infatti l’algoritmo non sbagliava mai a centrare una persona, peccato che le persone nere non le vedeva mai!
Il secondo caso, invece, si verifica quando le immagini mostrate in fase di training contengono una caratteristica in comune. L’algoritmo trova una correlazione e associa – sbagliando – la presenza di un elemento alla presenza dell’oggetto che si vuole identificare.
L’immagine seguente ne è un esempio: abbiamo un algoritmo che è stato addestrato a riconoscere cani e lupi.
Una volta che è stato addestrato attraverso la supervisione di un dataset ricco di immagini dove, da un lato vi sono solo cani, e dall’altro solo lupi, viene interrogato riguardo alla precedente immagine che contiene elementi nuovi mai visti prima (dal suo punto di vista). Ecco il risultato.
Il bias qui è molto evidente: l’algoritmo confonde lupi con cani in presenza di neve, e viceversa, confonde un cane con un lupo in presenza di erba. Questo perché nella stragrande maggioranza delle immagini (utilizzati nella fase di training) in cui gli diciamo “questo è un lupo”, è presente la neve. E in un buon numero di immagini che contengono cani, vi è presenza di erba. Ergo, la regola che ha assimilato è:
Neve → probabilmente è un lupo!
Erba → probabilmente è un cane!
C’è un altro aspetto fondamentale da evidenziare: il paradosso dell’osservazione e della misurazione. Perché spesso modelliamo un fenomeno a partire dall’osservazione diretta, ma la nostra stessa osservazione può essere fonte di bias.
Come possiamo essere certi che ciò che stiamo osservando è davvero la realtà? Se tu, lettore, osservi un determinato oggetto dotato di una certa forma, è possibile che un’altra persona veda quello stesso oggetto in modo diverso? Dopotutto, ciò che vedresti tu (lettore) è già stato analizzato dal tuo cervello, che contiene gli algoritmi naturali che si sono costituiti a partire dalla tua nascita e che quindi contengono potenzialmente dei bias. La semplicità della domanda nasconde una complessità di cui la storia fornisce innumerevoli testimonianze.
Ad esempio, l’uomo ha a lungo creduto che il sole girasse attorno alla terra. D’altronde, all’apparenza è proprio così, dal momento che il nostro quadro di riferimento è quello terrestre. Solo nel sedicesimo secolo, quando Niccolò Copernico descrisse il sistema eliocentrico, si scoprì che il sole è al centro ed i pianeti intorno. La morale è che anche la nostra visione può essere falsata, perché pensiamo di vedere una cosa che nella realtà è diversa. Si tratta del “paradosso dell’osservazione”, nient’altro che un bias.
La seconda questione riguarda la misurazione: come faccio a sapere che la misurazione che metto in atto non risulta in una turbativa del fenomeno che voglio analizzare e quantificare? Qui vale forse la pena di ricordare l’esperimento mentale del “gatto di Schrodinger”. Si tratta di un esperimento proposto dal fisico Erwin Schrodinger nel 1935 per evidenziare il problema della misurazione nella fisica quantistica.
Il problema consiste in questo: in una scatola non trasparente c’è un gatto, e su un angolo della stessa scatola vi è del veleno; noi non sappiamo se il gatto è vivo o morto, e solo l’apertura della scatola può fornirci la risposta. L’apertura della scatola rappresenta qui la “misurazione”, ossia l’atto che ci permette di rilevare il valore desiderato. Rilevare la realtà (“vivo” o “morto”). Finché la scatola è chiusa, esiste solo una possibilità su due che il gatto sia vivo o morto.
Per scoprirlo è necessario guardare cosa c’è dentro. Ma come possiamo essere certi che l’apertura della scatola non provochi la morte del gatto? In altre parole, come posso essere certo che la misurazione non influenzi il risultato? Questa domanda tormenta la maggior parte degli scienziati sperimentali e a quanti, come noi, nel proprio lavoro utilizzano grandezze misurate da altri. Per questo è assolutamente necessario mantenere un occhio critico sui dati che si raccolgono sul campo.
In modo analogo, la semplice raccolta di dati da dare in input ad un algoritmo, può essere a sua volta condizionata dalla tecnica di raccolta.
Da qui la complessità delle indagini sociologiche, per esempio, nelle quali il modo in cui vengono poste le domande influenza sicuramente le risposte. I ricercatori più scrupolosi si sforzano di evitare i bias legati a fattori sociali o culturali, ma è un compito piuttosto arduo. Anche in questo caso, sono il processo decisionale e il pensiero critico a poter ridurre al minimo suddetti condizionamenti e gli effetti dei nostri bias cognitivi.
A dire la verità, tutti noi mettiamo in atto – consapevoli o meno – delle discriminazioni. Cercare di eliminare alla radice i bias equivarrebbe a sviluppare una società uniforme. I bias riflettono le nostre differenze e visioni del mondo. Fanno parte dell’identità. Diventarne consapevoli è una ricchezza ancora maggiore. In questo modo nutriamo il nostro senso critico e assumiamo altresì una prospettiva nuova, tenendo ancora più conto del polimorfismo della società, e quindi della distorsione della realtà.
LINK UTILI:
Bias in the vision and language of Artificial Intelligence
Il gatto di Schrodinger
Il pregiudizio digitale
Sono un ricercatore presso Co.Mac – CFT, un importante gruppo italiano che opera nell’ambito degli impianti industriali. Laureato in ingegneria Meccanica con specializzazione in Meccatronica al Polimi. Attualmente studio automazione con particolare focus verso gli algoritmi di intelligenza artificiale e le sue applicazioni nel mondo reale.
Comunicare significa donare parte di noi stessi, ed è questo il motivo per cui la divulgazione scientifica è una delle mie più grandi passioni.
1 thought on “Bias: la realtà distorta!”