top of page

 

HI-LING

LINGUISTICA AL LICEO

UNIT 2: VIOLATION OF MAXIMS

Lezione 4: I bias nella linguistica computazionale

Definizione:

La ricerca sui bias è un importante sottocampo della ricerca linguistica computazionale che analizza i bias nell'apprendimento automatico, nelle sue tecniche e nel linguaggio digitale online.

Concetti chiavi

  • Bias nell'apprendimento automatico

    • Bias storici

    • Bias di rappresentazione

    • Bias di misura

    • Bias di aggregazione

    • Bias di evaluazione

  • Linguaggio distorto

    • Bias di contestualizzazione

    • Bias epistemologico

UNITÀ 1: I BIAS NEI PROCESSI LINGUISTICI COMPUTAZIONALI

 

 

 

Bias potrebbe essere una parola nuova per te, si riferisce a un'inclinazione/pregiudizio/distorsione verso un certo gruppo/idea. I bias nel Machine Learning, lo sviluppo di sistemi informatici che imparano dai dati, possono essere suddivisi in cinque diverse categorie: bias storici, di rappresentazione, di misurazione, di aggregazione e di valutazione. Queste categorie non si escludono a vicenda e i modelli linguistici sono spesso influenzati da una loro combinazione. Queste categorie sono illustrate nella seguente Figura 1, che fornisce una panoramica delle fonti dei bias e delle fasi in cui entrano nel sistema.

 

Figura 1: Machine Learning e le sue potenziali fonti di bias (illustrazione propria, basata su Suresh & Guttag, 2019, p. 2). 

Bias storici

Il bias storico, come illustrato nella Figura 1 (1), è un problema dei modelli guidati dai dati in cui i bias esistenti nei dati si riflettono nei risultati del modello. Spesso si verifica quando i dati storici utilizzati per l'addestramento contengono già pregiudizi, che possono portare il modello a perpetuare stereotipi legati a specifici gruppi di identità.

Ad esempio, nella traduzione online, se i dati storici includono un maggior numero di casi di medici maschi, è probabile che il modello traduca "il dottore" nella forma maschile "der Arzt" in tedesco.

Bias di rappresentazione

 

Il bias di rappresentazione (2) si verifica quando i dati di addestramento non rappresentano accuratamente la popolazione, causando una sovrarappresentazione o una sottorappresentazione di gruppi specifici.

Per esempio, se un sistema speech-to-text viene addestrato principalmente su audiolibri narrati da uomini bianchi e di mezza età, può avere difficoltà a trascrivere parlanti diversi. Allo stesso modo, l'assenza dello svizzero tedesco nelle opzioni linguistiche degli strumenti di riconoscimento vocale è un esempio di distorsione della rappresentazione.

Bias di misurazione

I bias di misurazione (3) si verifica quando le caratteristiche e le etichette dei dati di addestramento non corrispondono a ciò che gli utenti cercano o quando la qualità dei dati e l'etichettatura non sono coerenti.

Ad esempio, l'utilizzo di testi biblici arcaici per l'addestramento dei modelli di traduzione può portare i traduttori online a produrre risultati che non corrispondono allo stile dell'uso linguistico contemporaneo.

Bias di aggregazione

 

 

 

Il bias di aggregazione(4) riguarda l'output del modello e si verifica quando un singolo modello non può servire efficacemente gruppi di dati diversi.

Un esempio di bias di aggregazione si può verificare nella sentiment analysis, che mira a determinare automaticamente il tono emotivo o il sentimento espresso in un testo utilizzando l'elaborazione del linguaggio naturale. I bias in questo contesto si verificano quando si combinano dati provenienti da più lingue senza tenere conto delle sfumature specifiche della lingua, con conseguenti determinazioni imprecise del tono emotivo a causa delle differenze culturali e linguistiche.

Bias di valutazione

Il bias di valutazione (5) si verifica quando il successo di un modello viene testato su insiemi di dati che non sono sufficientemente rappresentativi degli scenari del mondo reale a cui il modello è destinato.

Un esempio di bias di valutazione è evidente nei modelli di riconoscimento vocale dei modelli di intelligenza artificiale conversazionale, come Siri o Alexa. Poiché vengono testati principalmente su accenti standard, le loro prestazioni per i linguaggi non standard non sono adeguatamente testate, il che potenzialmente porta a prestazioni inferiori per i parlanti di dialetti regionali.

Analogia quotidiana: Se si basa la previsione di un problema sulle tendenze osservate in passato, anche se non riflettono la situazione contemporanea.

Analogia quotidiana: Se parli solo con i tuoi amici di politica, potresti avere difficoltà a capire le posizioni degli altri.

Analogia quotidiana: Se si usa una vecchia mappa per navigare,non saresti in grado di raggiungere la destinazione in modo soddisfacente, poiché la disposizione del luogo potrebbe essere cambiata.

Analogia quotidiana: Se si usa la stessa strategia per giochi diversi, anche se hanno regole e sfide diverse, non funzionerà bene per tutti.

Analogia quotidiana: Se valutate le vostre abilità calcistiche in base a quante volte riuscite a destreggiarvi con la palla con i piedi, non tenendo conto che ci sono molte altre abilità necessarie per essere un giocatore di successo.

Attività 1: Discussione

Il vostro contatto con i Bias

Ora potete discutere in due la seguente domanda    (3 minuti):

  • 1) Vi vengono in mente altri esempi di questi tipi di bias?

 

Ora potete fare coppia con un altro compagno, riassumere ciò che avete discusso in precedenza e rispondere alla domanda seguente (7 minuti):

  • 2) Perché questi bias sono preoccupanti?

1) ALTRI ESEMPI DI QUESTI TIPI DI BIAS Bias storico - Ad esempio, chatbot: potrebbero generare risposte stereotipate/sessiste/razziste se i dati di addestramento contengono già determinati pregiudizi Bias di rappresentazione - Ad esempio, modelli di traduzione automatica: le parole gergali non possono essere identificate se i dati di addestramento del modello sono costituiti principalmente da linguaggio standard. - Ad esempio, modelli di traduzione automatica: qualità inferiore (o addirittura mancante) delle traduzioni in una lingua minoritaria. Bias di misurazione - Ad esempio, modelli linguistici: annotazione incoerente a causa dei diversi contesti e background dei lavoratori. Bias di aggregazione - Ad esempio, software per l'apprendimento delle lingue: potrebbero non funzionare in modo ugualmente efficace per tutte le lingue, se non riescono ad adattarsi ai metodi di insegnamento e alle sfide specifiche di una lingua Bias di valutazione - Ad esempio, i chatbot: potrebbero non funzionare bene se fossero chiesti di replicare un linguaggio colloquiale, sefossero valutatiin base al linguaggio standard (poiché la loro debolezza non è stata rilevata). 2) MOTIVI PER CUI QUESTI BIAS SONO PREOCCUPANTI - Riproduzione di stereotipi - Compromissione della correttezza e dell'equità, con conseguente discriminazione - Impatto negativo soprattutto sulle popolazioni (già) vulnerabili - Inaccuratezza e scorrettezza dei risultati dei modelli - Perdita di fiducia negli strumenti di calcolo - Problemi legali (strumenti che violano le leggi sulla privacy o sulla discriminazione)

Come abbiamo visto nella prima parte del modulo, il campo della linguistica computazionale deve affrontare la sfida di ridurre i bias nelle sue applicazioni pratiche. Tuttavia, la disciplina offre anche approcci promettenti per individuare e prevenire i bias. La teoria linguistica può fornire agli strumenti computazionali conoscenze sul modo in cui il linguaggio distorto si realizza nel testo o nel parlato e su come tali distorsioni possono essere eliminate.

Il linguaggio distorto è particolarmente indesiderabile nelle fonti di riferimento, come i libri di testo o gli articoli di enciclopedia, attraverso i quali ci informiamo e acquisiamo nuove conoscenze. Per questo motivo, i ricercatori Recasens, Danescu-Niculescu-Mizil e Jufarsky (2013) hanno cercato di creare un programma, un modello linguisticamente informato, in grado di rilevare automaticamente il linguaggio distorto nei testi, applicandolo a Wikipedia. Questa ricerca esemplifica il modo in cui le tecniche di linguistica computazionale vengono applicate alle sfide del mondo reale legate al linguaggio.

 

Il progetto di ricerca

Il primo passo di questo progetto è stato quello di trovare frasi distorte e poi di identificare gli spunti linguistici, come parole o frasi, che causano la distorsione. Questi spunti possono essere utilizzati come indicatori di parzialità. Come si è proceduto? Come probabilmente sapete, le persone possono apportare modifiche agli articoli di Wikipedia ed etichettare il motivo per cui le hanno corrette. Le persone autrice hanno quindi cercato le modifiche apportate per eliminare i bias e hanno analizzato i cambiamenti dal punto di vista linguistico. Hanno scoperto che il linguaggio distorto poteva essere classificato in due tipi principali: il bias di contestualizzazione e il bias epistemologico.

Il bias di contestualizzazione è caratterizzato dall'uso di parole o frasi soggettive o unilaterali. 

Riesci a vedere la differenza di significato in base alle parole scelte?

  • È un collega perfettamente/rigorosamente organizzato. (intensificatori soggettivi)

  • Gli eco-attivisti/eco-terroristi si sono riuniti a Berna. (termini unilaterali)

Il bias epistemologico è un po' più sottile e si concretizza in parole o frasi che danno per scontato che qualcosa sia vero/falso con vari gradi di certezza, spesso attraverso proposizioni.

Riesci a percepire come la parola in corsivo influisce sul significato della frase?

  • I risultati mostrano/suggeriscono che i giovani sono interessati alle lingue straniere. (verbi fattoriali)

  • La politica ha dichiara/afferma che la nuova legge migliorerà le condizioni. (verbi assertivi)

  • Il bambino ha ceduto/non ha resistito alle tentazioni e ha mangiato le caramelle. (implicazioni)

  • Probabilmente non tornerà. (mitigazione)

 

Sulla base di queste scoperte, hanno addestrato il loro programma informatico a riconoscere il linguaggio distorto fornendo alla macchina gli elenchi delle parole distorte estratte. Hanno inoltre indicato le caratteristiche di queste espressioni, come ad esempio a quali spunti linguistici appartiene la parola, la sua posizione nella frase o la relazione grammaticale.

Testando il modello su nuove frasi, il programma ha ottenuto un'accuratezza del 34,35% nell'identificare la parola più distorta. In un'ultima fase, le persone ricercatrici hanno confrontato le prestazioni del rilevatore di bias con quelle di partecipanti umani. È emerso che gli esseri umani hanno ottenuto risultati solo leggermente migliori (37,39%), evidenziando la difficoltà di rilevare i bias sia per gli esseri umani sia per i programmi informatici. I rilevatori automatici di bias possono quindi essere uno strumento utile per le persone redatrice di opere di riferimento, aiutandoli a trovare i bias che non hanno notato da soli e rendendo il loro lavoro più efficiente.

 

Perché questa ricerca è un esempio rilevante di linguistica computazionale in azione?

Questa ricerca dimostra come la linguistica computazionale affronti i pregiudizi linguistici del mondo reale, utilizzando un approccio interdisciplinare, tipico per questo campo, che combina teorie linguistiche, analisi dei dati e apprendimento automatico. Esplora vari bias, facendo luce sulla complessità dell'analisi linguistica e mostrando le sfide e le opportunità del campo.

UNITÀ 2: APPROCCI LINGUISTICI COMPUTAZIONALI PER PREVENIRE I BIAS

Analogia quotidiana: Se si applica un filtro a una foto, puoi farla apparire più bella o più drammatica.

Analogia quotidiana: Se sentite una voce, potete crederci o essere scettic*, il che vi porta a parlarne nel rispettivo modo.

Attività 1: Discussione

Il vostro contatto con i bias

Ora tocca a voi. Riuscite a individuare tutti i casi di bias di contestualizzazione e bias epistemologico nel testo seguente?

(10 minuti)

Suggerimento: Per entrambe le categorie, annoti le frasi distorte, identifichi le parole che le introducono e indichi il numero della riga per facilitare l'autocorrezione.

Linguistica Computazionale

La linguistica computazionale, spesso considerata un campo di studio di grande valore, si dimostra avere un ruolo centrale nella definizione del futuro dell'elaborazione del linguaggio. De* sostenitor* di questa disciplina sostengono che essa apre eccitanti possibilità per l'automazione delle attività linguistiche e il potenziamento delle interazioni tra l'essere umano e il computer. Quest* sostenitor* sottolineano il suo potenziale nel portare immenso comfort nelle nostre vite e trasformare il modo in cui comuniciamo.

Tuttavia, le persone critiche affermano che la linguistica computazionale ha anche alcune limitazioni. Ess* enfatizzano che potrebbe non catturare completamente le sfumature del linguaggio umano, sollevando così dubbi sulla sua efficacia. Alcun* scettic* sostengono che, pur offrendo certi vantaggi, c'è il rischio di un eccessivo affidamento sulle macchine, il che potrebbe probabilmente ridurre le nostre capacità linguistiche e la creatività.

Nel discutere dell'impatto della linguistica computazionale sulla società, le persone che la sostengono dipingono spesso un quadro positivo. Suggeriscono che può rivoluzionare il settore sanitario, migliorare il servizio clienti e persino contribuire a risolvere complessi problemi globali. Quest* appassionat* tendono ad enfatizzare le opportunità illimitate che si presentano.

Tuttavia, alcun* mantengono una prospettiva più cauta. Sollevano preoccupazioni che il rapido avanzamento della linguistica computazionale possa superare la nostra comprensione delle sue conseguenze. Le persone che criticano la linguistica computazionale indicano i potenziali rischi di gravi pregiudizi nei modelli linguistici, la riduzione fatale della privacy e la minacciosa divisione digitale, che potrebbe colpire in modo sproporzionato le popolazioni vulnerabili.

Nell'ambito accademico, la linguistica computazionale è spesso considerata come un campo pionieristico, attrattivo per menti brillanti che esplorano con entusiasmo i suoi confini. Le persone che sostengono la linguistica computazionale lodano la natura interdisciplinare del campo, che unisce linguist*, informatic* e psicolog*, consentendo una varietà di prospettive.

In conclusione, la linguistica computazionale è senza dubbio un campo affascinante con un enorme potenziale. Tuttavia, è essenziale mantenere un atteggiamento critico e considerare le sue limitazioni e i potenziali pregiudizi per assicurare che si sviluppi in modo etico e inclusivo.

BIAS DI CONTESTUALIZZAZIONE: Il bias di contestualizzazione positiva: - Il testo presenta la linguistica computazionale in modo positivo, utilizzando espressioni come "grande valore" (riga 1), "eccitanti" (r. 3) e "affascinante" (r. 25) per descrivere il campo, introducendo così un pregiudizio di contestualizzazione positiva. - Inoltre, c'è una contestualizzazione ottimistica con frasi come "immenso comfort" (r. 5), "opportunità illimitate" (r. 15) e "enorme potenziale" (r. 25-26). Le parole "immenso", "illimitate" e “enorme” introducono questo bias di contestualizzazione positiva. - C'è un bias positivo nel suggerire che la linguistica computazionale può "rivoluzionare il settore sanitario" (r. 13) e "migliorare il servizio clienti" (r. 13-14). Le parole "rivoluzionare" e "migliorare" introducono questo bias. - Inoltre, la frase "attrativo per menti brillanti che esplorano con entusiasmo i suoi confini" (r. 22) è anch'essa positivamente distorta. L'espressione "menti brillanti" è unilaterale e rappresenta le persone accademiche in modo favorevole. Bias di contestualizzazione negativa: - D'altra parte, il testo introduce un bias di contestualizzazione negativa sottolineando che la linguistica computazionale potrebbe portare a dei "gravi pregiudizi nei modelli linguistici" (r. 19), "la riduzione fatale della privacy" (r. 19) e "la minacciosa divisione digitale" (r. 19). Le parole "gravi", "fatale" e “minacciosa” in questo contesto introducono un bias di contestualizzazione negativa. BIAS EPISTEMOLOGICO: Bias epistemologico presupponendo verità/certezza: - Il testo sostiene che la linguistica computazionale "si dimostra avere un ruolo centrale nella definizione del futuro dell'elaborazione del linguaggio" (r. 1-2), presupponendo la verità di questa affermazione. La parola "dimostra" introduce il bias. - Un altro esempio di questo bias si trova nella frase "la linguistica computazionale è senza dubbio un campo affascinante" (r. 25), dove la parola "senza dubbio" introduce il bias. Bias epistemologico presupponendo falsità/incertezza: - C'è un bias che presuppone una certa falsità e incertezza nelle frasi "de* sostenitor* di questa disciplina sostengono che apre [...] possibilità" (r. 2-3) e "alcun* scettic* sostengono che, pur offrendo certi vantaggi" (r. 9). La parola "sostengono" introduce il bias. - Anche nella frase "suggeriscono che può rivoluzionare il settore sanitario" (r. 13), c'è un bias epistemologico. Deriva dalla parola "suggeriscono", che indica l'incertezza della dichiarazione. - Inoltre, c'è anche un bias epistemologico nella frase "che potrebbe probabilmente ridurre le nostre capacità linguistiche" (r. 10-11), introdotto da "probabilmente".

1)

2)

3)

4)

5)

6)

7)

8)

9)

10)

11)

12)

13)

14)

15)

16)

17)

18)

19)

20)

21)

22)

23)

24)

25)

26)

27)

Pensiero finale per questa lezione

Come abbiamo visto, i bias sono una questione complessa, difficile da escludere nell'apprendimento automatico e da rilevare nei testi - per noi umani ma anche per gli strumenti linguistici computazionali.

Quando sarà la prossima volta che vi imbatterete in un bias in questi contesti?

Fonti utilizzate

 

TESTI

CrashCourse (Director). (2021, January 15). Computational Linguistics: Crash Course Linguistics #15. https://www.youtube.com/watch?v=3npuPXvA_g8

 

Leidner, J. L., & Plachouras, V. (2017). Ethical by Design: Ethics Best Practices for Natural Language Processing. Proceedings of the First ACL Workshop on Ethics in Natural Language Processing, 30–40. https://doi.org/10.18653/v1/W17-1604

Recasens, M., Danescu-Niculescu-Mizil, C., & Jurafsky, D. (2013). Linguistic Models for Analyzing and Detecting Biased Language. Proceedings of the 51st Annual Meeting of the Association for Computational Linguistics, 1, 1650–1659.

 

Shee, E. (2021, October 12). 6 Types of AI Bias Everyone Should Know. Seldon. https://www.seldon.io/6-types-of-ai-bias

 

Suresh, H., & Guttag, J. V. (2021). A Framework for Understanding Sources of Harm throughout the Machine Learning Life Cycle. Equity and Access in Algorithms, Mechanisms, and Optimization, 1–9. https://doi.org/10.1145/3465416.3483305

 

TELUS International (2021, February 4). Seven Types Of Data Bias In Machine Learning. TELUS International. https://www.telusinternational.com/insights/ai-data/article/7-types-of-data-bias-in-machine-learning

 

Towards AI (2023, March 28). A Guide to Computational Linguistics and Conversational AI. Towards AI. https://towardsai.net/p/machine-learning/a-guide-to-computational-linguistics-and-conversational-ai

ILLUSTRAZIONI

Dialani, P. (2019, January 10). Challenges Associated with AI Bias. Analytics Insight. https://www.analyticsinsight.net/challenges-associated-with-bias-ai/

 

Samuels, K. (2022, May 4). Women in AI: Breaking the Internet Glass Ceiling. Black Women Talk Tech. https://www.blackwomentalktech.com/women-in-ai

 

bottom of page