For a Human-Centered AI

Gender bias e tecnologie del linguaggio

5 Gennaio 2021

Passi avanti nella risoluzione del "gender bias" nei sistemi di traduzione automatica

I recenti sviluppi delle tecnologie del linguaggio hanno portato grandi benefici nella nostra quotidianità: strumenti di scrittura facilitata, trascrizione della voce e filtraggio dello spam. Tuttavia, negli ultimi anni questi sistemi hanno anche manifestato comportamenti discriminatori. Per esempio, chatbot che riversano sul web insulti sessisti, o un meccanismo di valutazione di candidature lavorative che scarta curricula di donne. In altre parole, queste tecnologie possono riprodurre asimmetrie sociali preesistenti, inclusi i bias di genere.

Da questi bias non sono esenti neppure i sistemi di traduzione automatica, sia di testi scritti che di parlato. Infatti, si è registrato come queste macchine perpetuino ruoli di genere stereotipati – ad esempio traducendo sistematicamente l’inglese doctor come dottore – e che soffrano di un generico default verso il maschile (es.: I’ve been there > sono stato) nonostante sia una donna a parlare. Questo fenomeno è in larga misura dovuto ai dati usati per sviluppare i sistemi, i quali contengono quegli stessi bias (rappresentazioni ridotte o sfavorevoli delle donne) che la traduzione automatica arriva poi ad apprendere. Il gender bias risulta dunque essere un problema sia tecnico che sociale, il quale provoca un calo delle prestazioni dei sistemi quando è richiesta una traduzione al femminile, ma soprattutto amplifica la sotto-rappresentazione di un gruppo demografico svantaggiato.

Questo è diventato il tema di ricerca di due studenti di dottorato, Beatrice Savoldi e Marco Gaido, seguiti dai ricercatori dell’Unità Machine Translation di FBK. Un primo lavoro, Gender in danger? Evaluating Speech Translation Technology in the MuST-SHE Corpus (Luisa Bentivogli et al.), è stato presentato alla più importante conferenza di settore, ACL 2020. Focalizzandosi sulla resa di fenomeni di genere in riferimento a parlanti, questo studio ha esplorato come i sistemi di traduzione del parlato potessero sfruttare informazioni acustiche (la voce di chi parla), per generare la forma linguistica corretta  in traduzione. Tale soluzione non era tuttavia sufficiente.

Con l’articolo Breeding Gender-Aware Direct Speech Translation Systems,  che ha ricevuto il riconoscimento di oustanding paper alla conferenza COLING’2020, il gruppo di ricerca di FBK ha fatto un ulteriore passo avanti nello studio del gender bias: andare al di là di inferenze fondate sulla  voce dei parlanti per tradurre il genere. Assunzioni basate su tali caratteristiche biometriche, infatti, possono talvolta essere più pericolose che utili, ad esempio nel caso di bambini con una voce acuta o donne con una voce profonda. Il problema che ne deriva, in questo caso, va oltre il binomio maschile/femminile e interessa uno spettro più ampio di individui (persone transgender, persone con disabilità vocali, bambini, ecc.) che appartengono ad altri gruppi poco o per nulla rappresentati.

Per questo nuovo studio, il gruppo si è avvalso di un’altra risorsa “targata” FBK: il corpus di TED Talks MuST-C, creato per lo sviluppo di sistemi di traduzione del parlato. In una prima fase del lavoro, MuST-C è stato arricchito annotando il genere dei relatori delle talk, individuato considerando i pronomi usati nelle biografie pubblicate sul sito TED. Tali pronomi indicano infatti il genere con il quale i relatori stessi si presentano e, di conseguenza, accettano di essere menzionati in una traduzione. Successivamente, sono stati creati dei sistemi di traduzione specializzati (addestrati cioè esclusivamente su dati maschili o femminili) le cui prestazioni nella traduzione del genere migliorano notevolmente rispetto a quelle di un sistema generico. Questi sistemi, inoltre, avendo imparato a produrre una sola forma linguistica di genere, riescono a produrla indipendentemente delle informazioni che ricevono dall’audio. Per esempio, se una parlante dalla voce apparentemente maschile e profonda si riferisse a sé con l’uso di forme femminili, il sistema sarebbe in grado di ignorare le frequenze fondamentali registrate e produrre comunque la forma femminile richiesta. Viceversa, un ragazzino con una voce ancora acuta, riceverebbe la forma maschile richiesta in traduzione.

Tali sistemi sono dunque pensati per mitigare il problema del gender bias e poter essere utilizzabili da una grande varietà di individui, ma al momento necessitano di un’integrazione informativa di genere per una resa corretta e rispettosa delle diversità.

 


Autore/i