Le macchine sbagliano: come evitare che gay e donna vengano scambiate per parole offensive
NEWS |

Le macchine sbagliano: come evitare che gay e donna vengano scambiate per parole offensive

I SISTEMI PER INDIVIDUARE AUTOMATICAMENTE L'ODIO ONLINE POSSONO CLASSIFICARE COME OFFENSIVI TERMINI DI USO COMUNE, COME GAY O DONNA, UTILIZZATI PER IDENTIFICARE VITTIME DEGLI ATTACCHI DI OMOFOBIA O MISOGINIA. UN NUOVO STRUMENTO RIESCE A MITIGARE IL PROBLEMA

Nella sua ricerca, Debora Nozza si impegna affinché gli strumenti automatici progettati per individuare ed eliminare dai social media il linguaggio offensivo verso le minoranze (il cosiddetto “hate speech”) non finiscano per limitare la libertà di espressione di queste stesse minoranze.
 
La comunità LGBT+, al pari di altre minoranze religiose, etniche, ecc., è spesso vittima di attacchi verbali sui social media. Nel tentativo di limitare il fenomeno, nella crescente quantità di post e messaggi pubblicati ogni giorno, sono stati sviluppati strumenti automatici capaci di individuarlo. “Questi tool di machine learning funzionano molto bene nell’ambiente ristretto dei test,” racconta Nozza, postdoctoral research fellow al Dipartimento di Computing Sciences della Bocconi, “ma presentano diverse problematiche quando li si utilizza nel mondo reale: in particolare, le parole che individuano le vittime degli attacchi possono essere classificate come offensive.”
 
Per addestrare un sistema di machine learning ad individuare l’odio online si usa normalmente una grande mole di esempi contenenti frasi offensive e non (il cosiddetto training set), lasciando che il sistema “impari” quali sono le caratteristiche che rendono ingiuriosa una frase. Durante l’addestramento, però, possiamo aspettarci che molte frasi omofobe contengano, ad esempio, la parola “gay” e molte frasi misogine la parola “donna”. Per questo motivo, può succedere che il sistema impari a considerare offensive le parole “gay” e “donna” e tutte le frasi che le contengono. Se all’individuazione dovesse automaticamente seguire la cancellazione, un’espressione come “che donna brillante” verrebbe eliminata, così come l’annuncio del “Gay Pride” postato da un’associazione LGBT+.
 
Nella maggior parte dei casi, un “bias” di questo genere viene mitigato specificando al sistema di non considerare offensive una serie di parole individuate da un operatore umano. “La lingua, però, è in continua evoluzione,” spiega Nozza, “con la creazione o la crescente diffusione, ad esempio, di termini legati alla sfera dell’identità sessuale. In questi casi, un sistema che escluda un elenco di termini predeterminati non ha nessuna possibilità di funzionare correttamente sul lungo periodo. Inoltre, questi sistemi nascono prima per la lingua inglese: se si vogliono utilizzare per una lingua diversa, l’elenco di parole deve essere tradotto con un ulteriore intervento umano, ed i tentativi fatti con i traduttori automatici non si sono rivelati all’altezza.”
 
 Immagine con link ad articoli su temi simili. L'immagine di due schwa rimanda all'articolo intitolato: Come rendere più inclusive le tecnologie linguistiche Immagine con link ad articoli su temi simili. L'immagine di un CPU di un computer rimanda all'articolo intitolato: Quando le macchine imparano i pregiudizi Immagine con link ad articoli su temi simili. L'immagine di un martello appoggiato su un computer rimanda all'articolo intitolato: Come proteggere i diritti dell'utente di fronte a un algoritmo

Insieme a due colleghi del Dipartimento di Computing Sciences (Dirk Hovy e Giuseppe Attanasio) e a una professoressa del Politecnico di Torino (Elena Baralis), Nozza ha sviluppato Entropy-based Attention Regularization (EAR), un tool capace di mitigare questo genere di bias senza l’utilizzo di una lista e di funzionare in qualsiasi lingua, purché, naturalmente, la fase di training del sistema di individuazione dell’hate speech sia stata realizzata in quella lingua.
 
La chiave è la richiesta, fatta al sistema, di porre meno attenzione ai singoli termini (tutti i singoli termini, non un elenco qualsiasi) e maggiore attenzione al contesto. “Il nostro sistema riesce a ridurre sensibilmente il bias, con una performance paragonabile a quella di altre tecniche in termini di effettivo riconoscimento dell’hate speech,” conclude Nozza.
 

di Fabio Todesco
Bocconi Knowledge newsletter

Persone

  • Kapacinskaite nominata da AOM tra le migliori 5 tesi di dottorato in due categorie

    Aggiornamento importante: Kapacinskaite ha vinto il TIM Division Best Dissertation Award all'Annual Meeting dell'Academy of Management  

  • Due docenti Bocconi tra gli esperti europei per gli arbitrati commerciali

    Paola Mariani e Claudio Dordi nel panel di esperti giuridici che la Commissione puo' nominare come arbitri nelle controversie relative all'applicazione dei trattati internazionali  

Seminari

  Agosto 2022  
Lun Mar Mer Gio Ven Sab Dom
1 2 3 4 5 6 7
8 9 10 11 12 13 14
15 16 17 18 19 20 21
22 23 24 25 26 27 28
29 30 31        

Seminari

  • ELLIS@Milan Artificial Intelligence workshop

    GABOR LUGOSI - Department of Economics, Pompeu Fabra University
    RICARDO BAEZA-YATES - Khoury College of Computer Sciences Northeastern University
    NOAM NISAN - School of Computer Science and Engineering, Hebrew University of Jerusalem
    MICHAL VALKO - Institut national de recherche en sciences et technologies du numérique

    AS02 DEUTSCHE BANK - Roentgen building

  • tbd

    ANDREW KING - Questrom School of Business

    Meeting room 4E4SR03 (Roentgen) 4