Rumore di fondo o valore aggiunto? Gestire il rumore nell'elaborazione informatica dei corpora linguistici, giornata di studio, 28 apr, Grenoble e online

Rumore di fondo o valore aggiunto? Gestire il rumore nell'elaborazione informatica dei corpora linguistici

Bruit de fond ou valeur ajoutée ? Gérer le bruit lors des traitements informatiques des corpus linguistiques

giornata di studio

Université Grenoble Alpes e Roma La Sapienza

28 Apr 2023 Grenoble (France)

https://je-bruit-corpus.sciencesconf.org/

Campus UGA, Aula J. Cartier, Casa delle Lingue e delle Culture

Partecipazione a distanza (Zoom): https://univ-grenoble-alpes-fr.zoom.us/j/5686216302

Questa giornata di studio, co-organizzata da ricercatori giovani ed esperti, è rivolta a dottorandi, giovani ricercatori e post-doc, nonché a ricercatori esperti.

La progressiva influenza delle metodologie legate all’Elaborazione del Linguaggio Naturale (ELN) nella linguistica dei corpora sta portando un numero crescente di ricercatori a riesaminare le pratiche di gestione del rumore e del suo impatto sui risultati della ricerca (Fuchs & Habert, 2004; Léon, 2018; Zalmout et al., 2018). Che si tratti di corpora diacronici (e.g., di francese medievale), di corpora dialettali o di varietà con risorse limitate (e.g., arabo dialettale orale o scritto, cfr. arabizi), o di corpora di apprendenti, l'analisi del rumore è un passaggio necessario per valutare correttamente la qualità dei dati su cui si basa la ricerca (Molinelli & Putzu, 2015; Scaglione, 2018; Litosseliti, 2018). Questo workshop sarà un'occasione per riflettere sui metodi di gestione del rumore, in ELN e nella linguistica dei corpora, e sull’impatto che esso ha sulla qualità del dato linguistico (Kraif & Ponton, 2007; Goutte et al., 2012; Zeroual, 2018).

Alla base di qualsiasi studio linguistico c’è l’identificazione dell'oggetto di ricerca, la definizione della natura del dato e della metodologia atta a preservarne il più possibile le caratteristiche nelle fasi di elaborazione (lemmatizzazione, normalizzazione, ecc.) (Sarrica et al., 2016). Pertanto, le scelte metodologiche di gestione del rumore, dalla fase di raccolta all'archiviazione, dalla preparazione dei dati all’annotazione, gioca un ruolo fondamentale (Egbert & Baker, 2019). La giornata di studio incoraggerà la riflessione sul potenziale impatto del rumore nella fase di raccolta, registrazione o annotazione dei dati. Allo stesso modo, l'obiettivo è capire fino a che punto il rumore può essere una fonte di informazioni, in particolare durante la fase di annotazione dei corpora. Entro quali soglie il rumore dovuto all’elaborazione dei dati è tale da non compromettere i risultati della ricerca? Come si può distinguere il rumore dal bias metodologico? Come si può valutare il rumore senza disporre dei “dati di verità di base” (ground truth)? Per rispondere a queste domande, gli interessati possono presentare una proposta di contribuzione in una delle tre aree indicate di seguito:

1. Il rumore durante la raccolta e la registrazione dei dati. Se accettiamo il postulato che “Il dato linguistico è un risultato” (Benveniste, 1966) come possiamo interpretare il rumore generato in fase di raccolta o di registrazione dei dati? In effetti, a seconda dell’oggetto di ricerca, esistono potenziali fattori di corruzione dei dati, come le rappresentazioni mentali del ricercatore o le distorsioni introdotte da un determinato sistema OCR (Jentsch & Porada, 2020). La sfida consiste quindi nel prevedere o determinare i potenziali errori indotti da questi fattori durante la selezione dei dati, al fine di ottimizzare le fasi successive della ricerca.

2. Preparazione e pre-elaborazione dei dati. I metodi scelti per ripulire i dati naturali e renderli fruibili tramite sistemi informatici possono rappresentare una fonte importante di rumore o, al contrario, di silenzio: questo è il caso, in particolare, del processo di normalizzazione dei dati (Al Sharou et al., 2021). Sia che si tratti di trascrivere i dati o di correggerne gli errori, il ricercatore prende delle decisioni che hanno necessariamente un impatto sulla natura dei dati, operando una selezione o un arricchimento degli stessi.

3. Il processo di annotazione e i metadati. Fondamentalmente, l'annotazione dei corpora è un processo volto ad arricchire i dati: in base al modello di analisi adottato, il ricercatore cerca di categorizzare le unità attraverso un processo di etichettatura (Péry-Woodley et al., 2011). Tuttavia, se da un lato questo processo ha come obbiettivo l’arricchimento dei dati attraverso l’aggiunta di metadati, dall'altro introduce del rumore che può alterare l’interpretazione dei dati e i risultati della ricerca. Anche la nozione di metadato può quindi essere oggetto di discussione: categorizzare i dati significa trasformarli in qualcos'altro?