Phoné - ϕωνή, consorzio scientifico, richiesta di collaborazione

Phoné - ϕωνή

consorzio scientifico formato da:

CNR-ISTI di Pisa

Libera Università di Bolzano

Università di Napoli Federico II

https://phonegroup.github.io/

richiesta di collaborazione scientifica

per raccolta dati di parlato italiano

finalità: creazione di un dataset di pubblico utilizzo

Diffondiamo la richiesta dei ricercatori del gruppo Phoné -Gianpaolo Coro, Franco Cutugno, Alessandro Vietti- riportando per esteso la loro lettera d’invito alla comunità scientifica.

Gentili colleghe e colleghi,

scriviamo per presentare l’iniziativa Phoné, che mira a raccogliere materiale parlato (annotato e non) di alta qualità per l’addestramento e la valutazione dei moderni sistemi di riconoscimento e sintesi per l’italiano, e coinvolgere chiunque della comunità scientifica voglia contribuire all’impresa secondo le proprie possibilità.

Conoscete tutti sicuramente il mondo dei Large Language Models LLM che sono in grado di eseguire, entro certi limiti, dei compiti riguardanti l’elaborazione delle lingue naturali. Gli LLM sono quasi tutti prodotti da grandi compagnie private sulla base di dati di addestramento per lo più in inglese e raccolti in maniera poco trasparente e controllata. Un processo analogo si sta manifestando anche per i modelli di riconoscimento automatico del parlato (Large Acoustic Models – LAM) basati su metodi ed architetture comparabili con quelle degli LLM. Per questi [AV1] modelli la raccolta dati presenta sfide ancora maggiori considerata la grande variabilità che caratterizza la lingua parlata e le possibili condizioni di registrazione.

Nell’ambito del PNRR FAIR (Future Artificial Intelligence Research - https://fondazione-fair.it/) , il consorzio Phoné formato dall’Università di Napoli Federico II, dal CNR-ISTI di Pisa, e dalla Libera Università di Bolzano partecipa al Progetto Trasversale su “Visione, Linguaggio e Sfide Multimodali” (TP2 https://fondazione-fair.it/transversal-projects/tp2-vision-language-and-multimodal-challenges/) senza avere accesso a nessuna forma di finanziamento pubblico e si pone l’obiettivo di raccogliere dati di parlato destinati al pubblico utilizzo da parte di chiunque voglia addestrare (sia in fine-tuning che ex-novo), testare o estendere l’utilizzo dei LAM.

Miriamo a produrre un sistema di riconoscimento automatico (ASR) addestrato from scratch sull'italiano per il quale stimiamo la necessità di ALMENO 1000 ore di parlato non trascritto e 250 ore di parlato trascritto. Oltre all’enorme quantità di dati, la raccolta di registrazioni già esistenti implica una ulteriore fase di controllo della qualità del segnale e della presenza di elementi di disturbo quali le sovrapposizioni fra parlanti, rumori e musica di sottofondo. In una seconda fase del progetto proporremo anche una architettura per la sintesi vocale sempre basata su architetture neurali.

Considerata la scarsità di risorse che muove la nostra impresa, abbiamo bisogno del coinvolgimento della comunità scientifica per ottenere la massima collaborazione per il raggiungimento del nostro target.

Come? Attraverso la condivisione di registrazioni di parlato di buona qualità (possibilmente monologico) trascritto e non trascritto e fornendo un contributo all’attività di controllo dei dati (ad esempio promuovendo attività di tirocinio mirate). Ovviamente non sono da trascurare gli aspetti di privacy e criteri per la redistribuzione dei dati raccolti e offerti, ma le decisioni da prendere su questo tema sono da discutere caso per caso.

Tutti i prodotti della ricerca di Phoné (dati, software e metodi) saranno via via resi disponibili in maniera aperta a tutta la nostra comunità scientifica e applicabili in vari modi alla ricerca linguistica.

Se vi interessa, volete saperne di più e magari contribuire all’impresa scriveteci al seguente indirizzo: Questo indirizzo email è protetto dagli spambots. È necessario abilitare JavaScript per vederlo., a partire dai prossimi giorni (non subito) troverete maggiori informazioni sul sito: https://phonegroup.github.io/

Siamo speranzosi in una fruttuosa collaborazione.

Un caro saluto,

Gianpaolo Coro, Franco Cutugno, Alessandro Vietti