Millora del català dels models del reconeixement de la parla Whisper

Treballem per millorar la qualitat per al català dels models de reconeixement de la parla anomenats Whisper, alliberats per OpenAI el setembre de 2022, aprofitant els corpus més actuals del projecte Common Voice de Mozilla.

Introducció

Whisper d’OpenAI (presentat el setembre del 2022) és un model de reconeixement de la parla que pot ser utilitzat amb multitud de llengües, incloent-hi el català.

Whisper ofereix diferents versions, les principals són small, medium i large. El petit és més ràpid, però amb pitjor qualitat, i el gran és més lent, però amb millor qualitat.

Per què trobem Whisper interessant?

Motius principals:

Ha estat entrenat amb 680.000 hores d’àudio obtingudes d’Internet. Aquesta és la clau de per què el model funciona molt bé. Fins ara, els models s’entrenaven només amb milers d’hores de corpus, com el que podem trobar al Common Voice de Mozilla, és a dir, corpus creats per a entrenar models específicament. Whisper és un salt quantitatiu molt important en el nombre d’hores d’entrenament. El català només té 1.000 d’aquestes hores, però es beneficia de l’aprenentatge (transferència) d’altres llengües. Whisper ara mateix es considera el millor model de reconeixement de la parla.
El model és lliure, malgrat que les dades no ho són, segurament només ho podrien ser per llicències els scripts per a aconseguir-les i de processament.
Aquest model presenta diverses tasques: transcripció i traducció, és a dir, permet també traduir àudio.
Whisper, en la tasca de transcripció, també fa la predicció de puntuació i majúscules al mateix model, cosa que tradicionalment ha necessitat altres models. Un únic model ho fa tot.
El model Whisper té suport a CTranslate2, que és el motor d’inferència que usem a Softcatalà, la qual cosa ens permet usar-lo fàcilment. Per altra banda, estan sorgint un munt d’eines que funcionen amb el Whisper de base.

Què estem fent?

Fer servir els models Whisper d’OpenAI com a punt de partida i millorar-ne la qualitat per al català.

Durant la creació del model, OpenAI només va usar el corpus de Common Voice 9 per a avaluar el model. El que estem fent és continuar l’entrenament amb els corpus de Common Voice 11.

Hem generat els recursos descrits a sota.

Models

Models millorats:

Model “base” millorat: https://huggingface.co/softcatala/whisper-base-ca
Model “petit” millorat: https://huggingface.co/softcatala/whisper-small-ca
Model “mitjà” millorat: https://huggingface.co/softcatala/whisper-medium-ca

Eines

Hem activat un espai perquè el model petit es pugui provar i usar https://huggingface.co/spaces/softcatala/whisper-demo-catalan
També hem creat una eina de línia d’ordres per a usar-ho senzillament: https://github.com/jordimas/whisper-tools

Contacte

Jordi Mas <jmas@softcatala.org>