Models d’intel·ligència artificial en català per a usar en local
Consell ràpid
Us indiquem els models de pesos lliures que funcionen millor en català.
A l’hora de triar un model, la memòria de la qual disposeu és el factor limitant més important. Més memòria, models més capaços.
Ara mateix la nostra recomanació és:
- Els models Gemma 3 com a models de llenguatge
- El model Whisper medium per a transcripció
En la resta de la pàgina expliquem les raons per si teniu interès.
Models de llenguatge grans
La nostra recomanació són els models Gemma 3.
Per determinar quin model és millor avaluem les tasques més comunes que fan els usuaris: reformulació, traducció, resums, etc.
Avaluacions dels models que hem provat
Models de transcripció
Actualment, hi ha models com ara Omnilingual ASR de Meta o Whisper d’OpenAI.
Nosaltres recomanem Whisper medium perquè té una bona qualitat, és ràpid i està molt ben suportat a un gran conjunt d’eines.
Si heu de transcriure programes de televisió o ràdio en català, el model whisper-large-v3-ca-3catparla del projecte Aina, entrenat amb 710 hores de TV catalana, pot donar millors resultats que el Whisper estàndard en aquest domini específic.
Aquí sota teniu una avaluació feta amb 200 àudios d’exemple del corpus FLEURS. El WER indica el percentatge de paraules mal transcrites i el CER el de caràcters (com més baixos, millor). L’RTF indica el temps de processament (com més alt, més lent).
Avaluacions dels models que hem provat
| Model | WER | CER | RTF |
|---|---|---|---|
| aina-whisper-large-v3a | 6.33% | 3.40% | 2.589 |
| omniASR_LLM_3B | 7.29% | 2.68% | 4.030 |
| omniASR_LLM_7B | 5.62% | 1.93% | 6.131 |
| whisper-tiny | 38.33% | 13.27% | 0.085 |
| whisper-base | 24.33% | 7.91% | 0.155 |
| whisper-small | 13.06% | 4.23% | 0.454 |
| whisper-medium | 7.11% | 2.45% | 1.309 |
| whisper-large-v3 | 4.41% | 1.46% | 2.389 |
En aquesta pàgina teniu les eines que usat per l’avaluació: https://github.com/Softcatala/ai-eval-catalan
⬅ Torneu a la pàgina la intel·ligència artificial al teu ordinador personal