La intel·ligència artificial al vostre ordinador personal

Compartiu

Models d’intel·ligència artificial en català per a usar en local

Consell ràpid

Us indiquem els models de pesos lliures que funcionen millor en català.

A l’hora de triar un model, la memòria de la qual disposeu és el factor limitant més important. Més memòria, models més capaços.

Ara mateix la nostra recomanació és:

Els models Gemma 3 com a models de llenguatge
El model Whisper medium per a transcripció

En la resta de la pàgina expliquem les raons per si teniu interès.

Models de llenguatge grans

La nostra recomanació són els models Gemma 3.

Per determinar quin model és millor avaluem les tasques més comunes que fan els usuaris: reformulació, traducció, resums, etc.

Avaluacions dels models que hem provat

Model	Reformulació (sts_ca_pearson)	Gramatica (catcola_mcc)	Preguntes i respostes (club_qa_em)	Resums (casum_rougeL)	Traducció anglès- català (flores_en2ca)	Traducció català – anglès (flores_ca2en)
aya-expanse-8b	0.586	0.083	0.787	0.347	—	—
EuroLLM-9B-Instruct	0.552	0.041	0.743	0.316	—	—
gemma-3-12b-it	0.682	0.332	0.815*	0.371	42.420*	46.966*
gpt-oss-20b	0.157	0.058	0.512	0.174	—	—
Mistral-Small-3.1-24B	0.755*	0.183	0.810	0.433*	41.872	46.684
Qwen3-14B	0.750	0.381*	0.802	0.261	34.768	44.590

Què mesurem?

sts_ca_pearson: mesura la capacitat de reformular frases.
catcola_mcc: mesura la capacitat del model de detectar si una frase en català és gramaticalment acceptable o no (classificació binària).
club_qa_em: mesura si el model extreu correctament la resposta d’un text de Viquipèdia en català donada una pregunta.
casum_rougeL: mesura la capacitat de fer resums d’un text.
flores_en2ca / flores_ca2en : mesura la qualitat de la traducció automàtica en les direccions anglès→català i català→anglès.

En totes les mètriques quan el nombre és més alt millor. Gràcies al projecte Aina pels conjunts de dades d’avaluació.

Models de transcripció

Actualment, hi ha models com ara Omnilingual ASR de Meta o Whisper d’OpenAI.
Nosaltres recomanem Whisper medium perquè té una bona qualitat, és ràpid i està molt ben suportat a un gran conjunt d’eines.

Si heu de transcriure programes de televisió o ràdio en català, el model whisper-large-v3-ca-3catparla del projecte Aina, entrenat amb 710 hores de TV catalana, pot donar millors resultats que el Whisper estàndard en aquest domini específic.

Aquí sota teniu una avaluació feta amb 200 àudios d’exemple del corpus FLEURS. El WER indica el percentatge de paraules mal transcrites i el CER el de caràcters (com més baixos, millor). L’RTF indica el temps de processament (com més alt, més lent).

Avaluacions dels models que hem provat

Model	WER	CER	RTF
aina-whisper-large-v3a	6.33%	3.40%	2.589
omniASR_LLM_3B	7.29%	2.68%	4.030
omniASR_LLM_7B	5.62%	1.93%	6.131
whisper-tiny	38.33%	13.27%	0.085
whisper-base	24.33%	7.91%	0.155
whisper-small	13.06%	4.23%	0.454
whisper-medium	7.11%	2.45%	1.309
whisper-large-v3	4.41%	1.46%	2.389

En aquesta pàgina teniu les eines que usat per l’avaluació: https://github.com/Softcatala/ai-eval-catalan

⬅ Torneu a la pàgina la intel·ligència artificial al teu ordinador personal