La intel·ligència artificial al vostre ordinador personal

Compartiu

🠄 Torna

Models d’intel·ligència artificial en català per a usar en local

Consell ràpid

Us indiquem els models de pesos lliures que funcionen millor en català.

A l’hora de triar un model, la memòria de què disposeu és el factor limitant més important. Més memòria, models més capaços.

Ara mateix, la nostra recomanació és:

Els models Gemma 3 com a models de llenguatge
El model Whisper medium per a fer transcripcions

Aquests són models que usem internament a Softcatalà i que més enllà de l’avaluació quantitativa també tenim experiència qualitativa. Dit això, us oferim les dades quantitatives de les nostres avaluacions i convidem a provar altres models.

Models de llenguatge grans

La nostra recomanació són els models Gemma 3.

Per a determinar quin model és millor, avaluem les tasques més comunes que fan els usuaris: reformulació, traducció, resums, etc.

Avaluacions dels models que hem provat

Cada fila de la taula és un model que hem avaluat. Cada columna és una tasca diferent (respondre preguntes, resumir, traduir, etc). Per a cada tasca, passem el mateix conjunt de proves a tots els models i comparem la seva sortida amb una resposta de referència feta per humans. Com més s’hi acosta, més alta és la puntuació.

Tingueu en compte

Els models amb el nom en negreta no els podeu executar a l’ordinador i els incloem només com a referència. Aquests models requereixen entre 80 i 150 vegades més memòria i computació que els models que usem a l’ordinador.
Cal tenir en compte la mida del model. Un model 24B consumeix el doble que un 12B; llavors, més gran equival a més memòria.

Què mesurem?

STS: capacitat de jutjar si dues frases volen dir el mateix. El model assigna una puntuació de similaritat a parelles de frases i es calcula la correlació de Pearson (−1 a 1) amb les puntuacions donades per humans. Com més alta la correlació, millor.
catcola_mcc: detecció de gramaticalitat. El model classifica frases en català com a acceptables o no, i es compara amb l’etiqueta humana mitjançant el Matthews Correlation Coefficient (−1 a 1, on 0 equival a respondre a l’atzar i 1 a encertar-ho tot).
club_qa: mesura la comprensió lectora. Donat un text de la Viquipèdia i una pregunta, el model n’extreu la resposta. Es mesura el percentatge de respostes que coincideixen literalment amb la resposta esperada (0 a 1).
CaSum: capacitat de resumir. El model genera un resum d’un text i es compara amb un resum de referència humà mitjançant mètriques de solapament de paraules tipus ROUGE (0 a 1), que premien el contingut compartit entre els dos resums.
EN→CA / CA→EN: qualitat de la traducció automàtica entre anglès i català. La mètrica BLEU (0 a 1) compara seqüències de paraules de la traducció del model amb una traducció humana de referència; com més coincidències, més alta la puntuació.
IFEval-ca: mesura la capacitat de seguir instruccions en català. Per exemple: “escriu la resposta en menys de 100 paraules”.
CLAM (Catalan Language Aggregate Metric) és el nostre índex agregat: la mitjana de les puntuacions normalitzades de totes les tasques d’avaluació. Cada puntuació es normalitza amb la fórmula (valor − baseline) / (1 − baseline), on la baseline és el resultat que obtindria un model responent a l’atzar. Així, 0% equival a l’atzar i 100% a encertar-ho tot, i les tasques es poden comparar entre elles. El resultat final s’expressa en percentatge (0–100).

En totes les mètriques, com més alt és el nombre, millor. Gràcies a Meta, i els projectes Aina i IberBench per proporcionar els conjunts de dades d’avaluació.

Impacte de la quantització

Per als models que recomanem, també hem dut a terme una anàlisi més exhaustiva per entendre com la quantització, que redueix el consum de memòria i els requisits computacionals, afecta la qualitat dels resultats. En general, com més agressiva és la quantització (per exemple, Q2 amb 2 bits és més agressiu que Q4 amb 4 bits), més disminueix l’índex CLAM, fet que indica una pèrdua de qualitat en els resultats.

Models de transcripció

Actualment, hi ha models com ara Omnilingual ASR de Meta o Whisper d’OpenAI.
Nosaltres recomanem Whisper medium perquè té una bona qualitat, és ràpid i està molt ben suportat a un gran conjunt d’eines.

Si heu de transcriure programes de televisió o ràdio en català, el model whisper-large-v3-ca-3catparla del projecte Aina, entrenat amb 710 hores de TV catalana, pot donar millors resultats que el Whisper estàndard en aquest domini específic.

A sota teniu una avaluació feta amb 200 àudios d’exemple del corpus FLEURS. El WER indica el percentatge de paraules mal transcrites i el CER el de caràcters (com més baixos, millor). L’RTF indica el temps de processament (com més alt, més lent).

Avaluacions dels models que hem provat

Models d’embeddings

Els models d‘embeddings converteixen textos en posicions d’un mapa de significats, on les idees semblants queden a prop. En els sistemes RAG, que permeten utilitzar les AI amb documents propis, són els models que s’usen per indexar els documents i després poder-los recuperar.

La nostra recomanació per treballar en local és el model: multilingual-e5-large.

Què mesurem?

Model: Nom del model avaluat; l’enllaç porta al repositori o documentació del model utilitzat.
Dim: Dimensions del vector d’embedding. Mes gran sol capturar mes informació i matisos, però és més lent i ocupa més memòria; més petit és més eficient.
XQuAD nDCG@10: Recuperació pregunta-context en XQuAD-ca: codifica preguntes i contexts, ordena per similitud i calcula nDCG als 10 primers.
STS-ca Sp: Similitud semàntica: compara cosinus entre parelles de frases amb puntuacions humanes, mitjançant correlació de Spearman.
TeCla F1: Classificació temàtica: entrena una regressio logistica sobre embeddings de TeCla i mesura macro-F1 al test.
Puntuació composta: Mitjana simple de XQuAD nDCG@10, STS-ca Spearman i TeCla macro-F1.

El sistema que fem servir per crear aquestes avaluacions està disponible com a codi obert: https://github.com/Softcatala/ai-eval-catalan

⬅ Torneu a la pàgina la intel·ligència artificial al teu ordinador personal