Introducció
Abans de descarregar cap eina, val la pena entendre quatre idees bàsiques. No cal ser informàtic: amb aquests conceptes sabreu triar el model adequat, entendre per què va lent o ràpid, i aprofitar millor les eines que instal·leu.
Quin maquinari tinc i com afecta la IA local?
El maquinari del teu ordinador determina quins models pots executar i a quina velocitat.
La CPU és el cervell de l’ordinador, executa tasques generals. La RAM és memòria temporal ràpida per dades actives. La GPU especialitza en càlculs gràfics en paral·lel. La VRAM és la memòria pròpia de la GPU per dades visuals. Si pots usar una GPU per carregar el model pot anar 10-15 cops més ràpid i tant en CPU com en GPU el model s’ha de poder encabir a la RAM.
Aquestes són les configuracions més habituals:
- Els PC amb GPU NVIDIA són la situació ideal. Les targetes NVIDIA utilitzen CUDA, el sistema de computació paral·lel més suportat. La VRAM de la targeta (4 GB, 8 GB, 12 GB…) és clau: el model s’hi ha de carregar sencer. Amb 8 GB de VRAM pots córrer models de 7B-8B quantitzats (format GGUF/Q4) amb bona velocitat.
- Els PC amb GPU AMD (ROCm) tenen suport via ROCm, però menys madur que CUDA. Funciona bé en Linux; a Windows pot requerir configuració addicional. Les capacitats són similars a NVIDIA si la targeta és compatible.
- Els PC sense GPU dedicada executen el model per CPU usant la RAM del sistema. Funciona, però és molt més lent. Recomanable només per a models petits (3B-7B quantitzats).
- Els Mac amb Apple Silicon (Metal) tenen un avantatge especial: la memòria unificada la comparteixen CPU i GPU. Amb 16 GB de RAM pots córrer models de 13B còmodament, i el suport Metal fa que la velocitat sigui sorprenentment bona. La regla general: com més memòria (VRAM o RAM unificada), models més grans i respostes més ràpides.
Conceptes relacionats amb els models de llenguatge grans
Conceptes clau que us trobareu quan useu les eines d’IA:
- Model de llenguatge (LLM) és el “cervell” de l’eina. Un fitxer entrenat amb milers de milions de textos que li permet entendre i generar llenguatge natural. Exemples populars: Llama, Mistral, Gemma.
- Paràmetres mesuren la “mida” d’un model: 7B, 13B o 70B (bilions de paràmetres). Com més gran, més capacitat, però també més RAM necessita. Per a ús domèstic, entre 7B i 14B és el punt dolç.
- Quantització tècnica que redueix la mida del model comprimint-lo lleument. Un model de 8GB pot passar a ocupar 4GB amb una pèrdua mínima de qualitat. Els formats més comuns són GGUF i Q4/Q8. RAM i VRAM
- La RAM és la memòria del teu ordinador; la VRAM és la de la targeta gràfica. El model s’ha de carregar completament a memòria per funcionar. Sense prou RAM, el model no s’executa o va molt lent.
- Inferència és el procés de generar una resposta. Quan escrius un missatge i el model et contesta, estàs fent una inferència. La velocitat es mesura en tokens per segon — com més ràpid, millor experiència.
- Indicació (prompt) és el text que escriviu per comunicar-vos i demanar-li tasques al model.
- Finestra de context és la quantitat de text que el model pot “recordar” en una conversa. Es mesura en tokens. Un context curt fa que el model “oblidi” el que s’ha dit abans.
- Token és la unitat mínima de text que el model processa. Aproximadament una paraula o menys. Rellevant per entendre la velocitat i els límits del model.
- Temperatura és el paràmetre que controla com de “creatiu” o previsible és el model. Alta = respostes més variades; baixa = respostes més precises i conservadores.
Tipus de models
Aquest són els tipus principals de models
- Models de conversa / xat (LLM) — per redactar, resumir, traduir, respondre preguntes.
- Models de transcripció — per convertir àudio o vídeo en text (p. ex. Whisper).
- Models multimodals — accepten imatges a més de text (p. ex. LLaVA, Gemma 3)