La intel·ligència artificial al vostre ordinador personal

Compartiu

🠈 Torna

Conceptes clau per treballar amb la IA al vostre ordinador

Introducció

Abans de descarregar cap eina, val la pena entendre quatre idees bàsiques. No cal ser informàtic: amb aquests conceptes sabreu triar el model adequat, entendre per què va lent o ràpid, i aprofitar millor les eines que instal·leu.

Quin maquinari tinc i com afecta la IA local?

El maquinari del vostre ordinador determina quins models podeu executar i com aniran de ràpids.

La CPU és el cervell de l’ordinador, executa tasques generals. La RAM és memòria temporal ràpida per a dades actives. La GPU especialitza en càlculs gràfics en paral·lel. La VRAM és la memòria pròpia de la GPU per a dades visuals.

Si podeu usar una GPU per a carregar el model, pot anar 10-15 cops més ràpid, i tant en CPU com en GPU el model s’ha de poder encabir a la RAM.

Totes les nostres guies es basen en la idea que usarem models quantificats a 8 bits. Això vol dir models que poden ser fins a 2 vegades més petits amb un impacte negligible en la seva qualitat. Potser sentiu mencionar el format GGUF, és el format principal per a distribuir models d’AI quantificats en la majoria d’eines que es mencionen.

Aquestes són les configuracions més habituals:

Els PC amb GPU NVIDIA són la situació ideal. Les targetes NVIDIA utilitzen CUDA, el sistema de computació paral·lel més suportat. La VRAM de la targeta (4 GB, 8 GB, 12 GB…) és clau: el model s’hi ha de carregar sencer.
Els PC amb GPU AMD (ROCm) tenen suport via ROCm, però menys madur que CUDA. Funciona bé en Linux; a Windows pot requerir configuració addicional. Les capacitats són similars a NVIDIA si la targeta és compatible.
Els PC sense GPU dedicada executen el model per CPU usant la RAM del sistema. Funciona, però és molt més lent. Recomanable només per a models petits (3B-7B quantitzats).
Els Mac amb Apple Silicon (Metal) tenen un avantatge especial: la memòria unificada la comparteixen CPU i GPU. Amb 16 GB de RAM pots córrer models de 13B còmodament, i el suport Metal fa que la velocitat sigui sorprenentment bona. La regla general: com més memòria (VRAM o RAM unificada), models més grans i respostes més ràpides.

Conceptes relacionats amb els models de llenguatge grans

Conceptes clau que us trobareu quan useu les eines d’IA:

Model de llenguatge (LLM): és el «cervell» de l’eina. Un fitxer entrenat amb milers de milions de textos que li permet entendre i generar llenguatge natural. Exemples populars: Llama, Mistral, Gemma.
Paràmetres: mesuren la «mida» d’un model: 7B, 13B o 70B ( 7B = mil milions de paràmetres). Com més gran, més capacitat, però també necessita més RAM. Per a ús domèstic, entre 7B i 14B és una bona opció.
Quantització: tècnica que redueix la mida del model, comprimint-lo lleument. Un model de 8 GB pot passar a ocupar 4 GB amb una pèrdua mínima de qualitat. Els formats més comuns són GGUF i amb quantificació de 8-bits (Q8).
RAM: és la memòria del teu ordinador; la VRAM és la de la targeta gràfica. El model s’ha de carregar completament en la memòria per a funcionar. Sense prou RAM, el model no s’executa o va molt lent.
Inferència: és el procés de generar una resposta. Quan escrius un missatge i el model et contesta, estàs fent una inferència. La velocitat es mesura en tokens per segon: com més ràpid, millor experiència.
Indicació (prompt): és el text que escriviu per comunicar-vos i demanar-li tasques al model.
Finestra de context: és la quantitat de text que el model pot «recordar» en una conversa. Es mesura en tokens. Un context curt fa que el model «oblidi» el que s’ha dit abans.
Token: és la unitat mínima de text que el model processa. En català, aproximadament 1,5 tokens per paraula, de mitjana. Rellevant per a entendre la velocitat i els límits del model.
Temperatura: és el paràmetre que controla com de «creatiu» o previsible és el model. Alta = respostes més variades; baixa = respostes més precises i conservadores.
Pensament: quan un LLM pensa més, dedica més càlcul i temps a provar opcions abans de respondre. Això acostuma donar respostes més acurades i coherents, però inverteix més recursos i és més lent.

Tipus de models

Aquest són els tipus principals de models dels quals parlarem en aquestes pàgines.

Models de conversa / xat (LLM) que s’usen per a redactar, resumir, traduir, respondre preguntes. Amb el temps, aquests models han evolucionat i han incorporat altres modalitats, cosa que els permet processar no només text, sinó també imatges o àudios com a entrada, i respondre preguntes basades en qualsevol mena de contingut.
Models de transcripció. Per a convertir àudio o vídeo en text, per exemple el model Whisper.

Vegeu com utilitzar els models de llenguatge grans

⬅ Torneu a la pàgina la intel·ligència artificial al teu ordinador personal