Transcripció local amb Whisper
Whisper és el model de reconeixement de veu d’OpenAI, disponible de forma gratuïta i que s’executa completament en local, sense enviar dades a cap servidor extern.
Aquests són els tres models principals de Whisper:
- Small . Requereix ~2GB de RAM
- Medium. Requereix ~5GB RAM (3 cops més lent que l’small)
- Large. Requereix ~10GB RAM (2 cops més lent que el medium)
Buzz
Buzz és una aplicació traduida al català per a mac OS, Winddows i Linux que transcriu i tradueix àudio i vídeo de manera local, sense connexió a internet. Utilitza la intel·ligència artificial Whisper d’OpenAI i també permet transcriure el micròfon en temps real.

Baixada: https://github.com/chidiwilliams/buzz
Subtitle Edit
Editor de subtítols molt complet per a Windows (funciona també a Linux via Wine o .NET). Té integració directa amb Whisper per generar subtítols automàticament a partir d’àudio o vídeo. Es pot baixar des de: https://github.com/SubtitleEdit/subtitleedit/releases
- Ideal si el resultat final ha de ser un fitxer de subtítols (SRT, VTT, ASS…)
- Permet editar i sincronitzar subtítols manualment
- Suporta diversos models de Whisper
- Molt útil per a contingut de vídeo
whisper-ctranslate2 (línia d’ordres)
Si heu de transcriure molts fitxers les eines de línia d’odres poden ser una bona opció. Més informació: https://github.com/Softcatala/whisper-ctranslate2