És possible disposar dels assistents de veu en català?

Compartiu

Ens pregunta molta gent si és possible disposar dels assistents Cortana, Alexa, Siri o Google Home en català. Intentarem explicar-vos que comporta disposar d’aquests productes en català.

És possible disposar dels assistents de veu en català?

Què cal per a disposar de Cortana, Alexa, Siri o Google Home en català?

En primer lloc, cal tenir en compte que són productes comercials, per això el primer pas és que hi hagi voluntat de les mateixes empreses.

Si agafem com a exemple a Alexa, d’Amazon, veurem que existeix en versió domèstica, empresarial, per a cotxes, etc. Tots aquests productes requereixen esforços específics per adaptar les funcionalitats addicionals. Assumim que es comença només amb el domèstic.

Per tal de donar suport al català, cal adaptar-hi multitud de sistemes (vegeu aquesta entrada del blog d’Amazon Science, en anglès):

  • Reconeixement de veu
  • Síntesi de veu
  • Sistemes de diàleg
  • Sistemes d’extracció de coneixement (ràdios, diaris, cartelleres de cinema, etc.)
  • Selecció de continguts (p. ex. recomanacions)
  • Etcètera.

L’esforç no és pas petit.

Totes i cadascuna d’aquestes peces són necessàries per a tenir un assistent digital de veu d’àmbit general d’una qualitat mínima, i no s’hi valen pedaços per a fer pont a través d’una altra llengua.

Poden aquestes empreses aprofitar el que s’ha produït des d’altres àmbits?

Hi ha diverses comunitats i iniciatives que duen recorregut, com universitats, empreses, comunitats lliures, Mozilla Common Voice o el projecte Aina, per la qual cosa ja existeixen dos tipus de recursos que es poden oferir: els models d’IA entrenats i les dades, però pensem-ne un poc:

Els models d’IA els podem descartar perquè les grans empreses tecnològiques usen arquitectures de models pròpies, molt personalitzades. A més, per motius de control, incloent-hi privadesa i seguretat, no fan servir models de tercers. 

Llavors, hi ha les dades, que és on hi ha un marge d’oportunitat. Aquí de nou les grans tecnològiques tenen requisits concrets de llicències, etiquetatge dels conjunts de dades, criteris de selecció de les dades, de qualitat, etc.

De totes les dades que necessiten n’hi haurà moltes que encara no existeixen, i per això només se’ls podrà facilitar una part, de la qual, només utilitzaran la part que compleixi amb els seus requisits.

Què més cal per a tenir un assistent de veu en català?

Sense cap dubte, el fabricant haurà d’invertir recursos importants en enginyeria de dades, creació i etiquetatge de dades, qualitat del sistema, etc. A més, en el moment que passa a ser un producte pel qual Amazon té una responsabilitat vers als clients, han de disposar també d’altres recursos: donar suport en aquesta llengua, documentació, pàgines web i suport comercial.

D’altra banda, tots els assistents tenen funcionalitat addicional feta per tercers (a través d’habilitats, skills). Per exemple, que Alexa estigui en català vol dir que la part que controla Amazon ho estarà, però llavors cal també treballar amb la comunitat de desenvolupadors per adaptar les habilitats principals i que el producte sigui útil per als usuaris.

Idealment, també seria rellevant fer una bona gestió del multilingüisme. Per exemple, que l’assistent pugui entendre dues llengües sense haver-ne de canviar la configuració, de manera que les habilitats que no estiguin disponibles en una llengua es puguin fer servir en l’altra. Altrament, molta gent catalanoparlant descartaria configurar l’assistent en català per a no perdre l’ecosistema d’habilitats disponible en una altra llengua.

És important destacar que un cop un producte s’ha adaptat a una llengua cal un esforç sostingut en el temps per mantenir-ho: noves funcionalitats, avenços constants d’IA que cal aplicar, millores de les dades constant (per exemple, pel que fa al coneixement que extreuen, la covid-19 no existia fa 3 anys), etc.

És possible disposar a curt termini d’assistents de veu en català?

Depèn bàsicament dels fabricants, per això són els governs qui han de liderar aquestes converses, i fer servir el poder de compra, i segurament subvencions directes. L’Aina i altres projectes de creacions de recursos ho poden fer més assequible, però només una petita part.

Considerem que és imprescindible que des de l’administració pública es garanteixi que els assistents de veu domèstics estiguin disponibles en català. Sobretot si, com sembla, aquesta tecnologia s’usarà en un futur immediat en àmbits del tercer sector social.

Des de Softcatalà hem treballat en l’adaptació de Mycroft (un assistent de veu de codi obert) al català, i que podeu provar aquí. És una prova de concepte, però està disponible per a qualsevol fabricant que vulgui dur a terme un producte comercial d’assistent de veu en català.

És possible que veiem abans Siri o Google Home en català, ja que són empreses que han apostat tradicionalment pel català i tenen ja parts desenvolupades. Però, com dèiem, la decisió final és d’aquestes.

Com pot col·laborar la gent per a tindre un assistent de veu en català?

L’acció individual i col·lectiva pot ajudar molt per a aconseguir esta fita, a continuació et diem com ho pots fer:

  1. Facilitant dades per a reduir l’esforç de fer tecnologies de llengua en català. Per exemple, Common Voice de Mozilla permet elaborar un corpus de veu amb llicència lliure, disponible per a tothom.
  2. Reclamant a les empreses que afegeixin el català als seus productes i serveis, i tenir en compte el criteri lingüístic en comprar o contractar productes i serveis.
  3. Vetllant perquè les administracions públiques respecten i garanteixin els drets lingüístics dels ciutadans, també en l’àmbit tecnològic. De manera que els ciutadans no hagin de renunciar al català en els serveis oferts a través de webs, aplicacions i d’aparells tecnològics.

Quant a Softcatalà

Softcatalà és una associació sense afany de lucre que treballa per la normalització de la llengua catalana en el sector informàtic relacionat amb Internet i les noves tecnologies, a partir de la traducció de programari lliure i de distribució gratuïta. Podeu saber més sobre l’associació i també sobre nosaltres.


Comentaris