L’aportació necessària de les institucions públiques a les TIC: recursos lingüístics lliures

Compartiu


Marc Belzunces
Softcatalà

Al començament de les TIC, i centrant-nos fonamentalment en el món informàtic, el model consistia en un nombre baix d’empreses que produïen un nombre baix d’aplicacions, les quals eren les utilitzades pels usuaris. Els costos de dur a terme aquestes localitzacions (adaptacions per a comunitats lingüístiques) eren molt elevats a causa, fonamentalment, de la mateixa arquitectura dels programes i, atès que el mercat on repercutien aquests costos era petit, hi havia un nombre molt baix de llengües.

Actualment, el model ha canviat. Existeix un nombre més elevat d’empreses, amb centenars d’aplicacions usades pels usuaris diàriament, una realitat que es veurà accentuada en el futur. El nombre de llengües ha augmentat sensiblement, i encara augmentarà més, atès que el mercat és cada cop més gran, abastant un nombre més gran de comunitats lingüístiques. Però sobretot ha augmentat per l’impuls i la popularització del programari lliure [1], un tipus de programari multilingüe, gairebé per definició.

Atesa aquesta necessitat multilingüe, el programari cada cop més té una arquitectura modular, separant el nucli del programa (el “cos”), de la interfície lingüística específica (la “roba”: els menús per on navega un usuari), i de les eines lingüístiques (els “complements”: correctors, traductors, reconeixedors de veu i d’altres). D’aquesta manera s’aconsegueix rebaixar els costos de localització [2] d’una manera notable. És a dir, que mentre que abans era molt difícil canviar de roba, molt car comprar-la (i s’havia de fer a mida), i era molt difícil i car trobar complements, ara podem canviar de roba cada temporada, tenim rebaixes tot l’any i tenim botigues especialitzades en complements.

El que no s’ha de fer

Tot això fa que, sota l’òptica de catalanitzar al màxim les TIC, un model de pagament per una versió en català d’un programa “anar a una botiga perquè ens facin un vestit a mida”, sigui totalment inadequat per a l’estat actual en què es troben les TIC. El model que podia resultar vàlid a l’inici de les TIC, ara ja no serveix. És literalment impossible pagar o subvencionar traduccions i adaptacions al català de totes les aplicacions que utilitzen els usuaris “no podem comprar a totes i cadascuna de les botigues”. El problema s’ha d’enfocar des d’una altra perspectiva.

Cal tenir en compte, també, un segon nivell. El programari de major difusió que, tot i disposar dels menús en català o d’algun recurs lingüístic, no té els mateixos recursos que altres llengües. Tenim l’exemple del Microsoft Office 2003 [3]. Microsoft ha fet una aposta estratègica pel català, segons Steve Ballmer, CEO de la companyia. Actualment el programa ofimàtic de la companyia està parcialment traduït al català, incorpora un corrector ortogràfic i un de gramatical molt bàsic. No incorpora, però, altres eines que sí que incorpora la versió anglesa: un bon corrector gramatical, un reconeixedor de textos escanejats (OCR), un reconeixedor de veu i un traductor en línia. L’usuari catalanoparlant haurà de pagar productes externs, si és que existeixen, per tal d’obtenir aquestes eines necessàries. És a dir, haurà de pagar un sobrecost, un peatge, que altres usuaris de llengües molt més potents no han de pagar. Per una banda, això ha permès que hagin sortit productes comercials propis, com el corrector gramatical Maxigramar [4], però l’usuari en general no està acostumat a pagar per aquesta mena de productes, o no vol pagar per coses que són gratuïtes en altres llengües.

Convé no oblidar la situació del català. Afirmen saber-lo escriure només un 46 % dels ciutadans dels Països Catalans. Els catalanoparlants som una comunitat bilingüitzada que pot emprar perfectament programari i eines lingüístics en espanyol, francès o italià, segons on siguem del domini lingüístic. La manca d’aplicacions en llengua catalana i d’eines lingüístiques per al català pot fer que, actualment o en un futur no gaire llunyà, davant d’una necessitat comunicativa un catalanoparlant utilitzi, d’una manera fàcil i gratuïta, una altra llengua que sí que disposi, totalment o parcialment, d’aquestes eines. Així, ens podríem trobar que, per la manca d’un traductor al català, es traduís una llengua desconeguda a l’espanyol, en comptes de traduir-la al català. O que, per manca d’un reconeixedor de veu, un usuari catalanoparlant s’adrecés oralment al seu ordinador en espanyol, francès, italià o anglès. No cal dir que això no ens ho podem permetre.

Capa de recursos lingüístics lliures

Un recurs lingüístic no s’ha d’entendre com una aplicació per a l’usuari final, és a dir, com un programa que executi una persona, amb les seves finestres, menús, botons, etc. Els recursos lingüístics s’han d’entendre com a mòduls que puguin ser tractats o usats per especialistes (traductors, programadors o d’altres) i ser inclosos, mitjançant enginyeria informàtica, en qualsevol tipus d’aplicació que pugui utilitzar l’usuari final. D’exemples de recursos lingüístics, sense pretendre ser exhaustiu, hi ha els motors de correcció ortogràfica i gramatical, motors de traducció i motors de reconeixement de veu. Tanmateix, aquests motors no tenen llengua, i aleshores caldria afegir altres tipus de mòduls específics de la llengua catalana: corpus lingüístics, llistats de regles morfosintàctiques i gramaticals, analitzadors, memòries de traducció, etc. Els recursos lingüístics també són modulars.

Recursos lingüístics lliures no vol dir gratuïts o de lliure accés “per exemple, a través del web, com ara el DIEC o el Cercaterm”, sinó que es puguin agafar sencers, en qualsevol moment, sense permís personal, ser copiats, ser distribuïts, ser modificats i ser distribuïts amb les modificacions fetes, per qualsevol persona, associació, institució o empresa. Hi ha diverses llicències legals que garanteixen això, amb garanties per a l’autor i el conjunt de la societat. Segurament, les llicències actualment més indicades són les Creative Commons [5].

La modularitat abans esmentada en l’arquitectura del programari, ja sigui programari lliure o programari propietari, fa que sigui força fàcil la localització de programari des d’un punt de vista tècnic. Això fa que, en principi, una empresa privada o una comunitat de desenvolupament de programari lliure se centri a desenvolupar les versions lingüístiques que més li interessin i deixi la porta oberta perquè terceres persones puguin desenvolupar altres versions idiomàtiques que més tard puguin ser incloses sense cap més problema que la simple adaptació al funcionament del programa concret.

El fet que una empresa privada desenvolupi una versió idiomàtica concreta està en funció del mercat potencial en aquella llengua. Si el mercat és clarament rendible (cas de l’anglès, l’alemany o el francès), l’empresa farà la localització i desenvoluparà eines lingüístiques pròpies (correctors, reconeixedors de llengua, de veu, etc). Tanmateix, si aquesta mateixa empresa troba recursos lingüístics lliures és força probable que els faci servir adaptant-los, com ara el corrector ortogràfic Aspell [6], ja que pot sortir molt més barat adaptar-lo que no pas crear-ne un de nou. Aquesta és una tendència que, en la meva opinió, s’accentuarà en el futur.

En aquells mercats petits o bilingualitzats, on la inversió en recursos lingüístics no tingui un retorn clar, i a les empreses que no tinguin prou recursos per crear recursos lingüístics en qualsevol tipus de mercat, hi ha diverses opcions. L’empresa pot traduir la interfície d’usuari (els menús), però no incloure les corresponents eines lingüístiques (correctors i d’altres). Pot incloure eines lingüístiques, però no traduir la interfície. O pot no fer ni una cosa ni l’altra. Tanmateix, això es farà considerant en primer terme l’aprofitament de recursos lingüístics lliures que permetin abaratir-ne costos. El que és clar és que si no hi ha aquests recursos, i l’empresa no té voluntat o capacitat de crear-ne de nous, no s’inclouran. Si hi són, l’empresa té molt a guanyar i molt poc a perdre.

Pel que fa a la comunitat de desenvolupament i traducció del programari lliure, la manca d’aquests recursos pot evitar una localització al català, dificultar-la en major o menor mesura i, fins i tot, que aquesta comunitat es vegi forçada a crear-los ella mateixa, un esforç feixuc, difícil i molt llarg. Cal no menystenir l’efecte descoratjador que pot tenir, sobre voluntaris que estiguin fent aquests esforços en la creació d’un recurs lingüístic lliure (per exemple, un corpus de desenes de milers de termes), el fet de saber que aquest recurs pugui existir en mans d’institucions públiques, però que el tenen tancat amb pany i forrellat. I també a l’inrevés: l’efecte encoratjador que pot tenir l’existència de recursos lingüístics lliures sobre la creació de recursos inexistents per part d’aquesta comunitat (per exemple, un corpus específic d’una branca científica).

Els recursos lliures existents

En l’àmbit internacional, en l’inici de les TIC, la comunitat de desenvolupadors (programadors) de programari lliure va adonar-se, per una evolució lògica de la funcionalitat dels programes, que necessitava eines lingüístiques. Lliures, és clar. Es va trobar que no existien i es va posar a crear-les. És a dir, no es va arribar a la generació d’aquests recursos des de l’àmbit lingüístic, sinó des d’un camp que, en principi, no hi té gaire a veure, la informàtica. És un camp on encara queda molt per fer. Es pot dir que aquesta mena de “lingüística lliure” inicial aplicada a les TIC no es va fer ni en l’àmbit acadèmic, ni amb finançament públic, ni per lingüistes. Es va fer d’esquena a ells, malgrat ells, es pot dir fins i tot. Es va fer amb intel·ligència, imaginació, capacitat de treball, un ordinador i una connexió a Internet. Així, ens trobem que el primer corrector lliure de català, l’Ispell, el va fer un llicenciat en física, n’Ignasi Labastida, i el mateix es podria dir d’altres llengües. Aquests correctors i els seus derivats són els que s’usen en la majoria de programes lliures, i uns quants de comercials.

Posteriorment, i en l’àmbit internacional, progressivament s’hi han anat sumant lingüistes amb habilitats programadores (unes raras avis) que en el seu temps lliure han contribuït a la millora dels recursos lingüístics lliures. En el cas del català, en Joan Moratinos, lingüista de Sant Joan (Mallorca) i membre de Softcatalà, va aprofitar la feina feta per n’Ignasi, per fer un nou corrector millorat. Les coses lliures sumen.

Darrerament, però, s’hi han anat sumant institucions públiques, principalment universitats, a la generació de recursos lliures. Parlo de l’àmbit internacional. Als Països Catalans, comencen a haver-hi iniciatives importants des de la universitat (Universitat d’Alacant, Universitat Politècnica de Catalunya…) i altres centres (TERMCAT) per generar recursos lingüístics lliures, però també cal dir que el desconeixement, la indiferència i a vegades fins i tot el rebuig, és la nota predominant (malauradament). Cal reconèixer, però, que això està canviant i que ha estat gràcies a la pressió i divulgació que han fet les comunitats de programari lliure, i on crec que Softcatalà i el seu lideratge a les Jornades sobre el català a les noves tecnologies [7] han contribuït d’una manera significativa. Així, la col·lecció Terminologia Oberta del TERMCAT [8] va veure la llum després d’una demanda i assessorament de Softcatalà, i cal dir que va haver-hi una predisposició absoluta per part de la institució. És un precedent petit però molt important i que s’hauria de generalitzar en un futur proper a la resta d’institucions públiques que tenen a veure amb la llengua catalana.

L’exigència democràtica

Als Estats Units d’Amèrica es té molt clar que les coses fetes amb diners públics han de ser realment públiques. Així, ens trobem que dades obtingudes per missions de la NASA, amb inversions de milers de milions de dòlars, no només són accessibles a qualsevol ciutadà nord-americà, sinó que fins i tot pot accedir-hi gent de qualsevol altra banda del món sense cap cost. La Unió Europea, en el seu darrer Programa Marc de recerca, incentiva a què els resultats de la recerca siguin públicament accessibles a la ciutadania mitjançant Internet. Encara, però, no ha arribat als nivells americans, on c omença ja a ser una exigència que les dades (i no només els resultats obtinguts a partir d’elles) siguin accessibles a qualsevol persona. És l’optimització màxima possible d’una inversió pública: potencialment pot accedir-hi tota la ciutadania.

Als Països Catalans fins ara no existeix aquesta cultura, sinó més aviat al contrari: hi ha l’actitud que el que paga una administració o institució pública és seu i de ningú més. Es pot parlar de la consulta i l’accés, però d’entrada no és dels ciutadans. En tot cas, s’ha d’entendre que, ja que els ciutadans paguem mitjançant els nostres impostos la recerca pública, aquesta ha de ser accessible a aquests ciutadans. En el passat aquest plantejament ideològic podia resultar dificultós o inviable econòmicament, però avui dia les TIC permeten fer-ho amb un cost nul o molt baix. És cert que s’estan fent passos cap a la consulta de dades, però això no és suficient.

Què cal que les institucions públiques facin

La creació d’una capa de recursos lingüístics lliures [9], actualment gairebé inexistents pel català, és la major prioritat de la política lingüística en el camp de les TIC, però també una de les més importants en l’àmbit general. La política de les administracions públiques fins fa molt poc ha estat equivocada. Les universitats i altres àmbits acadèmics disposen de recursos lingüístics generats amb diners públics, però els tenen sota llicències que no en permeten l’ús generalitzat, els tenen segrestats. És cert que s’han començat a fer coses respecte d’això, però s’està en una fase molt inicial, amb poca gent involucrada i, sobretot, no hi ha la mentalitat general de fer les coses així. Mentrestant, s’està obligant la societat civil a reinventar la roda o la sopa d’all: reescriure recursos ja existents. Aquest, segons el meu parer, no és el camí. Una comunitat lingüística com la catalana no es pot permetre l’actual manca de recursos lingüístics bàsics, ni aquests luxes duplicatoris i malbaratadors d’esforços.

La creació d’aquesta capa de recursos lliures accessible a tothom, a banda d’augmentar la presència del català i ajudar a un usuari catalanoparlant poc coneixedor de la seva llengua, impulsa el sector privat del país i estimula la innovació tecnològica. A més, el fet que el finançament públic s’apliqui sobre recursos lliures, s’ha d’entendre com l’optimització màxima possible d’una inversió pública: se’n beneficia tota la societat.

En definitiva, la societat civil està esperant que les seves institucions públiques es posin del seu costat.

Agraïments

Vull agrair a la Mireia Farrús, al Francesc Dorca, al Jordi Mas i a l’Anna Grau la revisió de l’original, els comentaris i suggeriments.

Referències

[1] Jordi Mas (2001): El codi font obert: el seny s’obre pas a la informàtica
http://www.softcatala.org/articles/article03.htm

[2] Jordi Mas (2002): Programari lliure i llengües minoritzades: una oportunitat impagable
http://www.softcatala.org/articles/article16.htm

[3] Microsoft Office 2003:
http://office.microsoft.com/

[4] Corrector gramatical Maxigramar:
http://www.maxigramar.com/

[5] Llicències Creative Commons:
http://creativecommons.org/license/?lang=ca

[6] Corrector Aspell:
http://aspell.sourceforge.net/ i http://aspell.net/win32/

[7] Jornades sobre el català a les noves tecnologies:
http://www.softcatala.org/jornades

[8] TERMCAT:
http://www.termcat.net/

[9] Jordi Mas (2004): Llengua i societat de la informació: construint una capa de recursos lingüístics lliures pel català
http://www.softcatala.org/articles/article34.htm

Aquest document és (c) 2005 Marc Belzunces. Se’n permet l’ús i la distribució en qualsevol mitjà d’acord amb les condicions de la llicència Reconeixement-SenseObraDerivada de Creative Commons ( http://creativecommons.org/licenses/by-nd/2.5/ ).


Comentaris