Publicitat
Publicitat

Corrector ortogràfic


Dreceres ràpides: navegació, cerca

Spellcheck.png

Lloc web: http://www.softcatala.org/corrector

Contacte(s): Jortola

Podeu subscriure-us a la llista de correu del projecte per contribuir-hi.

Contingut

[modifica] Presentació

L'objectiu d'aquest projecte és crear un corrector ortogràfic multiplataforma lliure que es pugui fer servir en tots els programes que s'estan traduint al català.

Aquest és el corrector que avui en dia usen programes com el LibreOffice, l'Abiword, els programes de Mozilla i la majoria de programari lliure.

Si voleu col·laborar en aquest projecte, continueu llegint, hi ha feina a voler per a tothom.

La finalitat d'aquest projecte és el manteniment de la llista de paraules reconegudes pels diversos correctors ortogràfics de Softcatalà, tots els quals comparteixen les mateixes dades (encara que possiblement en formats diferents).

[modifica] Diccionaris disponibles

Darreres versions estables del diccionari en diferents formats.

Fem un seguiment de quines aplicacions l'inclouen.

[modifica] Mozilla

[modifica] LibreOffice i OpenOffice.org

[modifica] Aspell

[modifica] Generalitats

Un corrector ha de fer dues funcions principals:

  • Comprovar que una paraula pertany a la llengua
  • Oferir suggeriments per a paraules incorrectes

La majoria dels correctors separen la llista de paraules del "motor", la qual cosa permet de fer servir la mateixa llista (amb eventuals canvis de format) amb motors diferents i, alhora, que diverses llengües comparteixin un mateix motor. L'avantatge d'aquest sistema és que el treball fet en una llista o en un motor es pot aprofitar àmpliament. L'inconvenient és que no es recullen especificitats de les llengües que podrien menar a llistes més compactes i motors més potents i, en el pitjor dels casos, s'obté una inferior qualitat (normalment traduïda en suggeriments més pobres). Pintu dan jendela, Railing tangga, Toko bunga, Properti semarang, Jual atap fiberglass, Gps tracking

[modifica] Historial

[modifica] 11 febrer 2013

  • Més d'un centenar d'entrades noves: superlatius (tantíssim), diminutius (menudet), adverbis acabats en -ment (massivament), paraules del Termcat i d'altres diccionaris (demoscòpic, flexiseguretat), algunes formes verbals (pertanc, pertangués), etc.
  • Correccions d'errors diversos: pouï, tans, Peró, etc.
  • Addició de formes verbals valencianes formals: cantasses (1a conjugació), patesca (3a conjugació incoativa).

[modifica] 02.març.09

  • S'han creat diccionaris per a aspell.

[modifica] 2008

  • S'ha creat la versió "avl".
  • S'han afegit nombroses entrades procedents del Termcat.
  • S'ha creat un wrapper d'Hunspell per a .Net.
  • S'han corregit nombrosos errors i s'ha ampliat les conjugacions 'valencianes'.

[modifica] 24.jul.07

  • S'han afegit les paraules noves de la segona edició del DIEC. S'han incorporat també paraules d'altres fonts i s'han corregit nombrosos errors.
  • S'ha creat la versió per a Hunspell dels diccionaris. Es manté encara la versió Myspell. Hunspell, una evolució de MySpell, funciona millor per a llengües flexives, com el català. Entre les millores, destaca la possibilitat d'aplicar dos prefixos consecutivament a la mateixa arrel. En català és molt útil per als pronoms proclítics, que es combinen amb formes verbals conjugades (per tant, el primer prefix fa la conjugació i el segon afegeix el pronom o pronoms).
  • S'ha reescrit el programa en C#.
  • S'ha creat un wrapper de Hunspell per a Ruby.

[modifica] Llista de paraules

[modifica] Versions del corrector

Es generen versions diferents de la llista de paraules. Per ara hi ha aquestes versions:

  • "general". Conté totes les entrades que formen part de l'estàndard reconegut generalment. Inclou la morfologia recollida a la gramàtica de l'IEC.
  • "avl". A més de totes les formes de la versió "general", n'inclou d'altres que són acceptades per molts al País Valencià. Potser s'hauria de canviar el nom de la versió.

Sens dubte, no tothom coincideix en les paraules que ha d'incloure un corrector per als usuaris valencians, balears, tortosins o barcelonins. Crec (JMo) que el més adient és posar el màxim d'entrades a la versió "general", procedeixin d'on procedeixin, i deixar per a les altres versions les paraules sobre les quals no hi ha un acord general (segurament, ni tan sols entre els parlants d'un mateix dialecte) i les que "empobreixen" el corrector. Per exemple, telefon o francés, per als parlants que no siguin balears o valencians. En aquest moment, telefon és a la versió "general" i francés, només a la versió "avl". Quan hi hagi una versió "balear", s'hi haurà de desplaçar telefon. Tanmateix, els dos casos són diferents, ja que, mentre que hi ha unanimitat a acceptar la primera persona del present d'indicatiu sense desinència, no passa el mateix amb les formes que tenen e tancada en lloc de la general amb e oberta (o neutra).

[modifica] Creació de les llistes

Les dades d'entrada són les regles (regles.txt) i el lèxic (diec.txt, etc.).

El fitxer regles.txt té una mica més d'informació de la que després anirà al fitxer .aff. Entre altres coses, conté informació dialectal, que permet generar fitxers .aff amb un subconjunt dels casos de les regles. A partir de les regles es crea el fitxer d'afixos (normalment catalan.aff). El fitxer regles.txt es pot modificar amb una d'aquestes intencions:

  • Per corregir els errors. És necessari revisar, sobretot, els paradigmes valencians.
  • Per afegir noves regles o nous casos de regles existents. El principal corrector de la competència (el de MSOffice) detecta augmentatius i diminutius, cosa que podria fer el nostre.

Els fitxers de lèxic contenen entrades de lèxic, que donen lloc al diccionari, amb el programa genera.exe, creat compilant genera.sln. Les entrades s'extreuen d'aquests fitxers:

  • diec.txt. Conté les entrades del Diccionari de l'Institut d'Estudis Catalans (DIEC) de 1996. Hi ha informació sobre irregularitats dins irregulars_diec.txt.
  • diec2.txt. Conté les entrades noves de la segona edició del DIEC (2007). Hi ha informació sobre irregularitats dins irregulars_diec2.txt.
  • avl.txt. Conté entrades agafades del diccionari publicat per l'Acadèmia Valenciana de la Llengua. Encara se n'hi han d'incorporar moltes més. Hi ha informació sobre irregularitats dins irregulars_avl.txt.
  • termcat.txt. Entrades agafades del Recull de Neologismes del Termcat. Hi ha informació sobre irregularitats dins irregulars_termcat.txt.
  • mes_paraules.txt. Amb el mateix format que DIEC conté paraules comunes que consideram correctes, tot i no aparèixer al DIEC. Una part d'aquestes paraules s'han agafat de l'Acadèmia Valenciana de la Llengua.
  • antropònims.txt. Noms de persona.
  • llinatges.txt. Cognoms corrents.
  • gentilicis.txt. Gentilicis dels Països Catalans. Hi són representats la majoria de gentilicis balears i valencians i menys del Principat.
  • gentilicis_estrangers.txt. Gentilicis no catalans.
  • topònims.txt. Noms de lloc dels Països Catalans. Hi ha tots els municipis.
  • topònims_estrangers.txt. Noms de lloc importants no catalans. Inclou els noms d'estats i ciutats grans.
  • marques.txt. Noms propis que no són ni de lloc ni de persona.
  • abreviatures_duarte.txt. Símbols i abreviatures. (el fitxer té aquest nom perquè les abreviatures estan agafades del Manual de llenguatge administratiu de Carles Duarte).
  • regles.txt. Paradigmes catalans.

Els programes s'hauran de modificar per generar versions valencianes del diccionari. Principalment, han de permetre al corrector reconèixer paraules amb l'accent diferent del que s'empra comunament. El lèxic propi valencià (tret que siguin variants que es prestin a confusió) ha d'anar dins els fitxers generals.

[modifica] Definicions

  • .aff Extensió del fitxer que conté les regles. S'empra tant en MySpell/Hunspell com en ispell/aspell (amb diferents formats). A més conté altra informació, com els caràcters de la llengua, substitucions preferides (per exemple "l" <=> "l·l"), la codificació emprada, etc.
  • arrel Cadascun dels elements del diccionari. A partir d'una arrel es poden reconèixer diverses paraules, aplicant els flags que l'acompanyen. El sistema de flags i arrels s'empra només per compactar la llista de paraules. El corrector funcionaria igual de bé amb la llista de paraules desplegada, però aquesta seria molt més llarga (actualment, té uns 2 M).
  • .dic L'extensió del fitxer amb el diccionari. S'empra tant en MySpell/Hunspell com en ispell/aspell (amb formats lleugerament diferents).
  • diccionari Seguint la terminologia d'ispell, després manllevada per aspell, MySpell, etc., anomenam diccionari la llista d'arrels que reconeix el corrector.
  • .hash Fitxer compilat per a ispell. Es crea amb el programa buildhash a partir d'un fitxer .dic i un fitxer .aff. Gràcies a aquest fitxer ispell es carrega molt més ràpid que MySpell. AbiWord fa servir un .hash amb un ajust diferent del que fa servir per defecte ispell.
  • motor de correcció El programa que decideix sobre la correcció d'una paraula i que torna suggeriments per a paraules errònies. La majoria de motors són independents de la llengua i s'alimenten de fitxers amb les dades de cada llengua concreta. Els motors que empren els nostres diccionaris són MySpell/Hunspell (emprat per OpenOffice i Mozilla), ispell (emprat com a programa autònom i integrat dins AbiWord) i aspell (emprat pel "Corrector de Softcatalà").
  • paraula Una seqüència de caràcters, sense espais, que es passa al motor de correcció per tal que aquest decideixi sobre la seva correcció o proposi alternatives. La definició exacta és variable, segons el tractament dels caràcters no alfabètics:
    • L'apòstrof envoltat de caràcters alfabètics sol ser considerat part de la paraula.
    • El guionet envoltat de caràcters alfabètics unes vegades és considerat part de la paraula i altres un separador. El nostre corrector reconeix les paraules amb guionets, cosa que permet corregir l'ús de pronoms personals proclítics.
    • El punt seguint una sèrie de caràcters alfabètics. MySpell permet que les paraules continguin punts, la qual cosa permet la correcció d'abreviatures (i marcar com error la falta del punt final). En canvi, ispell no ho permet i per això no es pot detectar l'absència de punt (per exemple "etc").
  • regla Informació per generar i identificar paraules a partir d'una arrel. Cada regla té un identificador (normalment una lletra) i una sèrie de casos, dels quals segurament només una part s'aplica a una arrel donada. Hi ha regles per a prefixos i regles per a sufixos. Cada cas d'una regla té els següents camps:
    • Condició que ha de complir l'arrel perquè el cas li sigui aplicable (per exemple, /ajar$/).
    • Lletres que s'han de suprimir en aplicar el cas (per exemple, /r$/).
    • Lletres que s'han d'afegir en aplicar el cas (per exemple, /ven$/)

[modifica] Fites futures

  • Explorar jaciments de lèxic absent. Cada dia s'haurien de processar automàticament les publicacions en català disponibles a la xarxa, a la recerca de paraules absents (neologismes, topònims, cognoms) i errades.
  • Oferir accés a la base de dades a través de web. S'hauria de poder saber per què una paraula és dóna com a bona (el corrector pot explicar d'on l'ha treta) i proposar incorporacions a la llista.
  • Oferir un servei d'actualització automàtica de diccionaris.
  • Permetre que les paraules personalitzades es puguin exportar i importar, per tal de compartir els termes afegits entre ordinadors, i evitar la pèrdua d'informació d'una instal·lació a l'altra.

[modifica] Propostes d'inclusió

  • Propostes. Si teniu cap proposta d'inclusió, aneu a aquesta pàgina i afegiu-la a la secció superior de propostes encara no incorporades.
  • Mots del DOPV

[modifica] Codi i desenvolupament

Podeu baixar el codi actual amb github des de la línia d'ordres:

https://github.com/Softcatala/corrector-ortografic

[modifica] Contactar

Si voleu col·laborar en el projecte apunteu-vos a la Llista del corrector i participeu en el projecte.

Separa Categories