(+inclusió) |
(→Propostes d'inclusió) |
||
| Línia 62: | Línia 62: | ||
* [http://www.softcatala.org/llengua/dialectalismes_nous_DIEC_2.pdf Dialectalismes acceptats al DIEC2] | * [http://www.softcatala.org/llengua/dialectalismes_nous_DIEC_2.pdf Dialectalismes acceptats al DIEC2] | ||
| + | * [[Corrector ortogràfic/Propostes|Propostes de la llista]] | ||
== Codi == | == Codi == | ||
Revisió de 10:31, 10 juny 2007
Contingut |
Presentació
La finalitat d'aquest projecte és el manteniment de la llista de paraules reconegudes pels diversos correctors ortogràfics de Softcatalà, tots els quals comparteixen les mateixes dades (encara que possiblement en formats diferents).
Llista de paraules
Creació de les llistes
Les dades d'entrada són les regles (regles.txt) i el lèxic (diec.txt, etc.).
El fitxer regles.txt té una mica més d'informació de la que després anirà al fitxer .aff. Entre altres coses, conté informació dialectal, que permet generar fitxers .aff amb un subconjunt dels casos de les regles. A partir de les regles es crea el fitxer d'afixos (normalment catalan.aff). El fitxer regles.txt es pot modificar amb una d'aquestes intencions:
- Per corregir els errors. És necessari revisar, sobretot, els paradigmes valencians.
- Per afegir noves regles o nous casos de regles existents. El principal corrector de la competència (el de MSOffice) detecta augmentatius i diminutius, cosa que podria fer el nostre.
Els fitxers de lèxic contenen entrades de lèxic, que donen lloc al diccionari, amb el programa gen_dic.pl. Aquest programa també fa servir catalan.aff, que ha d'haver estat generat prèviament. El fitxer de lèxic més extens és diec.txt, amb totes les entrades del Diccionari de l'Institut d'Estudis Catalans (DIEC) de 1996. D'aquí a poc temps apareixerà una nova edició del DIEC i hauríem de ser els primers a incorporar-ne les novetats. Acompanya diec.txt el fitxer irregulars.txt, amb informació (amb una sintaxi demencial) per generar les formes irregulars. La bona notícia és que les paraules noves són (amb molt poques excepcions) regulars.
Els altres fitxers contenen més entrades per afegir al diccionari. De moment, només el fitxer mes_paraules.txt empra la mateixa sintaxi que diec.txt. Els altres són llistes planes o amb una sintaxi òbvia. En aquests fitxers és on hi ha més feina a fer:
- S'han d'afegir neologismes a mes_paraules.txt. Un filó per explotar és la llista de neologismes del Termcat.
- S'han d'afegir noms propis a marques.txt, llinatges.txt i toponims.txt.
- S'han d'afegir gentilicis nacionals i estrangers a gentilicis.txt i gentilicis_estrangers.txt.
- S'han d'afegir abreviatures a abreviatures_duarte.txt (el fitxer té aquest nom perquè les abreviatures estan agafades del Manual de llenguatge administratiu de Carles Duarte).
Els programes s'hauran de modificar per generar versions valencianes del diccionari. Principalment, han de permetre al corrector reconèixer paraules amb l'accent diferent del que s'empra comunament. El lèxic propi valencià (tret que siguin variants que es prestin a confusió) ha d'anar dins els fitxers generals.
Un darrer programa (gen_ispell.pl) genera els fitxers per a ispell.
Definicions
- .aff Extensió del fitxer que conté les regles. S'empra tant en MySpell/Hunspell com en ispell/aspell (amb diferents formats). A més conté altra informació, com els caràcters de la llengua, substitucions preferides (per exemple "l" <=> "l·l"), la codificació emprada, etc.
- arrel Cadascun dels elements del diccionari. A partir d'una arrel es poden reconèixer diverses paraules, aplicant els flags que l'acompanyen. El sistema de flags i arrels s'empra només per compactar la llista de paraules. El corrector funcionaria igual de bé amb la llista de paraules desplegada, però aquesta seria molt més llarga (actualment, té uns 2 M).
- .dic L'extensió del fitxer amb el diccionari. S'empra tant en MySpell/Hunspell com en ispell/aspell (amb formats lleugerament diferents).
- diccionari Seguint la terminologia d'ispell, després manllevada per aspell, MySpell, etc., anomenam diccionari la llista d'arrels que reconeix el corrector.
- .hash Fitxer compilat per a ispell. Es crea amb el programa buildhash a partir d'un fitxer .dic i un fitxer .aff. Gràcies a aquest fitxer ispell es carrega molt més ràpid que MySpell. AbiWord fa servir un .hash amb un ajust diferent del que fa servir per defecte ispell.
- motor de correcció El programa que decideix sobre la correcció d'una paraula i que torna suggeriments per a paraules errònies. La majoria de motors són independents de la llengua i s'alimenten de fitxers amb les dades de cada llengua concreta. Els motors que empren els nostres diccionaris són MySpell/Hunspell (emprat per OpenOffice i Mozilla), ispell (emprat com a programa autònom i integrat dins AbiWord) i aspell (emprat pel "Corrector de Softcatalà").
- paraula Una seqüència de caràcters, sense espais, que es passa al motor de correcció per tal que aquest decideixi sobre la seva correcció o proposi alternatives. La definició exacta és variable, segons el tractament dels caràcters no alfabètics:
- L'apòstrof envoltat de caràcters alfabètics sol ser considerat part de la paraula.
- El guionet envoltat de caràcters alfabètics unes vegades és considerat part de la paraula i altres un separador. El nostre corrector reconeix les paraules amb guionets, cosa que permet corregir l'ús de pronoms personals proclítics.
- El punt seguint una sèrie de caràcters alfabètics. MySpell permet que les paraules continguin punts, la qual cosa permet la correcció d'abreviatures (i marcar com error la falta del punt final). En canvi, ispell no ho permet i per això no es pot detectar l'absència de punt (per exemple "etc").
- regla Informació per generar i identificar paraules a partir d'una arrel. Cada regla té un identificador (normalment una lletra) i una sèrie de casos, dels quals segurament només una part s'aplica a una arrel donada. Hi ha regles per a prefixos i regles per a sufixos. Cada cas d'una regla té els següents camps:
- Condició que ha de complir l'arrel perquè el cas li sigui aplicable (per exemple, /ajar$/).
- Lletres que s'han de suprimir en aplicar el cas (per exemple, /r$/).
- Lletres que s'han d'afegir en aplicar el cas (per exemple, /ven$/)
Fites futures
- Adaptar-nos a Hunspell. Aquest successor de MySpell funciona millor per a llengües flexives, com el català. Entre les millores, destaca la possibilitat d'aplicar dos prefixos consecutivament a la mateixa arrel. En català és molt útil per als pronoms proclítics, que es combinen amb formes verbals conjugades (per tant, el primer prefix fa la conjugació i el segon afegeix el pronom o pronoms).
- Explorar jaciments de lèxic absent. Cada dia s'haurien de processar automàticament les publicacions en català disponibles a la xarxa, a la recerca de paraules absents (neologismes, topònims, cognoms) i errades.
- Oferir accés a la base de dades a través de web. S'hauria de poder saber per què una paraula és dóna com a bona (el corrector pot explicar d'on l'ha treta) i proposar incorporacions a la llista.
- Oferir un servei d'actualització automàtica de diccionaris. El "Corrector de Softcatalà" hauria de reflectir permanentment l'estat de la
Propostes d'inclusió
Codi
Podeu baixar el codi actual amb subversion des de la línia d'ordres:
-
svn checkout svn://softcatala.org/corrector
Recursos







