Usuari:Jmas/joc de caràcters
Proposta de nova secció a: https://www.softcatala.org/guia-estil-de-softcatala/aspectes-de-localitzacio/
Jocs de caràcters
Els jocs de caràcters són convencions que descriuen com els sistemes informàtics codifiquen en números (l'únic llenguatge que entenen) els caràcters necessaris per representar una llengua.
Els jocs de caràcters més habituals per presentar el català són: iso-8859-1 (usat en web principalment), windows-1252 (en entorn Windows) i Unicode (habitualment en la codificació UTF-8). Els dos primers permeten només presentar un conjunt de llengües limitades (principalment llatines) mentre que Unicode té l'ambició de poder representar totes les llengües del món i periòdicament amplia el catàleg de caràcters disponibles. La majoria de sistemes informàtics tendeixen a usar avui en dia Unicode per a reduir la complexitat que representa gestionar diferents codificacions per a diferents llengües i les seves corresponents conversions.
En traduir una aplicació cal saber quin joc de caràcters cal emprar i usar un editor de text compatible. Sempre cal revisar les cadenes traduïdes en un entorn de proves i parar atenció que els caràcters amb accents, apòstrof i el punt volat es visualitzin correctament.
Si s'usa el joc de caràcters adient, el problema principal que ens trobem en la traducció és que, si no usem els caràcters adequats per a representar una lletra o símbol, després la seva presentació en pantalla, impressora o altres medis serà incorrecta (no es dibuixarà bé). Addicionalment, les eines que analitzen textos, com ara correctors ortogràfics, traductors, lectors de pantalla, etc., no seran capaços d'entendre el que volem expressar. Molts d'aquests problemes són causats perquè els traductors no saben com obtenir els caràcters correctament amb els seus teclats.
A continuació expliquem els problemes i situacions principals que ens trobem i l'acció recomanada:
Problema | Forma correcta | Combinació de teclat |
Representació incorrecta de la ela geminada . És incorrecte usar el punt baix «.», guionet «-» o altres caràcters per representar-la. | La ela geminada es representa amb el punt volat «·», caràcter Unicode U+00B7 anomenat middle dot (punt mitjà). | S'obté amb el teclat prement Maj + 3 (símbol: · ). |
Representació incorrecta del símbol de grau. És incorrecte usar l'abreviatura d'ordinal masculí «º», caràcter Unicode U+00BA. | El grau es representa amb «°», caràcter Unicode U+00B0 anomenat degree sign (signe de grau). | Usar el caràcter Unicode U+00B0 (símbol: ° ). |
Representació dels accents utilitzant incorrectament el caràcter Unicode U+0301 anomenat Combining acute accent (accent agut per a combinar). Aquest caràcter està pensat per llengües on cal accentuar caràcters que no tenen presentació específica en Unicode (que no és el cas del català). | En català disposem dels caràcters ja combinats per representar les lletres accentuades, com per exemple el caràcter Unicode U+00E1, anomenat Latin Small Letter A with Acute, per a presentar la «à», etc. | Al teclat cal prémer el caràcter d'accent que es troba prop de la tecla de Retorn i després la vocal que volem accentuar. |
Si l'original en anglès utilitza el caràcter Unicode U+2026 anomenant Horizontal Elipsis (el·lipsi horizontal) i en català usem els tres punts «...». | Cal ser consistents amb l'original i usar la mateixa convenció, és a dir, el caràcter Unicode U+2026 en comptes dels tres punts «...» que s'han utilitzat tradicionalment. | Usar el caràcter Unicode U+2026 (símbol: … ). |
Si l'original en anglès utilitza el caràcter Unicode U+00D7 anomenant Multiplication sign (signe de multiplicació) i en català usem la lletra «x». | Cal ser consistents amb l'original i usar la mateixa convenció, és a dir, el caràcter Unicode U+00D7 en comptes de la lletra «x» que s'han utilitzat tradicionalment. | Usar el caràcter Unicode U+00D7 (símbol: × ). |
En aquesta pàgina hi ha una descripció detallada de com obtenir caràcters Unicode amb teclat amb diferents sistemes operatius.