Segmentació
Problemes de segmentació de paraules amb punt volat
Aquest és, potser, el problema que més afecta als usuaris catalans.
Segons l’algorisme de partició de text en paraules d’Unicode, els punt volat no hauria de tallar paraules, mai. Malauradament, moltes aplicacions usen un algorisme diferent, habitualment més fàcil i senzill d’implementar, que ens perjudica.
Essencialment, hi ha dos tipus de segmentació. La que usa la biblioteca gràfica del sistema per seleccionar text, per exemple, amb doble clic. L’altra és la que usen els editors de text per passar paraules al corrector ortogràfic o fer-ne un recompte.
Plataformes i biblioteques gràfiques
Estat del punt volat a les plataformes. S’ha fet la prova de seleccionar un mot amb ela geminada a l’editor predeterminat o en un quadre d’edició del sistema i verificar que se selecciona completament, sense segmentar. Nota: altres aplicacions potser no tracten correctament el punt volat.
SO o bliblioteca gràfica | Resultat | Observacions |
---|---|---|
Windows XP, Vista, 7, 8 i 10 | Correcte?*[1] | Proves amb el Notepad i quadres del sistema |
OSX | Incorrecte*[2] | Proves amb el TexEdit i Pages |
Android | Correcte | Proves amb quadres d’edició |
Java | Correcte | Proves amb el codi d’exemple |
KDE/Qt | Correcte | Proves amb el Kate i Calligra |
WebkitGTK | Correcte | Proves fetes amb l’evolution |
gtkhtml | Correcte | Proves fetes amb l’evolution |
GNOME/pango | Parcial | Només si el text es definit en català |
iOS 6 | ?? | Proves fetes amb quadres d’edició |
WindowsPhone 8 | ?? | |
BlackBerry 5 i 6 | Correcte | |
BlackBerry 7 | ?? | |
BlackBerry 10 | Correcte |
- [1] Les proves amb el Notepad són satisfactòries, però alguns camps d’edició del sistema no seleccionen la paraula sencera en fer-hi doble clic. Per exemple el quadre “Cerca”. El mateix passa amb el Wordpad, l’Internet Explorer i el MS Word.
- [2] El sistema OSX es comporta bé en fer doble clic però la biblioteca de correcció ortogràfica hunspell (l’única opció per al català) talla els mots amb punt volat, és a dir no usa la implementació de l’UAX TR29. Tenim, doncs, el comportament invers a la plataforma Windows.
Aplicacions
Estat del punt volat a diverses aplicacions d’ús comú. L’algorisme usat pot ser difernt de la biblioteca gràfica del SO.
Programari | Resultat | Acció? | Observacions |
---|---|---|---|
LibreOffice | Parcial | – | Només si el text és definit en català |
IE11 a Windows 10 | Parcial | – | el corrector ortogràfic funciona bé, però fent doble clic al mot talla les paraules amb ela geminada |
IE 10 a Windows 8 | Parcial | – | el corrector ortogràfic funciona bé, però fent doble clic al mot talla les paraules amb ela geminada |
IE 8 a Windows XP | Incorrecte | – | segmenta en fer doble clic en paraules amb “l·l” |
Google Chrome a Windows XP | Correcte | – | No segmenta en cap idioma en fer doble clic i el corrector ortogràfic funciona bé |
Safari Windows XP | Correcte | – | No segmenta en cap idioma en fer doble clic i el corrector ortogràfic funciona bé |
Chromium a Linux | Correcte | – | No segmenta en cap idioma en fer doble clic i el corrector ortogràfic funciona bé |
Calligra | Correcte | – | No segmenta en cap idioma |
MS Word 2007 i superior a Windows | Parcial | – | El corrector ortogràfic no segmenta “l·l” en cap idioma, però el doble clic segmenta sempre |
MS Word 2007 i anterior a Windows | Incorrecte | – | El porta-retalls canvia el punt volat «·» U+00B7 per una bala «•» U+2022 |
MS Word 2010 i posterior a Windows | Incorrecte | bug intern (el 10/3/2015 pedaç publicat pedaç per a Word 2010, previst pedaç per a Word 2013 el maig) | El porta-retalls canvia el punt volat «·» U+00B7 per una bala «•» U+2022 |
MS Word 2012 per a OS X | Correcte | – | No segmenta en cap idioma |
Abiword | Incorrecte | bug | problemes a GNOME? |
GIMP | Incorrecte | – | problemes a GNOME? |
ratolí al gnome-terminal (usa VTE) | Incorrecte | bug a gnome-terminal | VTE usa un algorisme propi molts simple. Podem personalitzar els caràcters que es consideren lletres de paraula a la configuració de l’aplicació |
URL al gnome-terminal (usa VTE) | Incorrecte | L’autodetecció d’URL falla | |
Vim | Incorrecte | el Vim té el paràmetre iskeyword que no té en compte el punt volat. Només cal fer “set iskeyword+=·” per a afegir el punt volat, més info… | |
emacs | Incorrecte | bug | l’emacs talla els mots amb L·L, però es pot personalitzar per a evitar-ho. Està pendent d’implementar a upstream el pedaç. |
GNOME (gedit, zenity) | Incorrecte | bug al gedit, bug a pango | GNOME usa pango, però hi tenim un problema. |
Productes Mozilla (Firefox, Thunderbird, Seamonkey, FirefoxOS…) | Correcte | bug | el corrector ortogràfic no funciona bé perquè el tokenitzador separa paraules amb “l·l”. |
Productes Mozilla (Firefox, Thunderbird, Seamonkey, FirefoxOS…) | Parcial | – | en fer doble clic, la selecció queda segmentada a la “l·l”. |
TextEdit (Mac OS) | Incorrecte | – | Segmenta en la correcció ortogràfica. Problemes amb les aplicacions Apple? |
Pages (Mac OS) | Incorrecte | – | Segmenta en la correcció ortogràfica. Problemes amb les aplicacions Apple? |
Gmail | Incorrecte | bug? | Talla els URL amb punt volat. |
YahooMail | Incorrecte | – | Talla els URL amb punt volat. |
Web Outlook (antic Hotmail) | Incorrecte | – | Als missatges, talla els URL amb punt volat. |
MS OWA (webmail de l’Exchange) | Incorrecte | – | Als missatges, talla els URL amb punt volat. |
Google Translate | Correcte | – | En traduir al català, afegeix espais al voltant del punt volat (paral · lel ). |
readline | Incorrecte | – | Té un algorisme simple de separació de paraules (lletres i números). |
Sigil | Correcte, a partir 0.8.1 | bug | Segmenta les paraules amb L·L |
calibre | Correcte | – | la selecció amb doble clic i el corrector ortogràfic funcionen correctament. |
Correcte | bug? | Corregit a finals d’abril, principis de maig 2015.Als missatges, talla els mots amb ela geminada en fer els hashtags. | |
Google+ | Incorrecte | – | les etiquetes (hashtags) talla en el punt volat. Curiosament, durant l’edició sí que reconeix les etiquetes amb punt volat. |
Incorrecte | – | les etiquetes (hashtags) tallen en el punt volat. | |
Incorrecte | – | les etiquetes (hashtags) tallen en el punt volat. | |
Evernote | Correcte | – | les etiquetes reconeixen el punt volat. |
Qvitter | Incorrecte | – | les etiquetes (hashtags) tallen en el punt volat. |
Incorrecte | – | Talla els URL amb L·L, tant al domini com al camí. | |
Google+ | Incorrecte | – | Talla els URL amb L·L, només a la part del domini. |
Incorrecte | – | Talla els URL amb L·L, tant al domini com al camí. | |
Evernote | Incorrecte | – | No talla els URL però té un problema general en codificar les URL amb caràcters no-ASCII. |
Qvitter | Incorrecte | – | Talla els URL amb L·L, tant al domini com al camí. |
Resum
- Tenim problemes importants de segmentació a pango/GNOME, Mozilla i Apple.
- Tenim problemes relatius a Windows, Mozilla i a aplicacions web com Gmail, YahooMail, Outlook, Twitter…
- KDE/Qt sembla que funciona perfectament.
- Android sembla que funciona perfectament.
- Aplicacions com el Vim, Emacs i Gnome-terminal, usen un algorisme propi molt simple per definir les paraules, però es pot rodejar el problema amb el punt volat personalitzant la configuració.