Segmentació

Problemes de segmentació de paraules amb punt volat

Aquest és, potser, el problema que més afecta als usuaris catalans.

Segons l’algorisme de partició de text en paraules d’Unicode, els punt volat no hauria de tallar paraules, mai. Malauradament, moltes aplicacions usen un algorisme diferent, habitualment més fàcil i senzill d’implementar, que ens perjudica.

Essencialment, hi ha dos tipus de segmentació. La que usa la biblioteca gràfica del sistema per seleccionar text, per exemple, amb doble clic. L’altra és la que usen els editors de text per passar paraules al corrector ortogràfic o fer-ne un recompte.

Plataformes i biblioteques gràfiques

Estat del punt volat a les plataformes. S’ha fet la prova de seleccionar un mot amb ela geminada a l’editor predeterminat o en un quadre d’edició del sistema i verificar que se selecciona completament, sense segmentar. Nota: altres aplicacions potser no tracten correctament el punt volat.

SO o bliblioteca gràfica Resultat Observacions
Windows XP, Vista, 7, 8 i 10 Correcte?*[1] Proves amb el Notepad i quadres del sistema
OSX Incorrecte*[2] Proves amb el TexEdit i Pages
Android Correcte Proves amb quadres d’edició
Java Correcte Proves amb el codi d’exemple
KDE/Qt Correcte Proves amb el Kate i Calligra
WebkitGTK Correcte Proves fetes amb l’evolution
gtkhtml Correcte Proves fetes amb l’evolution
GNOME/pango Parcial Només si el text es definit en català
iOS 6 ?? Proves fetes amb quadres d’edició
WindowsPhone 8 ??
BlackBerry 5 i 6 Correcte
BlackBerry 7 ??
BlackBerry 10 Correcte
  • [1] Les proves amb el Notepad són satisfactòries, però alguns camps d’edició del sistema no seleccionen la paraula sencera en fer-hi doble clic. Per exemple el quadre “Cerca”. El mateix passa amb el Wordpad, l’Internet Explorer i el MS Word.
  • [2] El sistema OSX es comporta bé en fer doble clic però la biblioteca de correcció ortogràfica hunspell (l’única opció per al català) talla els mots amb punt volat, és a dir no usa la implementació de l’UAX TR29. Tenim, doncs, el comportament invers a la plataforma Windows.

Aplicacions

Estat del punt volat a diverses aplicacions d’ús comú. L’algorisme usat pot ser difernt de la biblioteca gràfica del SO.

Programari Resultat Acció? Observacions
LibreOffice Parcial Només si el text és definit en català
IE11 a Windows 10 Parcial el corrector ortogràfic funciona bé, però fent doble clic al mot talla les paraules amb ela geminada
IE 10 a Windows 8 Parcial el corrector ortogràfic funciona bé, però fent doble clic al mot talla les paraules amb ela geminada
IE 8 a Windows XP Incorrecte segmenta en fer doble clic en paraules amb “l·l”
Google Chrome a Windows XP Correcte No segmenta en cap idioma en fer doble clic i el corrector ortogràfic funciona bé
Safari Windows XP Correcte No segmenta en cap idioma en fer doble clic i el corrector ortogràfic funciona bé
Chromium a Linux Correcte No segmenta en cap idioma en fer doble clic i el corrector ortogràfic funciona bé
Calligra Correcte No segmenta en cap idioma
MS Word 2007 i superior a Windows Parcial El corrector ortogràfic no segmenta “l·l” en cap idioma, però el doble clic segmenta sempre
MS Word 2007 i anterior a Windows Incorrecte El porta-retalls canvia el punt volat «·» U+00B7 per una bala «•» U+2022
MS Word 2010 i posterior a Windows Incorrecte bug intern (el 10/3/2015 pedaç publicat pedaç per a Word 2010, previst pedaç per a Word 2013 el maig) El porta-retalls canvia el punt volat «·» U+00B7 per una bala «•» U+2022
MS Word 2012 per a OS X Correcte No segmenta en cap idioma
Abiword Incorrecte bug problemes a GNOME?
GIMP Incorrecte problemes a GNOME?
ratolí al gnome-terminal (usa VTE) Incorrecte bug a gnome-terminal VTE usa un algorisme propi molts simple. Podem personalitzar els caràcters que es consideren lletres de paraula a la configuració de l’aplicació
URL al gnome-terminal (usa VTE) Incorrecte L’autodetecció d’URL falla
Vim Incorrecte el Vim té el paràmetre iskeyword que no té en compte el punt volat. Només cal fer “set iskeyword+=·” per a afegir el punt volat, més info…
emacs Incorrecte bug l’emacs talla els mots amb L·L, però es pot personalitzar per a evitar-ho. Està pendent d’implementar a upstream el pedaç.
GNOME (gedit, zenity) Incorrecte bug al geditbug a pango GNOME usa pango, però hi tenim un problema.
Productes Mozilla (Firefox, Thunderbird, Seamonkey, FirefoxOS…) Correcte bug el corrector ortogràfic no funciona bé perquè el tokenitzador separa paraules amb “l·l”.
Productes Mozilla (Firefox, Thunderbird, Seamonkey, FirefoxOS…) Parcial en fer doble clic, la selecció queda segmentada a la “l·l”.
TextEdit (Mac OS) Incorrecte Segmenta en la correcció ortogràfica. Problemes amb les aplicacions Apple?
Pages (Mac OS) Incorrecte Segmenta en la correcció ortogràfica. Problemes amb les aplicacions Apple?
Gmail Incorrecte bug? Talla els URL amb punt volat.
YahooMail Incorrecte Talla els URL amb punt volat.
Web Outlook (antic Hotmail) Incorrecte Als missatges, talla els URL amb punt volat.
MS OWA (webmail de l’Exchange) Incorrecte Als missatges, talla els URL amb punt volat.
Google Translate Correcte En traduir al català, afegeix espais al voltant del punt volat (paral · lel ).
readline Incorrecte Té un algorisme simple de separació de paraules (lletres i números).
Sigil Correcte, a partir 0.8.1 bug Segmenta les paraules amb L·L
calibre Correcte la selecció amb doble clic i el corrector ortogràfic funcionen correctament.
Twitter Correcte bug? Corregit a finals d’abril, principis de maig 2015.Als missatges, talla els mots amb ela geminada en fer els hashtags.
Google+ Incorrecte les etiquetes (hashtags) talla en el punt volat. Curiosament, durant l’edició sí que reconeix les etiquetes amb punt volat.
Facebook Incorrecte les etiquetes (hashtags) tallen en el punt volat.
Instagram Incorrecte les etiquetes (hashtags) tallen en el punt volat.
Evernote Correcte les etiquetes reconeixen el punt volat.
Qvitter Incorrecte les etiquetes (hashtags) tallen en el punt volat.
Twitter Incorrecte Talla els URL amb L·L, tant al domini com al camí.
Google+ Incorrecte Talla els URL amb L·L, només a la part del domini.
Facebook Incorrecte Talla els URL amb L·L, tant al domini com al camí.
Evernote Incorrecte No talla els URL però té un problema general en codificar les URL amb caràcters no-ASCII.
Qvitter Incorrecte Talla els URL amb L·L, tant al domini com al camí.

Resum

  •  Tenim problemes importants de segmentació a pango/GNOME, Mozilla i Apple.
  •  Tenim problemes relatius a Windows, Mozilla i a aplicacions web com Gmail, YahooMail, Outlook, Twitter…
  •  KDE/Qt sembla que funciona perfectament.
  •  Android sembla que funciona perfectament.
  •  Aplicacions com el Vim, Emacs i Gnome-terminal, usen un algorisme propi molt simple per definir les paraules, però es pot rodejar el problema amb el punt volat personalitzant la configuració.