La salut del català a Internet

Compartiu


Per Jordi Mas i Hernàndez/ jmas@softcatala.org
2/09/2003


1. Introducció

Aquest article és una revisió de l’informe publicat l’any 2000 per Vilaweb sobre la presència de la llengua catalana a Internet. S’ha cregut necessari després de més tres anys –i això és molt de temps a Internet– fer una revisió d’aquestes dades i actualitzar-les amb el major rigor possible.

Determinar amb exactitud la presència d’una llengua a Internet és una tasca complexa i fora de l’abast dels mitjans tècnics i humans dels quals disposem des de Softcatalà. Internet no és només la web, hi ha multitud d’espais sensibles a les llengües com ara el correu electrònic, els xats, els grups de discussió, o la missatgeria instantània que són difícils de mesurar, quan no impossibles, sense la col·laboració dels proveïdors d’accés a la Xarxa. En aquest article ens centrarem en mesurar la presència del català a la web.

2. Mètode utilitzat

Per a l’elaboració d’aquest article s’ha utilitzat la base de dades del cercador AllTheWeb que és el cercador que té un suport més desenvolupat quant a eines lingüístiques. Bàsicament, s’ha intentat interrogar amb la màxima fiabilitat possible la quantitat de pàgines web que té indexades per a cada llengua. S’ha utilitzat la tècnica anomenada complement del conjunt buit que es basa en cercar paraules no existents en una llengua per determinar el nombre de pàgines indexades.

Aquestes dades són una mesura molt eficaç de la presència del català a Internet. En qualsevol cas és important tenir present els següents punts:

– Actualment, segons estimacions de Google, es calcula que la web té entre 9.000 i 12.000 milions de pàgines web. Google només n’indexa uns 3.000 milions i AllTheweb uns 2.100, però també es calcula que hi ha un alt índex de pàgines repetides (pàgines mirall per exemple) entre les que encara cal indexar. Es considera també, que les llengües asiàtiques, especialment el xinès,  tenen un nombre molt alt de pàgines web encara per indexar respecte les altres llengües[1].

– L’informe original de Vilaweb del 2000 on el català hi apareixia com a dinovena llengua no tenia en compte llengües com l’indonesi, el tai, l’estoni o el croat perquè AllTheweb en aquella època no era capaç d’identificar-les.

– El sistema que usa Alltheweb  per determinar la llengua d’una pàgina es basa principalment en la freqüència d’aparició de certs mots en les pàgines (term frequency). Aquests sistemes no són totalment fiables ja que per a pàgines petites o per llengües properes (com l’occità i el català o el gallec i el portuguès per exemple) poden errar en la detecció de la llengua.

2. Dades sobre la presència del català a Internet (agost 2003)

Aquestes són les dades que mostren la presència del català a Intenet segons el cercador AllTheWeb al mes d’agost del 2003.

Cercador AlltheWeb
Llengua Pàgines Web (mostra)
1 Anglès 1,280,041,397
2 Alemany 182,005,546
3 Francès 99,737,704
4 Japonès 69,730,375
5 Espanyol 65,814,567
6 Xinès 65,730,212
7 Coreà 64,606,324
8 Rus 42,276,247
9 Italià 41,849,365
10 Holandès 41,119,851
11 Portuguès 37,695,762
12 Polonès 22,154,325
13 Txec 15,580,583
14 Suec 14,901,968
15 Danès 12,107,133
16 Hongarès 8,540,941
17 Noruec 8,123,301
18 Finlandès 5,678,599
19 Eslovac 5,077,965
20 Hebreu 4,792,646
21 Turc 4,704,212
22 Tai 3,124,572
23 Català 2,926,550
24 Àrab 2,470,616
25 Grec 2,366,733
26 Romanès 2,052,990
27 Eslovè 1,685,426
28 Croat 1,672,582
29 Estonià 1,464,539
30 Islandès 1,391,302
31 Búlgar 1,120,713
32 Lituà 1,078,341
33 Indonesi 1,044,038
34 Ucraïnès 1,014,537
35 Letó 559,913
36 Bielorús 535,697
37 Vietnamita 390,164
38 Malai 327,947
39 Gallec 274,132
40 Basc 154,709
41 Llatí 137,355
42 Afrikaans 115,689
43 Gal·lès 93,027
44 Feroès 65,785
45 Frisó 63,236
46 Albanès 53,236
47 Serbi 42,848
48 Suahili 14,314

Notes

1. Les mostres de totes les dades corresponen al mes d’agost del 2003.
2. Les dades relatives al xinès inclouen pàgines escrites en xinès tradicional i xinès simplificat. Les dades del portuguès inclouen el brasiler i el portuguès.

3. Nombre relatiu de pàgines web per parlant

La següent taula mostra ordenats de major a menor el nombre de pàgines per parlant, és a dir, el nombre relatiu.

Cercador AlltheWeb
Llengua Pàgines Web (mostra) Parlants Pàgines Web per parlant
1 Islandès 1,391,302 250,000 5.57
2 Anglès 1,280,041,397 341,000,000 3.75
3 Danès 12,107,133 5,326,000 2.27
4 Holandès 41,119,851 20,000,000 2.06
5 Alemany 182,005,546 100,000,000 1.82
6 Suec 14,901,968 9,000,000 1.66
7 Noruec 8,123,301 5,000,000 1.62
8 Francès 99,737,704 72,000,000 1.39
9 Estonià 1,464,539 1,100,000 1.33
10 Txec 15,580,583 12,000,000 1.30
11 Finlandès 5,678,599 6,000,000 0.95
12 Hebreu 4,792,646 5,150,000 0.93
13 Eslovac 5,077,965 5,606,000 0.91
14 Eslovè 1,685,426 2,000,000 0.84
15 Coreà 64,606,324 78,000,000 0.83
16 Italià 41,849,365 62,000,000 0.67
17 Hongarès 8,540,941 14,500,000 0.59
18 Japonès 69,730,375 126,000,000 0.55
19 Polonès 22,154,325 44,000,000 0.50
20 Català 2,926,550 6,565,000 0.45
21 Rus 42,276,247 167,000,000 0.25
22 Portuguès 37,695,762 176,000,000 0.21
23 Espanyol 65,814,567 322,000,000 0.20
24 Grec 2,366,733 12,000,000 0.20
25 Tai 3,124,572 20,047,000 0.16
26 Croat 1,672,582 21,000,000 0.08
27 Romanès 2,052,990 26,000,000 0.08
28 Turc 4,704,212 61,000,000 0.08
29 Xinès 65,730,212 885,000,000 0.07
30 Àrab 2,470,616 213,223,637 0.01

Notes

1. Les mostres de totes les dades corresponen al mes d’agost del 2003
2. Les dades del nombre de parlants provenen d’Ethnologue
3. Les dades relatives al xinès inclouen pàgines escrites en xinès tradicional i xinès simplificat. Les dades del portuguès inclouen el brasiler i el portuguès.
4. Les dades sobre el nombre de parlants del català varien segons les fonts (vegeu Generalitat de Catalunya). S’ha decidit usar les dades provinents d’Ethnologue per a totes les llengües i no fer cap modificació per cap llengua. Cal destacar que Ethnologue considera el nombre de parlants que tenen una llengua com a materna.

Conclusió

A tall de conclusió, podem afirmar que el català és en l’any 2003 la vint-i-tresena llengua a Internet. Els mitjans que tenim a dia d’avui per mesurar la seva presència respecte els mitjans existents en l’any 2000 quan es va fer l’estudi de Vilaweb han millorat considerablement. Els cercadors actuals tenen més pàgines web indexades, és a dir una mostra més gran, i els seus algorismes de detecció de llengües han millorat considerablement en els últims tres anys.

Més que un retrocés respecte l’any 2000, pensem que els mitjans tècnics que hi havia l’any 2000 eren inferiors, que en aquell moment el català va obtenir una posició millor de la que li corresponia i que les dades del present article es corresponen més a la realitat actual.

Nota de l’autor. El meu especialment agraïment a Mercè Romagosa, i a Xavier Rull, Emi Miró i Francesc Dorca de Softcatalà pels seus suggeriments.

Referències

[1] Informació donada oralment per en Vibhu Mittal durant la conferència al Centre de Cultura Contemporània de Barcelona durant el juliol del 2003. Vegeu també http://www.searchengineshowdown.com/stats/size.shtml  per a més informació sobre el nombre de pàgines indexades per a cada cercador.


Bibliografia recomanada

Informe de Vilaweb sobre  la presència del català l’any 2000
http://www.vilaweb.com/especials/5anys/enquesta.html

Observatori de les llengües i cultures de Funredes
http://www.funredes.org/LC/

Anàlisis d’Alis de les llengües a Internet (1997)
http://babel.alis.com/palmares.html

Les llengües del món
http://www.ethnologue.com/

Millan, José Antonio. (2001): Internet y el Español
Fundación Retevision


Comentaris