[an error occurred while processing the directive]



La salut del català a Internet
Per Jordi Mas i Hernàndez/ jmas@softcatala.org
2/09/2003


1. Introducció

Aquest article és una revisió de l'informe publicat l'any 2000 per Vilaweb sobre la presència de la llengua catalana a Internet. S'ha cregut necessari després de més tres anys --i això és molt de temps a Internet-- fer una revisió d'aquestes dades i actualitzar-les amb el major rigor possible.

Determinar amb exactitud la presència d'una llengua a Internet és una tasca complexa i fora de l'abast dels mitjans tècnics i humans dels quals disposem des de Softcatalà. Internet no és només la web, hi ha multitud d'espais sensibles a les llengües com ara el correu electrònic, els xats, els grups de discussió, o la missatgeria instantània que són difícils de mesurar, quan no impossibles, sense la col·laboració dels proveïdors d'accés a la Xarxa. En aquest article ens centrarem en mesurar la presència del català a la web.

2. Mètode utilitzat

Per a l'elaboració d'aquest article s'ha utilitzat la base de dades del cercador AllTheWeb que és el cercador que té un suport més desenvolupat quant a eines lingüístiques. Bàsicament, s'ha intentat interrogar amb la màxima fiabilitat possible la quantitat de pàgines web que té indexades per a cada llengua. S'ha utilitzat la tècnica anomenada complement del conjunt buit que es basa en cercar paraules no existents en una llengua per determinar el nombre de pàgines indexades.

Aquestes dades són una mesura molt eficaç de la presència del català a Internet. En qualsevol cas és important tenir present els següents punts:

- Actualment, segons estimacions de Google, es calcula que la web té entre 9.000 i 12.000 milions de pàgines web. Google només n'indexa uns 3.000 milions i AllTheweb uns 2.100, però també es calcula que hi ha un alt índex de pàgines repetides (pàgines mirall per exemple) entre les que encara cal indexar. Es considera també, que les llengües asiàtiques, especialment el xinès,  tenen un nombre molt alt de pàgines web encara per indexar respecte les altres llengües[1].

- L'informe original de Vilaweb del 2000 on el català hi apareixia com a dinovena llengua no tenia en compte llengües com l'indonesi, el tai, l'estoni o el croat perquè AllTheweb en aquella època no era capaç d'identificar-les.

- El sistema que usa Alltheweb  per determinar la llengua d'una pàgina es basa principalment en la freqüència d'aparició de certs mots en les pàgines (term frequency). Aquests sistemes no són totalment fiables ja que per a pàgines petites o per llengües properes (com l'occità i el català o el gallec i el portuguès per exemple) poden errar en la detecció de la llengua.

2. Dades sobre la presència del català a Internet (agost 2003)

Aquestes són les dades que mostren la presència del català a Intenet segons el cercador AllTheWeb al mes d'agost del 2003.



Cercador AlltheWeb

Llengua Pàgines Web (mostra)
1
Anglès
1,280,041,397
2
Alemany 182,005,546
3
Francès 99,737,704
4
Japonès 69,730,375
5
Espanyol
65,814,567
6
Xinès
65,730,212
7
Coreà
64,606,324
8
Rus
42,276,247
9
Italià
41,849,365
10 Holandès
41,119,851
11
Portuguès
37,695,762
12
Polonès
22,154,325
13
Txec
15,580,583
14
Suec
14,901,968
15
Danès
12,107,133
16
Hongarès 
8,540,941
17
Noruec
8,123,301
18
Finlandès
5,678,599
19
Eslovac 5,077,965
20
Hebreu
4,792,646
21
Turc
4,704,212
22
Tai
3,124,572
23
Català
2,926,550
24
Àrab
2,470,616
25
Grec
2,366,733
26
Romanès
2,052,990
27
Eslovè
1,685,426
28
Croat
1,672,582
29
Estonià 1,464,539
30
Islandès 1,391,302
31
Búlgar
1,120,713
32
Lituà
1,078,341
33
Indonesi
1,044,038
34
Ucraïnès
1,014,537
35
Letó
559,913
36
Bielorús
535,697
37
Vietnamita
390,164
38
Malai
327,947
39
Gallec
274,132
40
Basc
154,709
41
Llatí
137,355
42
Afrikaans
115,689
43
Gal·lès
93,027
44
Feroès
65,785
45
Frisó
63,236
46
Albanès
53,236
47
Serbi
42,848
48
Suahili
14,314

Notes
1. Les mostres de totes les dades corresponen al mes d'agost del 2003.
2. Les dades relatives al xinès inclouen pàgines escrites en xinès tradicional i xinès simplificat. Les dades del portuguès inclouen el brasiler i el portuguès.

3. Nombre relatiu de pàgines web per parlant

La següent taula mostra ordenats de major a menor el nombre de pàgines per parlant, és a dir, el nombre relatiu.


Cercador AlltheWeb

Llengua Pàgines Web (mostra) Parlants Pàgines Web per parlant
1
Islandès 1,391,302
250,000
5.57
2
Anglès
1,280,041,397
341,000,000
3.75
3
Danès
12,107,133
5,326,000
2.27
4
Holandès
41,119,851
20,000,000
2.06
5
Alemany
182,005,546
100,000,000
1.82
6
Suec
14,901,968
9,000,000
1.66
7
Noruec
8,123,301
5,000,000
1.62
8
Francès
99,737,704
72,000,000
1.39
9
Estonià 1,464,539
1,100,000
1.33
10
Txec
15,580,583
12,000,000
1.30
11
Finlandès 5,678,599
6,000,000
0.95
12
Hebreu
4,792,646
5,150,000
0.93
13
Eslovac 5,077,965
5,606,000
0.91
14
Eslovè
1,685,426
2,000,000
0.84
15
Coreà
64,606,324
78,000,000
0.83
16
Italià
41,849,365
62,000,000
0.67
17
Hongarès
8,540,941
14,500,000
0.59
18
Japonès
69,730,375
126,000,000
0.55
19
Polonès
22,154,325
44,000,000
0.50
20
Català
2,926,550
6,565,000
0.45
21
Rus
42,276,247
167,000,000
0.25
22
Portuguès
37,695,762
176,000,000
0.21
23
Espanyol
65,814,567
322,000,000
0.20
24
Grec
2,366,733
12,000,000
0.20
25
Tai
3,124,572
20,047,000
0.16
26
Croat
1,672,582
21,000,000
0.08
27
Romanès
2,052,990
26,000,000
0.08
28
Turc
4,704,212
61,000,000
0.08
29
Xinès
65,730,212
885,000,000
0.07
30
Àrab
2,470,616
213,223,637
0.01

Notes
1. Les mostres de totes les dades corresponen al mes d'agost del 2003
2. Les dades del nombre de parlants provenen d'Ethnologue
3. Les dades relatives al xinès inclouen pàgines escrites en xinès tradicional i xinès simplificat. Les dades del portuguès inclouen el brasiler i el portuguès.
4. Les dades sobre el nombre de parlants del català varien segons les fonts (vegeu Generalitat de Catalunya). S'ha decidit usar les dades provinents d'Ethnologue per a totes les llengües i no fer cap modificació per cap llengua. Cal destacar que Ethnologue considera el nombre de parlants que tenen una llengua com a materna.
Conclusió

A tall de conclusió, podem afirmar que el català és en l'any 2003 la vint-i-tresena llengua a Internet. Els mitjans que tenim a dia d'avui per mesurar la seva presència respecte els mitjans existents en l'any 2000 quan es va fer l'estudi de Vilaweb han millorat considerablement. Els cercadors actuals tenen més pàgines web indexades, és a dir una mostra més gran, i els seus algorismes de detecció de llengües han millorat considerablement en els últims tres anys.

Més que un retrocés respecte l'any 2000, pensem que els mitjans tècnics que hi havia l'any 2000 eren inferiors, que en aquell moment el català va obtenir una posició millor de la que li corresponia i que les dades del present article es corresponen més a la realitat actual.

Nota de l'autor. El meu especialment agraïment a Mercè Romagosa, i a Xavier Rull, Emi Miró i Francesc Dorca de Softcatalà pels seus suggeriments.

Referències

[1] Informació donada oralment per en Vibhu Mittal durant la conferència al Centre de Cultura Contemporània de Barcelona durant el juliol del 2003. Vegeu també http://www.searchengineshowdown.com/stats/size.shtml  per a més informació sobre el nombre de pàgines indexades per a cada cercador.


Bibliografia recomanada

Informe de Vilaweb sobre  la presència del català l'any 2000
http://www.vilaweb.com/especials/5anys/enquesta.html

Observatori de les llengües i cultures de Funredes
http://www.funredes.org/LC/

Anàlisis d'Alis de les llengües a Internet (1997)
http://babel.alis.com/palmares.html

Les llengües del món
http://www.ethnologue.com/

Millan, José Antonio. (2001): Internet y el Español
Fundación Retevision


 



[an error occurred while processing the directive]