|
1. Introducció
Aquest article és una revisió de l'informe
publicat l'any 2000 per Vilaweb sobre la presència de la
llengua catalana a Internet. S'ha cregut necessari després de
més tres anys --i això és molt de temps a
Internet-- fer una revisió d'aquestes dades i actualitzar-les
amb
el major rigor possible.
Determinar amb exactitud la presència d'una
llengua a Internet és una tasca complexa i fora de l'abast dels
mitjans tècnics i humans dels quals disposem des de
Softcatalà. Internet no és només la web, hi ha
multitud d'espais sensibles a les llengües com ara el correu
electrònic, els xats, els grups de discussió, o la
missatgeria instantània que són difícils de
mesurar, quan no impossibles, sense la col·laboració dels
proveïdors d'accés a la Xarxa. En aquest article ens
centrarem en mesurar la presència del català a la web.
2. Mètode
utilitzat
Per a l'elaboració d'aquest article s'ha utilitzat la base de
dades del cercador AllTheWeb
que és el cercador que té un
suport més desenvolupat quant a eines lingüístiques.
Bàsicament, s'ha intentat interrogar amb la màxima
fiabilitat possible la quantitat de pàgines web que té
indexades per a cada llengua. S'ha utilitzat la tècnica
anomenada
complement del conjunt buit que es basa en cercar paraules no existents
en una llengua per determinar el nombre de pàgines indexades.
Aquestes dades són una mesura molt
eficaç de la presència del català a Internet. En
qualsevol cas és important tenir present els següents punts:
- Actualment, segons estimacions de Google, es calcula que la web
té entre 9.000 i 12.000 milions de pàgines web. Google
només n'indexa uns 3.000 milions i AllTheweb uns 2.100,
però també es calcula que hi ha un alt índex de
pàgines repetides (pàgines mirall per exemple) entre les
que encara cal indexar. Es considera també, que les
llengües
asiàtiques, especialment el xinès, tenen un nombre
molt alt de pàgines web encara per indexar respecte les altres
llengües[1].
- L'informe original de Vilaweb del 2000 on el català hi
apareixia com a dinovena llengua no tenia en compte llengües com
l'indonesi, el tai, l'estoni o el croat perquè AllTheweb en
aquella època no era capaç d'identificar-les.
- El sistema que usa Alltheweb per determinar la llengua
d'una pàgina es basa principalment en la freqüència
d'aparició de certs mots en les pàgines (term frequency). Aquests sistemes
no són totalment fiables ja que per a pàgines petites o
per
llengües properes (com l'occità i el català o el
gallec i el portuguès per exemple) poden errar en la
detecció de la llengua.
2. Dades sobre la
presència del català a Internet (agost 2003)
Aquestes són les dades que mostren la
presència del català a Intenet segons el cercador AllTheWeb al mes d'agost del 2003.
|
Cercador
AlltheWeb
|
|
Llengua |
Pàgines
Web (mostra)
|
1
|
Anglès
|
1,280,041,397
|
2
|
Alemany |
182,005,546
|
3
|
Francès |
99,737,704
|
4
|
Japonès |
69,730,375
|
5
|
Espanyol
|
65,814,567
|
6
|
Xinès
|
65,730,212
|
7
|
Coreà
|
64,606,324
|
8
|
Rus
|
42,276,247
|
9
|
Italià
|
41,849,365
|
| 10 |
Holandès
|
41,119,851
|
11
|
Portuguès
|
37,695,762
|
12
|
Polonès
|
22,154,325
|
13
|
Txec
|
15,580,583
|
14
|
Suec
|
14,901,968
|
15
|
Danès
|
12,107,133
|
16
|
Hongarès
|
8,540,941
|
17
|
Noruec
|
8,123,301
|
18
|
Finlandès
|
5,678,599
|
19
|
Eslovac |
5,077,965
|
20
|
Hebreu
|
4,792,646
|
21
|
Turc
|
4,704,212
|
22
|
Tai
|
3,124,572
|
23
|
Català
|
2,926,550
|
24
|
Àrab
|
2,470,616
|
25
|
Grec
|
2,366,733
|
26
|
Romanès
|
2,052,990
|
27
|
Eslovè
|
1,685,426
|
28
|
Croat
|
1,672,582
|
29
|
Estonià |
1,464,539
|
30
|
Islandès |
1,391,302
|
31
|
Búlgar
|
1,120,713
|
32
|
Lituà
|
1,078,341
|
33
|
Indonesi
|
1,044,038
|
34
|
Ucraïnès
|
1,014,537
|
35
|
Letó
|
559,913
|
36
|
Bielorús
|
535,697
|
37
|
Vietnamita
|
390,164
|
38
|
Malai
|
327,947
|
39
|
Gallec
|
274,132
|
40
|
Basc
|
154,709
|
41
|
Llatí
|
137,355
|
42
|
Afrikaans
|
115,689
|
43
|
Gal·lès
|
93,027
|
44
|
Feroès
|
65,785
|
45
|
Frisó
|
63,236
|
46
|
Albanès
|
53,236
|
47
|
Serbi
|
42,848
|
48
|
Suahili
|
14,314
|
Notes
1. Les mostres de totes les dades
corresponen al mes d'agost del 2003.
2. Les dades relatives
al xinès inclouen pàgines escrites en xinès
tradicional i xinès simplificat. Les dades del portuguès
inclouen el brasiler i el portuguès.
3. Nombre relatiu de
pàgines web per parlant
La següent taula mostra ordenats de major a
menor el nombre de pàgines per parlant, és a dir, el
nombre relatiu.
|
Cercador
AlltheWeb
|
|
Llengua |
Pàgines
Web (mostra) |
Parlants |
Pàgines
Web per parlant
|
1
|
Islandès |
1,391,302
|
250,000
|
5.57
|
2
|
Anglès
|
1,280,041,397
|
341,000,000
|
3.75
|
3
|
Danès
|
12,107,133
|
5,326,000
|
2.27
|
4
|
Holandès
|
41,119,851
|
20,000,000
|
2.06
|
5
|
Alemany
|
182,005,546
|
100,000,000
|
1.82
|
6
|
Suec
|
14,901,968
|
9,000,000
|
1.66
|
7
|
Noruec
|
8,123,301
|
5,000,000
|
1.62
|
8
|
Francès
|
99,737,704
|
72,000,000
|
1.39
|
9
|
Estonià |
1,464,539
|
1,100,000
|
1.33
|
10
|
Txec
|
15,580,583
|
12,000,000
|
1.30
|
11
|
Finlandès |
5,678,599
|
6,000,000
|
0.95
|
12
|
Hebreu
|
4,792,646
|
5,150,000
|
0.93
|
13
|
Eslovac |
5,077,965
|
5,606,000
|
0.91
|
14
|
Eslovè
|
1,685,426
|
2,000,000
|
0.84
|
15
|
Coreà
|
64,606,324
|
78,000,000
|
0.83
|
16
|
Italià
|
41,849,365
|
62,000,000
|
0.67
|
17
|
Hongarès
|
8,540,941
|
14,500,000
|
0.59
|
18
|
Japonès
|
69,730,375
|
126,000,000
|
0.55
|
19
|
Polonès
|
22,154,325
|
44,000,000
|
0.50
|
20
|
Català
|
2,926,550
|
6,565,000
|
0.45
|
21
|
Rus
|
42,276,247
|
167,000,000
|
0.25
|
22
|
Portuguès
|
37,695,762
|
176,000,000
|
0.21
|
23
|
Espanyol
|
65,814,567
|
322,000,000
|
0.20
|
24
|
Grec
|
2,366,733
|
12,000,000
|
0.20
|
25
|
Tai
|
3,124,572
|
20,047,000
|
0.16
|
26
|
Croat
|
1,672,582
|
21,000,000
|
0.08
|
27
|
Romanès
|
2,052,990
|
26,000,000
|
0.08
|
28
|
Turc
|
4,704,212
|
61,000,000
|
0.08
|
29
|
Xinès
|
65,730,212
|
885,000,000
|
0.07
|
30
|
Àrab
|
2,470,616
|
213,223,637
|
0.01
|
Notes
1.
Les mostres de totes les dades corresponen al mes d'agost del 2003
2. Les dades del nombre de parlants provenen d'Ethnologue
3. Les dades relatives al xinès inclouen
pàgines escrites en xinès tradicional i xinès
simplificat. Les dades del portuguès inclouen el brasiler i el
portuguès.
4. Les dades sobre el nombre de parlants del català varien
segons les fonts (vegeu Generalitat
de Catalunya). S'ha decidit usar les dades provinents d'Ethnologue
per a totes les llengües i no fer cap modificació per cap
llengua. Cal destacar que Ethnologue considera el nombre de parlants
que
tenen una llengua com a materna.
Conclusió
A tall de conclusió, podem afirmar que el
català és en l'any 2003 la vint-i-tresena llengua a
Internet. Els mitjans que tenim a dia d'avui per mesurar la seva
presència respecte els mitjans existents en l'any 2000 quan es
va
fer l'estudi de Vilaweb han millorat considerablement. Els cercadors
actuals tenen més pàgines web indexades, és a dir
una mostra més gran, i els seus algorismes de detecció de
llengües han millorat considerablement en els últims tres
anys.
Més que un retrocés respecte l'any 2000, pensem que els
mitjans tècnics que hi havia l'any 2000 eren inferiors, que en
aquell moment el català va obtenir una posició millor de
la que li corresponia i que les dades del present article es
corresponen més a la realitat actual.
Nota de l'autor. El
meu
especialment agraïment a Mercè Romagosa, i a Xavier Rull,
Emi Miró i
Francesc Dorca de
Softcatalà pels seus suggeriments.
Referències
[1] Informació
donada oralment per en Vibhu Mittal durant la conferència al
Centre de Cultura Contemporània de Barcelona durant el juliol
del
2003. Vegeu també http://www.searchengineshowdown.com/stats/size.shtml
per a més informació sobre el nombre de pàgines
indexades per a cada cercador.
Bibliografia recomanada
Informe de Vilaweb sobre la presència del
català l'any 2000
http://www.vilaweb.com/especials/5anys/enquesta.html
Observatori de les llengües i cultures de Funredes
http://www.funredes.org/LC/
Anàlisis d'Alis de les llengües a Internet
(1997)
http://babel.alis.com/palmares.html
Les llengües del món
http://www.ethnologue.com/
Millan, José Antonio. (2001): Internet y el
Español
Fundación Retevision
|