Per Jordi Mas i Hernàndez/ jmas@softcatala.org
2/09/2003
1. Introducció
Aquest article és una revisió de l’informe publicat l’any 2000 per Vilaweb sobre la presència de la llengua catalana a Internet. S’ha cregut necessari després de més tres anys –i això és molt de temps a Internet– fer una revisió d’aquestes dades i actualitzar-les amb el major rigor possible.
Determinar amb exactitud la presència d’una llengua a Internet és una tasca complexa i fora de l’abast dels mitjans tècnics i humans dels quals disposem des de Softcatalà. Internet no és només la web, hi ha multitud d’espais sensibles a les llengües com ara el correu electrònic, els xats, els grups de discussió, o la missatgeria instantània que són difícils de mesurar, quan no impossibles, sense la col·laboració dels proveïdors d’accés a la Xarxa. En aquest article ens centrarem en mesurar la presència del català a la web.
2. Mètode utilitzat
Per a l’elaboració d’aquest article s’ha utilitzat la base de dades del cercador AllTheWeb que és el cercador que té un suport més desenvolupat quant a eines lingüístiques. Bàsicament, s’ha intentat interrogar amb la màxima fiabilitat possible la quantitat de pàgines web que té indexades per a cada llengua. S’ha utilitzat la tècnica anomenada complement del conjunt buit que es basa en cercar paraules no existents en una llengua per determinar el nombre de pàgines indexades.
Aquestes dades són una mesura molt eficaç de la presència del català a Internet. En qualsevol cas és important tenir present els següents punts:
– Actualment, segons estimacions de Google, es calcula que la web té entre 9.000 i 12.000 milions de pàgines web. Google només n’indexa uns 3.000 milions i AllTheweb uns 2.100, però també es calcula que hi ha un alt índex de pàgines repetides (pàgines mirall per exemple) entre les que encara cal indexar. Es considera també, que les llengües asiàtiques, especialment el xinès, tenen un nombre molt alt de pàgines web encara per indexar respecte les altres llengües[1].
– L’informe original de Vilaweb del 2000 on el català hi apareixia com a dinovena llengua no tenia en compte llengües com l’indonesi, el tai, l’estoni o el croat perquè AllTheweb en aquella època no era capaç d’identificar-les.
– El sistema que usa Alltheweb per determinar la llengua d’una pàgina es basa principalment en la freqüència d’aparició de certs mots en les pàgines (term frequency). Aquests sistemes no són totalment fiables ja que per a pàgines petites o per llengües properes (com l’occità i el català o el gallec i el portuguès per exemple) poden errar en la detecció de la llengua.
2. Dades sobre la presència del català a Internet (agost 2003)
Aquestes són les dades que mostren la presència del català a Intenet segons el cercador AllTheWeb al mes d’agost del 2003.
Cercador AlltheWeb | ||
Llengua | Pàgines Web (mostra) | |
1 | Anglès | 1,280,041,397 |
2 | Alemany | 182,005,546 |
3 | Francès | 99,737,704 |
4 | Japonès | 69,730,375 |
5 | Espanyol | 65,814,567 |
6 | Xinès | 65,730,212 |
7 | Coreà | 64,606,324 |
8 | Rus | 42,276,247 |
9 | Italià | 41,849,365 |
10 | Holandès | 41,119,851 |
11 | Portuguès | 37,695,762 |
12 | Polonès | 22,154,325 |
13 | Txec | 15,580,583 |
14 | Suec | 14,901,968 |
15 | Danès | 12,107,133 |
16 | Hongarès | 8,540,941 |
17 | Noruec | 8,123,301 |
18 | Finlandès | 5,678,599 |
19 | Eslovac | 5,077,965 |
20 | Hebreu | 4,792,646 |
21 | Turc | 4,704,212 |
22 | Tai | 3,124,572 |
23 | Català | 2,926,550 |
24 | Àrab | 2,470,616 |
25 | Grec | 2,366,733 |
26 | Romanès | 2,052,990 |
27 | Eslovè | 1,685,426 |
28 | Croat | 1,672,582 |
29 | Estonià | 1,464,539 |
30 | Islandès | 1,391,302 |
31 | Búlgar | 1,120,713 |
32 | Lituà | 1,078,341 |
33 | Indonesi | 1,044,038 |
34 | Ucraïnès | 1,014,537 |
35 | Letó | 559,913 |
36 | Bielorús | 535,697 |
37 | Vietnamita | 390,164 |
38 | Malai | 327,947 |
39 | Gallec | 274,132 |
40 | Basc | 154,709 |
41 | Llatí | 137,355 |
42 | Afrikaans | 115,689 |
43 | Gal·lès | 93,027 |
44 | Feroès | 65,785 |
45 | Frisó | 63,236 |
46 | Albanès | 53,236 |
47 | Serbi | 42,848 |
48 | Suahili | 14,314 |
Notes
1. Les mostres de totes les dades corresponen al mes d’agost del 2003.
2. Les dades relatives al xinès inclouen pàgines escrites en xinès tradicional i xinès simplificat. Les dades del portuguès inclouen el brasiler i el portuguès.
3. Nombre relatiu de pàgines web per parlant
La següent taula mostra ordenats de major a menor el nombre de pàgines per parlant, és a dir, el nombre relatiu.
Cercador AlltheWeb | ||||
Llengua | Pàgines Web (mostra) | Parlants | Pàgines Web per parlant | |
1 | Islandès | 1,391,302 | 250,000 | 5.57 |
2 | Anglès | 1,280,041,397 | 341,000,000 | 3.75 |
3 | Danès | 12,107,133 | 5,326,000 | 2.27 |
4 | Holandès | 41,119,851 | 20,000,000 | 2.06 |
5 | Alemany | 182,005,546 | 100,000,000 | 1.82 |
6 | Suec | 14,901,968 | 9,000,000 | 1.66 |
7 | Noruec | 8,123,301 | 5,000,000 | 1.62 |
8 | Francès | 99,737,704 | 72,000,000 | 1.39 |
9 | Estonià | 1,464,539 | 1,100,000 | 1.33 |
10 | Txec | 15,580,583 | 12,000,000 | 1.30 |
11 | Finlandès | 5,678,599 | 6,000,000 | 0.95 |
12 | Hebreu | 4,792,646 | 5,150,000 | 0.93 |
13 | Eslovac | 5,077,965 | 5,606,000 | 0.91 |
14 | Eslovè | 1,685,426 | 2,000,000 | 0.84 |
15 | Coreà | 64,606,324 | 78,000,000 | 0.83 |
16 | Italià | 41,849,365 | 62,000,000 | 0.67 |
17 | Hongarès | 8,540,941 | 14,500,000 | 0.59 |
18 | Japonès | 69,730,375 | 126,000,000 | 0.55 |
19 | Polonès | 22,154,325 | 44,000,000 | 0.50 |
20 | Català | 2,926,550 | 6,565,000 | 0.45 |
21 | Rus | 42,276,247 | 167,000,000 | 0.25 |
22 | Portuguès | 37,695,762 | 176,000,000 | 0.21 |
23 | Espanyol | 65,814,567 | 322,000,000 | 0.20 |
24 | Grec | 2,366,733 | 12,000,000 | 0.20 |
25 | Tai | 3,124,572 | 20,047,000 | 0.16 |
26 | Croat | 1,672,582 | 21,000,000 | 0.08 |
27 | Romanès | 2,052,990 | 26,000,000 | 0.08 |
28 | Turc | 4,704,212 | 61,000,000 | 0.08 |
29 | Xinès | 65,730,212 | 885,000,000 | 0.07 |
30 | Àrab | 2,470,616 | 213,223,637 | 0.01 |
Notes
1. Les mostres de totes les dades corresponen al mes d’agost del 2003
2. Les dades del nombre de parlants provenen d’Ethnologue
3. Les dades relatives al xinès inclouen pàgines escrites en xinès tradicional i xinès simplificat. Les dades del portuguès inclouen el brasiler i el portuguès.
4. Les dades sobre el nombre de parlants del català varien segons les fonts (vegeu Generalitat de Catalunya). S’ha decidit usar les dades provinents d’Ethnologue per a totes les llengües i no fer cap modificació per cap llengua. Cal destacar que Ethnologue considera el nombre de parlants que tenen una llengua com a materna.
Conclusió
A tall de conclusió, podem afirmar que el català és en l’any 2003 la vint-i-tresena llengua a Internet. Els mitjans que tenim a dia d’avui per mesurar la seva presència respecte els mitjans existents en l’any 2000 quan es va fer l’estudi de Vilaweb han millorat considerablement. Els cercadors actuals tenen més pàgines web indexades, és a dir una mostra més gran, i els seus algorismes de detecció de llengües han millorat considerablement en els últims tres anys.
Més que un retrocés respecte l’any 2000, pensem que els mitjans tècnics que hi havia l’any 2000 eren inferiors, que en aquell moment el català va obtenir una posició millor de la que li corresponia i que les dades del present article es corresponen més a la realitat actual.
Nota de l’autor. El meu especialment agraïment a Mercè Romagosa, i a Xavier Rull, Emi Miró i Francesc Dorca de Softcatalà pels seus suggeriments.
Referències
[1] Informació donada oralment per en Vibhu Mittal durant la conferència al Centre de Cultura Contemporània de Barcelona durant el juliol del 2003. Vegeu també http://www.searchengineshowdown.com/stats/size.shtml per a més informació sobre el nombre de pàgines indexades per a cada cercador.
Bibliografia recomanada
Informe de Vilaweb sobre la presència del català l’any 2000
http://www.vilaweb.com/especials/5anys/enquesta.html
Observatori de les llengües i cultures de Funredes
http://www.funredes.org/LC/
Anàlisis d’Alis de les llengües a Internet (1997)
http://babel.alis.com/palmares.html
Les llengües del món
http://www.ethnologue.com/
Millan, José Antonio. (2001): Internet y el Español
Fundación Retevision