La salut del català a Internet el 2005

Compartiu


Per Jordi Mas i Hernàndez/ jmas@softcatala.org
15/10/2005

1. Introducció

Aquest article és una revisió de l’informe publicat l’any 2003 sobre la presència de la llengua catalana a Internet. S’ha cregut necessari, després de més dos anys –i això és molt de temps a Internet–, fer una revisió d’aquestes dades i actualitzar-les amb el màxim rigor possible.

Determinar amb exactitud la presència d’una llengua a Internet és una tasca complexa i fora de l’abast dels mitjans tècnics i humans de què disposem a Softcatalà. Internet no és només la web, hi ha multitud d’espais sensibles a les llengües, com ara el correu electrònic, els xats, els grups de discussió o la missatgeria instantània, que són difícils de mesurar, quan no impossibles, sense la col·laboració dels proveïdors d’accés a la Xarxa. En aquest article ens centrarem en mesurar la presència del català a la web.

2. Mètode utilitzat

Per a l’elaboració d’aquest article s’ha utilitzat la base de dades del cercador Google. Bàsicament, s’ha intentat interrogar amb la màxima fiabilitat possible la quantitat de pàgines web que té indexades per a cada llengua. S’ha utilitzat la tècnica anomenada “complement del conjunt buit” que es basa en cercar paraules no existents en una llengua per a determinar el nombre de pàgines indexades.

Aquestes dades són una mesura molt eficaç de la presència del català a Internet. En qualsevol cas, és important tenir presents els punts següents:

– L’informe de l’any 2003 es va fer usant el cercador AllTheWeb, mentre que l’actual s’ha realitzat amb el cercador Google. Això és un canvi força important, ja que les llengües comparades, així com la tecnologia sobre la que es basen els dos cercadors, són sensiblement diferents.

– El sistema utilitzat per Google per a determinar la llengua d’una pàgina es basa principalment en la freqüència d’aparició de determinats mots en les pàgines (term frequency). Aquests sistemes no són totalment fiables, ja que en pàgines petites, o per a llengües properes (com ara l’occità i el català), la detecció de la llengua pot ser incorrecta.

2. Dades sobre la presència del català a Internet (octubre 2005)

Aquestes són les dades que mostren la presència del català a Internet segons el cercador Google el mes d’octubre de 2005.

Cercador Google
Llengua Pàgines l’octubre 2005 Pàgines l’agost 2003
1 Anglès 9.200.000.000 1.280.041.397
2 Francès 202.000.000 99.737.704
3 Alemany 184.000.000 182.005.546
4 Japonès 150.000.000 69.730.375
5 Castellà 133.000.000 65.814.567
6 Xinès 74.700.000 65.730.212
7 Italià 68.400.000 41.849.365
8 Holandès 54.300.000 41.119.851
9 Portuguès 44.000.000 37.695.762
10 Rus 43.200.000 42.276.247
11 Suec 42.100.000 14.901.968
12 Noruec 28.700.000 8.123.301
13 Txec 26.700.000 15.580.583
14 Finès 26.200.000 5.678.599
15 Coreà 24.400.000 64.606.324
16 Polonès 23.800.000 22.154.325
17 Danès 22.200.000 12.107.133
18 Hongarès 15.100.000 8.540.941
19 Àrab 12.600.000 2.470.616
20 Turc 11.200.000 4.704.212
21 Hebreu 10.100.000 4.792.646
22 Grec 9.230.000 2.366.733
23 Indonesi 8.660.000 1.044.038
24 Croat 7.950.000 1.672.582
25 Romanès 7.250.000 2.052.990
26 Català 7.140.000 2.926.550
27 Eslovè 6.950.000 1.685.426
28 Estonià 6.510.000 1.464.539
29 Eslovac 6.130.000 5.077.965
30 Letó 5.750.000 559.913
31 Lituà 5.720.000 1.078.341
32 Islandès 5.250.000 1.391.302
33 Búlgar 3.810.000 1.120.713
34 Serbi 3.340.000 42.848

Notes

1. Les dades relatives al xinès inclouen les pàgines escrites en xinès tradicional i xinès simplificat.

3. Nombre relatiu de pàgines web per parlant

La taula següent mostra, de més gran a més petit, el nombre de pàgines per parlant, és a dir, el seu nombre relatiu.

Cercador Google
Llengua Pàgines web (mostra) Parlants Pàgines per parlant
1 Anglès 9.200.000.000 341.000.000 26,98
2 Islandès 5.250.000 250.000 21,00
3 Estonià 6.510.000 1.100.000 5,92
4 Noruec 28.700.000 5.000.000 5,74
5 Suec 42.100.000 9.000.000 4,68
6 Finès 26.200.000 6.000.000 4,37
7 Danès 22.200.000 5.326.000 4,17
8 Letó 5.750.000 1.543.844 3,72
9 Eslovè 6.950.000 2.000.000 3,48
10 Francès 202.000.000 72.000.000 2,81
11 Holandès 54.300.000 20.000.000 2,72
12 Txec 26.700.000 12.000.000 2,23
13 Hebreu 10.100.000 5.150.000 1,96
14 Alemany 184.000.000 100.000.000 1,84
15 Lituà 572.0000 3.125.281 1,83
16 Japonès 150.000.000 126.000.000 1,19
17 Italià 68.400.000 62.000.000 1,10
18 Eslovac 6.130.000 5.606.000 1,09
19 Català 7.140.000 6.565.000 1,09
20 Hongarès 15.100.000 145.00.000 1,04
21 Grec 9.230.000 12.000.000 0,77
22 Polonès 23.800.000 44.000.000 0,54
23 Búlgar 3.810.000 8.954.811 0,43
24 Castellà 133.000.000 322.000.000 0,41
25 Croat 7.950.000 21.000.000 0,38
26 Indonesi 8.660.000 23.143.354 0,37
27 Coreà 24.400.000 78.000.000 0,31
28 Serbi 3.340.000 11.144.758 0,30
29 Romanès 7.250.000 26.000.000 0,28
30 Rus 43.200.000 167.000.000 0,26
31 Portuguès 44.000.000 176.000.000 0,25
32 Turc 11.200.000 61.000.000 0,18
33 Xinès 74.700.000 885.000.000 0,08
34 Àrab 12.600.000 213.223.637 0,06

Notes

1. Les dades del nombre de parlants provenen d’Ethnologue
2. Les dades relatives al xinès inclouen pàgines escrites en xinès tradicional i en xinès simplificat.
3. Les dades sobre el nombre de parlants del català varien segons les fonts (vegeu Generalitat de Catalunya). S’ha decidit usar les dades provinents d’Ethnologue per a totes les llengües i no fer cap modificació per a cap d’elles. Cal destacar que Ethnologue considera solament el nombre de parlants que tenen una llengua com a materna.

Conclusió

A tall de conclusió, podem afirmar que, en menys de dos anys, s’ha doblat el nombre de pàgines web indexades en català, i que el català, segons aquest estudi, és avui dia la vint-i-sisena llengua a Internet. Cal remarcar que l’increment de pàgines web és degut en part a que els cercadors actuals tenen més pàgines web indexades que l’any 2003.

El català a Internet continua amb una forta posició respecte a altres llengües, i la popularització dels blocs en llengua catalana ha suposat també un increment important del nombre de pàgines disponibles.

Bibliografia recomanada

Informe de Vilaweb sobre la presència del català l’any 2000
http://www.vilaweb.com/especials/5anys/enquesta.html

Informe de Softcatalà sobre la presència del català l’any 2003
http://www.softcatala.org/articles/article26.htm

Baròmetre de l’ús del català a Internet
http://wiccac.org/hist_resums.html

Observatori de les llengües i cultures de Funredes
http://www.funredes.org/LC/

Anàlisis d’Alis de les llengües a Internet (1997)
http://babel.alis.com/palmares.html

Les llengües del món
http://www.ethnologue.com/

Millan, José Antonio. (2001): Internet y el español
Fundación Retevisión


Comentaris