Per Jordi Mas i Hernàndez/ jmas@softcatala.org
15/10/2005
1. Introducció
Aquest article és una revisió de l’informe publicat l’any 2003 sobre la presència de la llengua catalana a Internet. S’ha cregut necessari, després de més dos anys –i això és molt de temps a Internet–, fer una revisió d’aquestes dades i actualitzar-les amb el màxim rigor possible.
Determinar amb exactitud la presència d’una llengua a Internet és una tasca complexa i fora de l’abast dels mitjans tècnics i humans de què disposem a Softcatalà. Internet no és només la web, hi ha multitud d’espais sensibles a les llengües, com ara el correu electrònic, els xats, els grups de discussió o la missatgeria instantània, que són difícils de mesurar, quan no impossibles, sense la col·laboració dels proveïdors d’accés a la Xarxa. En aquest article ens centrarem en mesurar la presència del català a la web.
2. Mètode utilitzat
Per a l’elaboració d’aquest article s’ha utilitzat la base de dades del cercador Google. Bàsicament, s’ha intentat interrogar amb la màxima fiabilitat possible la quantitat de pàgines web que té indexades per a cada llengua. S’ha utilitzat la tècnica anomenada “complement del conjunt buit” que es basa en cercar paraules no existents en una llengua per a determinar el nombre de pàgines indexades.
Aquestes dades són una mesura molt eficaç de la presència del català a Internet. En qualsevol cas, és important tenir presents els punts següents:
– L’informe de l’any 2003 es va fer usant el cercador AllTheWeb, mentre que l’actual s’ha realitzat amb el cercador Google. Això és un canvi força important, ja que les llengües comparades, així com la tecnologia sobre la que es basen els dos cercadors, són sensiblement diferents.
– El sistema utilitzat per Google per a determinar la llengua d’una pàgina es basa principalment en la freqüència d’aparició de determinats mots en les pàgines (term frequency). Aquests sistemes no són totalment fiables, ja que en pàgines petites, o per a llengües properes (com ara l’occità i el català), la detecció de la llengua pot ser incorrecta.
2. Dades sobre la presència del català a Internet (octubre 2005)
Aquestes són les dades que mostren la presència del català a Internet segons el cercador Google el mes d’octubre de 2005.
Cercador Google | |||
Llengua | Pàgines l’octubre 2005 | Pàgines l’agost 2003 | |
1 | Anglès | 9.200.000.000 | 1.280.041.397 |
2 | Francès | 202.000.000 | 99.737.704 |
3 | Alemany | 184.000.000 | 182.005.546 |
4 | Japonès | 150.000.000 | 69.730.375 |
5 | Castellà | 133.000.000 | 65.814.567 |
6 | Xinès | 74.700.000 | 65.730.212 |
7 | Italià | 68.400.000 | 41.849.365 |
8 | Holandès | 54.300.000 | 41.119.851 |
9 | Portuguès | 44.000.000 | 37.695.762 |
10 | Rus | 43.200.000 | 42.276.247 |
11 | Suec | 42.100.000 | 14.901.968 |
12 | Noruec | 28.700.000 | 8.123.301 |
13 | Txec | 26.700.000 | 15.580.583 |
14 | Finès | 26.200.000 | 5.678.599 |
15 | Coreà | 24.400.000 | 64.606.324 |
16 | Polonès | 23.800.000 | 22.154.325 |
17 | Danès | 22.200.000 | 12.107.133 |
18 | Hongarès | 15.100.000 | 8.540.941 |
19 | Àrab | 12.600.000 | 2.470.616 |
20 | Turc | 11.200.000 | 4.704.212 |
21 | Hebreu | 10.100.000 | 4.792.646 |
22 | Grec | 9.230.000 | 2.366.733 |
23 | Indonesi | 8.660.000 | 1.044.038 |
24 | Croat | 7.950.000 | 1.672.582 |
25 | Romanès | 7.250.000 | 2.052.990 |
26 | Català | 7.140.000 | 2.926.550 |
27 | Eslovè | 6.950.000 | 1.685.426 |
28 | Estonià | 6.510.000 | 1.464.539 |
29 | Eslovac | 6.130.000 | 5.077.965 |
30 | Letó | 5.750.000 | 559.913 |
31 | Lituà | 5.720.000 | 1.078.341 |
32 | Islandès | 5.250.000 | 1.391.302 |
33 | Búlgar | 3.810.000 | 1.120.713 |
34 | Serbi | 3.340.000 | 42.848 |
Notes
1. Les dades relatives al xinès inclouen les pàgines escrites en xinès tradicional i xinès simplificat.
3. Nombre relatiu de pàgines web per parlant
La taula següent mostra, de més gran a més petit, el nombre de pàgines per parlant, és a dir, el seu nombre relatiu.
Cercador Google | ||||
Llengua | Pàgines web (mostra) | Parlants | Pàgines per parlant | |
1 | Anglès | 9.200.000.000 | 341.000.000 | 26,98 |
2 | Islandès | 5.250.000 | 250.000 | 21,00 |
3 | Estonià | 6.510.000 | 1.100.000 | 5,92 |
4 | Noruec | 28.700.000 | 5.000.000 | 5,74 |
5 | Suec | 42.100.000 | 9.000.000 | 4,68 |
6 | Finès | 26.200.000 | 6.000.000 | 4,37 |
7 | Danès | 22.200.000 | 5.326.000 | 4,17 |
8 | Letó | 5.750.000 | 1.543.844 | 3,72 |
9 | Eslovè | 6.950.000 | 2.000.000 | 3,48 |
10 | Francès | 202.000.000 | 72.000.000 | 2,81 |
11 | Holandès | 54.300.000 | 20.000.000 | 2,72 |
12 | Txec | 26.700.000 | 12.000.000 | 2,23 |
13 | Hebreu | 10.100.000 | 5.150.000 | 1,96 |
14 | Alemany | 184.000.000 | 100.000.000 | 1,84 |
15 | Lituà | 572.0000 | 3.125.281 | 1,83 |
16 | Japonès | 150.000.000 | 126.000.000 | 1,19 |
17 | Italià | 68.400.000 | 62.000.000 | 1,10 |
18 | Eslovac | 6.130.000 | 5.606.000 | 1,09 |
19 | Català | 7.140.000 | 6.565.000 | 1,09 |
20 | Hongarès | 15.100.000 | 145.00.000 | 1,04 |
21 | Grec | 9.230.000 | 12.000.000 | 0,77 |
22 | Polonès | 23.800.000 | 44.000.000 | 0,54 |
23 | Búlgar | 3.810.000 | 8.954.811 | 0,43 |
24 | Castellà | 133.000.000 | 322.000.000 | 0,41 |
25 | Croat | 7.950.000 | 21.000.000 | 0,38 |
26 | Indonesi | 8.660.000 | 23.143.354 | 0,37 |
27 | Coreà | 24.400.000 | 78.000.000 | 0,31 |
28 | Serbi | 3.340.000 | 11.144.758 | 0,30 |
29 | Romanès | 7.250.000 | 26.000.000 | 0,28 |
30 | Rus | 43.200.000 | 167.000.000 | 0,26 |
31 | Portuguès | 44.000.000 | 176.000.000 | 0,25 |
32 | Turc | 11.200.000 | 61.000.000 | 0,18 |
33 | Xinès | 74.700.000 | 885.000.000 | 0,08 |
34 | Àrab | 12.600.000 | 213.223.637 | 0,06 |
Notes
1. Les dades del nombre de parlants provenen d’Ethnologue
2. Les dades relatives al xinès inclouen pàgines escrites en xinès tradicional i en xinès simplificat.
3. Les dades sobre el nombre de parlants del català varien segons les fonts (vegeu Generalitat de Catalunya). S’ha decidit usar les dades provinents d’Ethnologue per a totes les llengües i no fer cap modificació per a cap d’elles. Cal destacar que Ethnologue considera solament el nombre de parlants que tenen una llengua com a materna.
Conclusió
A tall de conclusió, podem afirmar que, en menys de dos anys, s’ha doblat el nombre de pàgines web indexades en català, i que el català, segons aquest estudi, és avui dia la vint-i-sisena llengua a Internet. Cal remarcar que l’increment de pàgines web és degut en part a que els cercadors actuals tenen més pàgines web indexades que l’any 2003.
El català a Internet continua amb una forta posició respecte a altres llengües, i la popularització dels blocs en llengua catalana ha suposat també un increment important del nombre de pàgines disponibles.
Bibliografia recomanada
Informe de Vilaweb sobre la presència del català l’any 2000
http://www.vilaweb.com/especials/5anys/enquesta.html
Informe de Softcatalà sobre la presència del català l’any 2003
http://www.softcatala.org/articles/article26.htm
Baròmetre de l’ús del català a Internet
http://wiccac.org/hist_resums.html
Observatori de les llengües i cultures de Funredes
http://www.funredes.org/LC/
Anàlisis d’Alis de les llengües a Internet (1997)
http://babel.alis.com/palmares.html
Les llengües del món
http://www.ethnologue.com/
Millan, José Antonio. (2001): Internet y el español
Fundación Retevisión