El Software libre y la ling��stica

Maria Francisca Ribeiro de Araujo Santo Orcero

FCLAR/UNESP (Brasil)

David Santo Orcero

Consultor de soluciones con software libre

La socioling��stica es un �rea en la que la inform�tica a�n no ha penetrado completamente. Los autores de este trabajo hemos intentado informatizar una investigaci�n socioling�istica completa usando software libre en todos los lugares donde esto ha sido posible, incluso implementando software en alguno de los pasos. En este trabajo estudiaremos las ventajas de la informatizaci�n con software libre de la socioling�sitica, qu� software est� disponible, cual ha sido nuesta experiencia, y aquellos puntos donde todav�a no existe reemplazo al software propietario.


Tabla de contenidos
Introducci�n al problema de la inform�tica y la socioling��stica
Descripci�n del problema de las cintas
Los formatos digitales libres, la soluci�n definitiva.
Formato digital y medio digital escogido.
El sistema operativo Linux como alternativa para el uso de nuestro software
EL proceso de grabaci�n
La audici�n de los datos
Procesamiento de datos
Procesamiento de textos
Calidad en las publicaciones
Conclusi�n
Bibliograf�a

Introducci�n al problema de la inform�tica y la socioling��stica

La socioling��stica se encuentra con dos problemas serios en la investigaci�n de campo, que son la grabaci�n y el almacenamiento de datos del audio. Hasta ahora, la grabaci�n y el almacenamiento de datos de investigaciones de campo en ling��stica se ha realizado por medio de las cintas cassettes. Esto hace al procedimiento de transcripci�n fon�tica extremadamente complejo y engorroso, debido al ruido propio de las cintas, a la p�rdida de calidad de las grabaciones por su uso, con la p�rdida de datos invaluables para la ciencia de hablas, de acentos y hasta de lenguas que han desaparecido o est�n en vias de desaparici�n, y las cintas con las conversaciones con los hablantes se estan degradando, perdiendo toda la informaci�n.

La propia investigaci�n y transcripci�n fon�tica de las cintas es destructiva: el movimiento de ir y venir con la cinta cassette, muchas veces, causa la ruptura de la cinta y la p�rdida irrecuperable de los datos grabados. Hacer copias m�ltiples de las cintas cassettes presenta disminuciones de la calidad de la cinta original, adem�s de que la copia es siempre de peor calidad que el original; adem�s de esto, las cintas son vulnerables al moho con el tiempo cuando no son bien conservadas. Dependiendo del alcance de la investigaci�n, el n�mero de cintas puede llegar a cantidades realmente enormes y la gesti�n de estos grandes vol�menes de datos de audio se complica mucho.

Por �ltimo, a pesar de que automatiz�ramos el proceso de recogida de datos, el procesamiento de los datos es a�n engorroso y propenso a fallos. El �nico programa existente que estudia las correlaciones entre datos ling�isticos, el VARBRUL, es un programa de MS-DOS de c�digo cerrado, lento y muy poco amigable para el usuario.

Este trabajo tambi�n corresponde al aspecto inform�tico de una investigaci�n realizada sobre un dialecto hablado en Caxias, Brasil, una peque�a ciudad de 40000 habitantes, la mayor parte de ellos ancianos, por un impresionante flujo migratorio de los j�venes a ciudades que presentan posibilidad de empleo, que ha hecho que la poblaci�n de la ciudad caiga a su tercera parte en quince a�os. Este trabajo de investigaci�n ha sido realizado en su integridad con herramientas libres, para analizar la posibilidad de informatizar todo el proceso de colecta y gesti�n de datos, as� como publicaci�n de los resultados usando solo software libre.

Este trabajo ha sido financiado parcialmente por la FAPESP, organizaci�n de la que MFRASO es becaria de investigaci�n.