El País Digital
Sábado
28 marzo
1998 - Nº 694

La Academia presenta un inmenso banco de datos que recoge la historia del español

90 millones de formas de textos escritos podrán ser consultadas por Internet en octubre

MIGUEL ÁNGEL VILLENA, Madrid
La Real Academia Española ha pasado de contar con 12 millones de fichas artesanales a más de 120 millones de registros electrónicos. Así se resume el camino emprendido por la institución para no perder el tren de la informática. En tres años el español contará con un inmenso banco de datos comparable al de otros grandes idiomas. A partir de octubre, 90 millones de formas de textos escritos ya podrán ser consultadas por Internet. El director de la Academia, Fernando Lázaro Carreter, señaló ayer ante 200 profesores que «la informatización es la vía para ganar la batalla de la unidad del idioma».


Lázaro Carreter muestra ayer a los periodistas
el banco de datos (L. Magan).
Como «tesoros artísticos» definió ayer el responsable de la Real Academia Española muchas de las fichas rellenadas durante los siglos XVIII y XIX. Pero, lamentablemente, la mayoría de estas joyas artesanales está salpicada de errores e imperfecciones. Aunque no hace falta remontarse tanto en el tiempo para comprender la gigantesca transformación que ha sufrido el almacenamiento del idioma. Cuando Lázaro Carreter acudía como estudiante o como joven profesor a trabajar en las salas de la Academia, los encargados de cumplimentar las fichas cobraban 40 céntimos por cada una. Cualquier visitante observa hoy el contraste entre la solemnidad de las plantas altas del edificio y el bullicio informático de otras salas del centro.

Como admitía Victor García de la Concha, secretario de la institución, dos mundos conviven en la actualidad con un mismo objetivo: mantener la riqueza y la unidad de un idioma hablado por más de 300 millones de personas. «Preservar la unidad del idioma en un mundo tan cambiante», proclamó el secretario ante los 200 profesores procedentes de 45 universidades españolas, «es hoy tan importante como el viejo lema de 'limpia, fija y da esplendor». Tanto Fernando Lázaro Carreter como Víctor García de la Concha insistieron en la idea de la unidad idiomática ante las amenazas de disgregación en una sociedad cada día más tecnificada. Asimismo, destacaron que la Academia ha de contar con dos armas fundamentales: un diccionario y una gramática que sean reconocidos como normas por todos los hispanohablantes. «La coincidencia de todos los países en la ortografía es lo que ha permitido mantener la unidad del idioma», apostilló el director.

Variantes dialectales

Frente a algunas reticencias que estas iniciativas españolas despiertan en América y frente al eterno pulso entre la unidad y las variantes dialectales que plantea cualquier lengua, Lázaro Carreter se mostró tajante: «Hablamos una misma lengua pero, además, todas las diferencias estarán recogidas en el banco de datos». El mexicano Raúl Dávila, por ejemplo, pidió una mayor representación de las variantes del español en los veinte países americanos independientes desde el siglo XIX.

El Corpus de Referencia del Español Actual (CREA), que ayer fue presentado en sociedad y que ha ocupado a unas 65 personas en su elaboración durante los últimos tres años, comprende los últimos 25 años e incluye textos españoles y americanos al 50%. El material recogido procede de libros, revistas, periódicos y textos orales y sus temas abarcan desde la ciencia a la política, desde la cultura a la vida cotidiana. Las tareas de elaboración del CREA y del Corpus Diacrónico del Español (CORDE) -que recoge desde los inicios del idioma hasta 1975- se prolongarán durante otros tres años y cuentan con un presupuesto de 160 millones de pesetas, de los que 120 los aporta el Gobierno y el resto la Academia.

Junto a los cerca de dos centenares de profesores universitarios de español, miembros de la Real Academia acudieron ayer a la apertura de estas jornadas de presentación del Corpus de Referencia del Español Actual. También figuraban entre los invitados representantes del Instituto Cervantes, del Consejo Superior de Investigaciones Científicas y de las academias de las otras tres lenguas habladas en España: la Real Academia de la Lengua Gallega, la Real Academia de la Lengua Vasca y el Institut d’Estudis Catalans.

Tras la presentación institucional de las jornadas, a cargo de Lázaro Carreter, el profesor Guillermo Rojo, responsable de la elaboración del banco de datos, destacó que el Corpus ha de ser «representativo y equilibrado». Rojo agregó que ya han sido codificados 90 millones de formas de textos escritos y unos cuatro millones de formas de textos orales. Las jornadas, que concluyen hoy, compaginan las exposiciones generales sobre la formación del banco de datos con demostraciones de los distintos pasos de construcción de este «inmenso diccionario», como lo calificó Fernando Lázaro Carreter.

Una auténtica revolución informática

EL PAÍS, Madrid
Cúando entra una palabra en el idioma, los primeros documentos en que se escribe en castellano, cómo se ha ido utilizando la lengua y en qué situaciones históricas. Todos estos interrogantes y muchos mas podrán ser resueltos por profesores y estudiantes, por escritores y periodistas o por cualquier ciudadano del mundo preocupado por el uso del español.

Un equipo de unos 65 lexicógrafos trabaja desde el año 1995 para marcar todo tipo de textos que proporcionen a los investigadores o a las personas e instituciones interesadas una visión completa del castellano que se utiliza en la literatura, los medios de comunicación y el habla común. El inmenso banco de datos que ayer presentó la Real Academia abarca desde usos de México a Chile, desde Cuba a Argentina, desde Huelva a Santander.

En los últimos años el edificio, cercano al Museo del Prado, que alberga la institución de defensa del idioma ha recuperado el sótano y lo ha transformado en oficinas donde se ha llevado a cabo esta suerte de auténtica revolución informática que han patrocinado Lázaro Carreter y sus colaboradores. Filólogo, catedrático y académico, el actual director ha tenido siempre clara la función social y la adaptación a los nuevos tiempos que la Real Academia Española debe cumplir e incluso en alguna ocasión ha llegado a señalar que, en caso contrario, la institución no tendría ninguna utilidad.

Cubrir un hueco

La puesta en marcha del Corpus viene a cubrir un hueco que el español tenía hasta hace unos años respecto de idiomas como el inglés, el francés, el alemán o el italiano. En este banco de datos se incluyen todo tipo de palabras, incluso los errores más extendidos en el uso de la lengua. «Esta base de datos no tendrá una fuerza normativa, sino sólo descriptiva», matizan los responsables del proyecto. En líneas generales, el contenido del Corpus de Referencia del Español Actual (CREA) procede en un 45% de libros; un porcentaje similar de periódicos y revistas, y el 10% restante proviene de folletos, correspondencia y documentos de todo tipo. Por el momento, la poesía ha sido excluida por los lexicógrafos del banco de datos, aunque no se descarta recogerla en el futuro. Dentro del 50% de registros asignados a la América hispana, los países más representados son México, la zona andina y Argentina.

Tras la presentación ayer al mundo universitario de los trabajos del banco de datos, la Academia tiene previsto organizar en los próximos meses jornadas similares con escritores, editores y periodistas.

García Márquez y el verbo avorazar

M. Á. V., Madrid
Los pasillos y las salas de la Real Academia Española respiraban ayer un aire de euforia y de satisfacción. No era para menos, porque la puesta de largo de un banco de datos que no sólo equipara al español con el inglés o el francés, sino que en muchos aspectos los supera, daba alas a los responsables de la Academia para sentir un legítimo orgullo.

Así lo puso de relieve Víctor García de la Concha, secretario de la institución, al relatar la siguiente anécdota: «Cuando Gabriel García Márquez visitó recientemente la Academia, nos retó a buscar la palabra avorazar, que significa tener una actitud voraz. No sólo apareció la palabra, sino también algunas referencias a su utilización por el escritor colombiano».

Lázaro Carreter exteriorizaba ayer una gran emoción cuando mostraba a los periodistas el funcionamiento del banco de datos. «Es básico no perder el tren de la informática y de Internet», repetía el veterano lingüista, nacido en Zaragoza en 1923, que ha encabezado con su empeño la renovación tecnológica de la Academia.

Del mismo modo que ha comprendido la relevancia de la informática en este final de siglo, Lázaro Carreter es consciente de que «los medios de comunicación juegan hoy un papel más activo como agentes idiomáticos que la escuela o la familia, como ocurría en el pasado».

Las autoridades de la Academia saben que han llegado en el último minuto a coger el «tren de la informática», pero el viaje ya no tiene retorno posible. Como no hay mal que por bien no venga, García de la Concha comentó «las ventajas de haber acudido un poco tarde a la cita». «Ese pequeño retraso», explicó, «nos ha permitido aprender de los errores de otros países e incorporar las innovaciones tecnológicas más recientes a nuestro banco de datos».

Cual alumnos aplicados y sorprendidos, los cerca de 200 profesores universitarios llegados de toda España recorrían ayer los puntos de demostración de este banco de datos construido a partir de documentos, novelas, ensayos, periódicos y testimonios orales que constituyen un monumental friso de la historia y de la riqueza del español.

© Copyright DIARIO EL PAIS, S.A. - Miguel Yuste 40, 28037 Madrid