Observatorio Lázaro

¿Qué es Lázaro?

Lazaro es un observatorio del anglicismo en la prensa española. El objetivo del proyecto es estudiar el uso de anglicismos (es decir, préstamos crudos del inglés) en la prensa española a lo largo del tiempo y de forma empírica, masiva y sistemática. Cada día, Lázaro se conecta a distintos medios de comunicación españoles, analiza las últimas noticias publicadas y extrae los anglicismos aparecidos en las noticias del día.

En esta charla del congreso Trabalengua de 2021 se explican los entresijos del proyecto:

¿Qué medios rastrea Lázaro?

Actualmente Lázaro analiza los artículos publicados en los siguientes 22 medios españoles:

Medio	Temática
El País	Prensa generalista
elDiario.es	Prensa generalista
ABC	Prensa generalista
El Mundo	Prensa generalista
La Vanguardia	Prensa generalista
El Confidencial	Prensa generalista
20 Minutos	Prensa generalista
Agencia EFE	Prensa generalista
Agencia Sinc	Ciencia y tecnología
Muy Interesante	Ciencia y tecnología
La Marea	Política
El Salto	Política
El Economista	Economía
Cinco Días	Economía
JotDown	Cultura
El Mundo Today	Humor
Marca	Deporte
Rolling Stones	Música
Fotogramas	Cine
Diez Minutos	Prensa rosa
Men's Health	Moda y estilo de vida
Elle	Moda y estilo de vida

¿Cómo funciona Lázaro?

El núcleo del proyecto es un modelo de aprendizaje automático que detecta posibles extranjerismos (fundamentalmente anglicismos) en la prensa en español. Si bien el modelo ha sido entrenado para extraer anglicismos, también extrae ocasionalmente préstamos de otras lenguas. El modelo de extracción de anglicismos de Lázaro es un BiLSTM-CRF que utiliza embeddings entrenados sobre texto bilingüe ES-EN, así como embeddings subpalabra (embeddings BPE y embeddings de carateres). La información técnica sobre el modelo está disponible en este artículo científico. Una versión anterior del observatorio (que estuvo operativa desde abril de 2020 hasta agosto de 2022) funcionaba con un modelo CRF; los detalles técnicos sobre aquel modelo anterior se pueden leer en este documento.

El código del observatorio y el corpus de entrenamiento están disponibles en GitHub. El modelo de detección de anglicismos ya entrenado y listo para reutilizar está disponible a través de HuggingFace o también a través de la librería de Python pylazaro.

Se puede encontrar más información sobre el proyecto en las siguientes publicaciones:

Álvarez Mellado, E., Lignos, C. Detecting Unassimilated Borrowings in Spanish: An Annotated Corpus and Approaches to Modeling, Proceedings of the 60th Annual Meeting of the Association for Computational Linguistics (Volume 1: Long Papers), 2022.
Álvarez Mellado, E., Extracting English Lexical Borrowings from Spanish Newswire, Proceedings of the Society for Computation in Linguistics: Vol. 4 , Article 41, 2021.
Álvarez Mellado, E., An Annotated Corpus of Emerging Anglicisms in Spanish Newspaper Headlines, Proceedings of the The 4th Workshop on Computational Approaches to Code Switching, pp. 1-8, 2020.
Álvarez Mellado, E., Lázaro: An Extractor of Emergent Anglicisms in Spanish Newswire, MS thesis, Brandeis University, 2020.

Bot de Twitter: `@lazarobot`

Los anglicismos nuevos que Lázaro encuentra (es decir, aquellos que el modelo no ha visto previamente) son tuiteados a diario por el bot de Twitter @lazarobot, junto al contexto de aparición y el enlace a la noticia.

¿Qué no es Lázaro?

El propósito del proyecto es observar, describir y analizar el uso de anglicismos en la prensa española. En ningún caso el objetivo del proyecto es afear, señalar o criticar el uso de anglicismos, ni a quienes los usan. Tampoco es propósito de este proyecto proponer traducciones alternativas al uso de anglicismos.

La motivación tras Observatorio Lázaro no es defender una supuesta pureza lingüística del español, sino estudiar el fenómeno del préstamo léxico en la prensa de forma empírica y desde una perspectiva basada en datos.

¿Por qué Lázaro?

El nombre del proyecto es un homenaje al filólogo español Lázaro Carreter, cuyas columnas sobre prescripción lingüística en los medios de comunicación (y muy especialmente sobre el uso de anglicismos) fueron muy populares en España en los años 1980 y 1990.

Reconocimientos

El proyecto detrás de Observatorio Lázaro ha recibido los siguientes reconocimientos:

Premio Adam Kilgarriff, que se concede bienalmente a proyectos de lingüística de corpus, lingüística computacional y lexicografía
Premio Archiletras de investigación otorgado por la revista Archiletras
Generation Google Scholarship otorgado por Google
Premio HDH 2021 a la mejor herramienta o recurso de la asociación de Humanidades Digitales Hispánicas
Outstanding Corpus Thesis Award 2021 (MS level) del Institute for Corpus Research de la Universidad Nacional de Incheon (Corea del Sur)
Karen Spärck Jones 2020 Award for Outstanding Achievement in Natural Language Processing de la Universidad de Brandeis (Massachusetts)