Acerca de Lázaro

¿Qué es Lázaro?

Lazaro es un observatorio del anglicismo en la prensa española. El objetivo del proyecto es estudiar el uso de anglicismos (es decir, préstamos crudos del inglés) en la prensa española a lo largo del tiempo y de forma empírica, masiva y sistemática. Cada día, Lázaro se conecta a distintos medios de comunicación españoles, analiza las últimas noticias publicadas y extrae los anglicismos aparecidos en las noticias del día. Actualmente Lázaro analiza los artículos publicados en ochos medios españoles: elDiario.es, El País, El Mundo, ABC, La Vanguardia, El Confidencial, 20minutos y EFE.

El núcleo del proyecto es un modelo de aprendizaje automático que detecta posibles extranjerismos (fundamentalmente anglicismos) en la prensa en español. Si bien el modelo ha sido entrenado para extraer anglicismos, también extrae ocasionalmente préstamos de otras lenguas. El modelo de extracción de anglicismos de Lázaro es un CRF (Conditional Random Field). El código del modelo y el corpus de entrenamiento están disponibles en el repositorio de GitHub. Se puede encontrar más información sobre el modelo y sobre el corpus de entrenamiento en las siguientes publicaciones:

Bot de Twitter: @lazarobot

Los anglicismos nuevos que Lázaro encuentra (es decir, aquellos que el modelo no ha visto previamente) son tuiteados a diario por el bot de Twitter @lazarobot, junto al contexto de aparición y el enlace a la noticia.

¿Qué no es Lázaro?

El propósito del proyecto es observar, describir y analizar el uso de anglicismos en la prensa española. En ningún caso el objetivo del proyecto es afear, señalar o criticar el uso de anglicismos, ni a quienes los usan. Tampoco es propósito de este proyecto proponer traducciones alternativas al uso de anglicismos.

La motivación tras Observatorio Lázaro no es defender una supuesta pureza lingüística del español, sino estudiar el fenómeno del préstamo léxico en la prensa de forma empírica y desde una perspectiva basada en datos.

¿Por qué Lázaro?

El nombre del proyecto es un homenaje al filólogo español Lázaro Carreter, cuyas columnas sobre prescripción lingüística en los medios de comunicación (y muy especialmente sobre el uso de anglicismos) fueron muy populares en España en los años 1980 y 1990.

Reconocimientos

El proyecto detrás de Observatorio Lázaro ha recibido el premio Outstanding Corpus Thesis Award (MS level) del Institute for Corpus Research de la Universidad Nacional de Incheon (Corea del Sur) y el premio Karen Spärck Jones Award for Outstanding Achievement in Natural Language Processing de la Universidad de Brandeis (Massachusetts).

Observatorio Lázaro ha sido reseñado también en los siguientes medios de comunicación:

Créditos

Observatorio Lázaro es un proyecto de Elena Álvarez Mellado. El germen del proyecto fue desarrollado en el Computational Structure of Language Lab de la Universidad de Brandeis (Massachusetts) bajo la supervisión de Constantine Lignos.