La base de datos más amplia del mundo para aprender español

Investigadores de la Universidad de Granada han desarrollado una aplicación web llamada CEDEL2 (Corpus Escrito del Español como segunda lengua), que nace para dar respuesta a la necesidades investigadoras y docentes del español como lengua extranjera a nivel internacional.

Investigadores de la Universidad de Granada (UGR) dirigidos por el profesor Cristóbal Lozano, han desarrollado una aplicación web llamada CEDEL2 (Corpus Escrito del Español como segunda lengua), que nace para dar respuesta a la necesidades investigadoras y docentes del español como lengua extranjera a nivel internacional.

CEDEL2 es un corpus lingüístico de aprendices de español, es decir, una gran base de datos que contiene el lenguaje producido por aprendices de español (personas que están aprendiendo español como su segunda lengua). Contiene, además, el lenguaje de hablantes nativos de español de España y de otras variedades de Latinoamérica (Méjico, Argentina, Colombia, etc.). De esta forma, los investigadores usan los datos de los nativos de español como referencia para ver si el lenguaje de los aprendices se acerca (o se aleja) del lenguaje de los nativos.

Interfaz web de CEDEL2 (motor de búsqueda).

Por ejemplo, es bien sabido que los aprendices cometen errores básicos de concordancia entre el artículo y el nombre: “la clima”, “la problema”. CEDEL2 es una herramienta informática potentísima que sirve a los investigadores de “ventana” para comprender cómo funciona el lenguaje en la mente de los aprendices. Asimismo, los docentes de español pueden usarlo en clase para que los estudiantes exploren y aprendan de los errores cometidos por otros aprendices como ellos.

CEDEL2 es gratuito, y está alojado en el portal web cedel2.learnercorpora.com. La aplicación informática cuenta con un potente buscador y una interfaz intuitiva y accesible. Ofrece múltiples posibilidades para la investigación y la docencia. Permite hacer tanto búsquedas sencillas de palabras como búsquedas de estructuras lingüísticas complejas. Las búsquedas y los textos completos se pueden descargar para analizarlos posteriormente. Además de textos escritos, CEDEL2 contiene grabaciones orales. Ya se han llevado a cabo más de medio centenar de estudios internacionales y tesis doctorales con datos procedentes de CEDEL2.

Los investigadores del IberLab de la Universidad de Granada que han realizado este trabajo.

El corpus tiene una larga trayectoria pues lleva en desarrollo desde el año 2006 y ha sido financiado por numerosos proyectos de investigación I+D nacionales, como el último proyecto ANACOREX. En CEDEL2 ha colaborado un equipo internacional de 30 investigadores procedentes de 11 universidades. Dado este carácter internacional, CEDEL2 incluye datos de aprendices de español de hasta 11 lenguas maternas distintas (y muy variopintas), como el inglés, japonés, chino, árabe, ruso, alemán, etc. Actualmente, la segunda versión del corpus contiene el lenguaje producido por unos 4.400 hablantes y más de 1 millón de palabras, lo que lo convierte en el corpus más extenso de su categoría.

CEDEL2 está en constante crecimiento y los investigadores siguen recogiendo datos para la futura 3ª versión del corpus. Cualquiera puede participar en el corpus CEDEL2 a través de su portal web (learnercorpora.com). Sólo hay que escribir/narrar una breve historia en español y proporcionar información sobre el perfil lingüístico. La participación está remunerada.

Paralelamente, el equipo también ha desarrollado un corpus de inglés como lengua extranjera: COREFL (Corpus of English as a Foreign Language), que sigue los mismos principios de diseño que CEDEL2, lo que permite hacer múltiples comparaciones del lenguaje producido por, por ejemplo, nativos de español que aprenden inglés (COREFL) vs. nativos de inglés que aprenden español (CEDEL2). COREFL está disponible gratuitamente en la web (corefl.learnercorpora.com).

Logotipo de CEDEL2.

En definitiva, este proyecto es una aportación innovadora en el ámbito de la lingüística, el bilingüismo, el aprendizaje de lenguas y las humanidades digitales.

Más información:

Aplicación online de CEDEL2: learnercorpora.com
Portal web para participar: learnercorpora.com
Video promocional de CEDEL2: https://wpd.ugr.es/~cristoballozano/divulgacion
Publicación científica: Lozano, C. (2021). CEDEL2: Design, compilation and web interface of an online corpus for L2 Spanish acquisition research. Second Language Research, first published online. https://doi.org/10.1177/02676583211050522

Últimas publicaciones

Ver todas

Cookie	Duración	Descripción
__cfduid	1 mes	La cookie es utilizada por servicios cdn como CloudFlare para identificar clientes individuales detrás de una dirección IP compartida y aplicar configuraciones de seguridad por cliente. No corresponde a ningún ID de usuario en la aplicación web y no almacena ninguna información de identificación personal.
CONSENT	16 años 7 meses	La cookie se establece mediante el consentimiento de cookies de GDPR para registrar el consentimiento del usuario para las cookies.
cookielawinfo-checbox-analytics	11 meses	Esta cookie está configurada por el complemento de consentimiento de cookies de GDPR. La cookie se utiliza para almacenar el consentimiento del usuario para las cookies en la categoría "Análisis".
cookielawinfo-checkbox-advertisement	1 año	La cookie se establece mediante el consentimiento de cookies de GDPR para registrar el consentimiento del usuario para las cookies en la categoría "Publicidad".
cookielawinfo-checkbox-necessary	11 meses	Esta cookie está configurada por el complemento de consentimiento de cookies de GDPR. Las cookies se utilizan para almacenar el consentimiento del usuario para las cookies en la categoría "Necesarias".
PHPSESSID	sessión	Esta cookie es nativa de las aplicaciones PHP. La cookie se utiliza para almacenar e identificar la identificación de sesión única de un usuario con el fin de administrar la sesión del usuario en el sitio web. La cookie es una cookie de sesión y se elimina cuando se cierran todas las ventanas del navegador.
viewed_cookie_policy	11 meses	La cookie está configurada por el complemento de consentimiento de cookies de GDPR y se utiliza para almacenar si el usuario ha dado su consentimiento o no para el uso de cookies. No almacena ningún dato personal.

Cookie	Duración	Descripción
__stid	1 año	ShareThis establece la cookie. La cookie se utiliza para el análisis del sitio para determinar las páginas visitadas, la cantidad de tiempo dedicado, etc.
__stidv	1 año	ShareThis utiliza esta cookie. Esta cookie se utiliza para compartir el contenido del sitio web en las redes sociales.
_ga	2 años	Esta cookie es instalada por Google Analytics. La cookie se utiliza para calcular los datos de visitantes, sesiones y campañas y realizar un seguimiento del uso del sitio para el informe de análisis del sitio. Las cookies almacenan información de forma anónima y asignan un número generado aleatoriamente para identificar visitantes únicos.
_gat	1 minuto	Google Universal Analytics instala estas cookies para acelerar la tasa de solicitud y limitar la recopilación de datos en sitios de alto tráfico.
_gid	1 día	Esta cookie es instalada por Google Analytics. La cookie se utiliza para almacenar información sobre cómo los visitantes usan un sitio web y ayuda a crear un informe analítico de cómo está funcionando el sitio web. Los datos recopilados, incluido el número de visitantes, la fuente de donde provienen y las páginas visitadas de forma anónima.
fpestid	1 año	ShareThis utiliza esta cookie. Esta cookie se utiliza para compartir el contenido del sitio web en las redes sociales.
IDE	1 año 24 días	Utilizado por Google DoubleClick y almacena información sobre cómo el usuario utiliza el sitio web y cualquier otro anuncio antes de visitar el sitio web. Se utiliza para presentar a los usuarios anuncios que son relevantes para ellos de acuerdo con el perfil del usuario.
ms-uid	1 año	Esta cookie es instalada por Google Analytics. La cookie se utiliza para almacenar información sobre cómo los visitantes usan un sitio web y ayuda a crear un informe analítico de cómo está funcionando el sitio web. Los datos recopilados, incluido el número de visitantes, la fuente de donde provienen y las páginas visitadas de forma anónima.
st_samesite	sessión	ShareThis utiliza esta cookie. Esta cookie se utiliza para compartir el contenido del sitio web en las redes sociales.
test_cookie	15 minutos	Esta cookie la establece doubleclick.net. El propósito de la cookie es determinar si el navegador del usuario admite cookies.
VISITOR_INFO1_LIVE	5 meses 27 días	Youtube establece esta cookie. Se utiliza para rastrear la información de los videos de YouTube incrustados en un sitio web.
YSC	sessión	Estas cookies son establecidas por Youtube y se utilizan para rastrear las vistas de videos incrustados.

La base de datos más amplia del mundo para aprender español

Últimas publicaciones

Microgotas de cera para guardar el calor del sol

Identificada la base molecular de la defoliación en algodón y olivo

La Fundación

Equipo

Webs temáticas

Exploria Ciencia

Participa

Agenda

La base de datos más amplia del mundo para aprender español

Últimas publicaciones

Microgotas de cera para guardar el calor del sol

Identificada la base molecular de la defoliación en algodón y olivo

Suscríbete a nuestra newsletter

La Fundación

Equipo

Webs temáticas

Exploria Ciencia

Participa

Agenda