UniversalCEFR: Enabling Open Multilingual Research on Language Proficiency Assessment

Joseph Marvin Imperial; Abdullah Barayan; Regina Stodden; Rodrigo Wilkens; Ricardo Muñoz Sánchez; Lingyun Gao; Melissa Torgbi; Dawn Knight; Gail Forey; Reka R. Jablonkai; Ekaterina Kochmar; Robert Reynolds; Eugénio Ribeiro; Horacio Saggion; Elena Volodina; Sowmya Vajjala; Thomas François; Fernando Alva-Manchego; Harish Tayyar Madabushi

Ciência_Iscte Publicações Descrição Detalhada da Publicação

Publicação em atas de evento científico

UniversalCEFR: Enabling Open Multilingual Research on Language Proficiency Assessment

Joseph Marvin Imperial (Imperial, J.M.); Abdullah Barayan (Barayan, A.); Regina Stodden (Stodden, R.); Rodrigo Wilkens (Wilkens, R.); Ricardo Muñoz Sánchez (Muñoz Sánchez, R.); Lingyun Gao (Gao, L.); Melissa Torgbi (Torgbi, M.); Dawn Knight (Knight, D.); Gail Forey (Forey, G.); Reka R. Jablonkai (Jablonkai, R.R.); Ekaterina Kochmar (Kochmar, E.); Robert Reynolds (Reynolds, R.); Eugénio Ribeiro (Ribeiro, E.); Horacio Saggion (Saggion, H.); Elena Volodina (Volodina, E.); Sowmya Vajjala (Vajjala, S.); Thomas François (François, T.); Fernando Alva-Manchego (Alva-Manchego, F.); Harish Tayyar Madabushi (Tayyar Madabushi, H.); et al.

Proceedings of the 2025 Conference on Empirical Methods in Natural Language Processing

Ano (publicação definitiva)

2025

Língua

Inglês

País

China

Mais Informação

Visitar Link

Web of Science®

Esta publicação não está indexada na Web of Science®

Scopus

Esta publicação não está indexada na Scopus

Google Scholar

N.º de citações: 18

(Última verificação: 2026-04-28 08:11)

Ver o registo no Google Scholar

Overton

Esta publicação não está indexada no Overton

Abstract/Resumo

We introduce UniversalCEFR, a large-scale multilingual multidimensional dataset of texts annotated according to the CEFR (Common European Framework of Reference) scale in 13 languages. To enable open research in both automated readability and language proficiency assessment, UniversalCEFR comprises 505,807 CEFR-labeled texts curated from educational and learner-oriented resources, standardized into a unified data format to support consistent processing, analysis, and modeling across tasks and languages. To demonstrate its utility, we conduct benchmark experiments using three modelling paradigms: a) linguistic feature-based classification, b) fine-tuning pre-trained LLMs, and c) descriptor-based prompting of instruction-tuned LLMs. Our results further support using linguistic features and fine-tuning pretrained models in multilingual CEFR level assessment. Overall, UniversalCEFR aims to establish best practices in data distribution in language proficiency research by standardising dataset formats and promoting their accessibility to the global research community.

Agradecimentos/Acknowledgements

Palavras-chave

Registos Associados

Esta publicação está associada ao registo seguinte:

UniversalCEFR: Enabling Open Multilingual Research on Language Proficiency Assessment

Identificadores da Publicação

DOI (fonte: autor)	10.18653/v1/2025.emnlp-main.491
ID Ciência_Iscte	ci-pub-113617

Outros Detalhes da Publicação

Ano Publicação Online	2025
Editora	Association for Computational Linguistics
Indexação	--
ISSN	--
ISBN	979-8-89176-332-6 (online)
Volume
Número Artigo
Páginas	9714 - 9766	Total Páginas	53
Avaliado Cientificamente	Sim
Editores	Christos Christodoulopoulos, Tanmoy Chakraborty, Carolyn Rose, Violet Peng
Título do Evento	Conference on Empirical Methods in Natural Language Processing (EMNLP)
Organizador do Evento
Cidade	Suzhou, China
Tipo de Evento	Conferência
Classificação do Evento	Internacional
Ano do Evento	2026
Tipo de Publicação no Evento	--
Data Publicação (online)
Data Publicação (print)

Altmetric

Dimensions

PlumX Metrics