Comunicação em evento científico
Singularity Score For Evaluating Topic Relevance In Tiny Text
Nicole Lopes Nunes (Nunes, N.); Ana de Almeida (de Almeida, A.); Ana Rita Peixoto (Peixoto, A.);
Título Evento
WorldCist'26 - 14th World Conference on Information Systems and Technologies
Ano (publicação definitiva)
2026
Língua
Inglês
País
Portugal
Mais Informação
Web of Science®

Esta publicação não está indexada na Web of Science®

Scopus

Esta publicação não está indexada na Scopus

Google Scholar

Esta publicação não está indexada no Google Scholar

Esta publicação não está indexada no Overton

Abstract/Resumo
Topic modeling is a widely used method for extracting relevant information and insights from text, given its strong results. When using this technique, it is necessary to evaluate the topics identified. However, when the text is very short, with fewer than 10 words per document on average, the classical evaluation metrics can be unreliable. To extract meaningful topics and identify the most suitable modeling technique, this study applied topic modeling to this type of data – tiny text – using user-generated Portuguese texts collected from post-its during PLANAPP workshops. Six datasets with different preprocessing steps were tested using LDA and BERTopic, the latter with two sentence- transformers (Multilingual and AlBERTina). As expected, the classical evaluation metrics proved inconsistent for such short texts, motivating the creation of a new measurement of topic coherence, the Singularity Score, that intends to mimic human annotators. Results show that BERTopic produced more coherent topics, despite the fact that LDA scores higher in traditional metrics. In summary, this work demonstrates that topic modeling can be effectively applied to tiny Portuguese texts, identifies BERTopic as the most suitable approach, and introduces SS as a novel metric for assessing topic quality.
Agradecimentos/Acknowledgements
This work was partially supported by Fundação para a Ciência e aTecnologia,I.P.(FCT)[Project2024.07395.IACDC][ISTARProjects:UIDB/04466/2023 and UIDP/04466/2023]
Palavras-chave
Topic Modelling,Tiny text,Singularity score,Topic evaluation,Text mining

Com o objetivo de aumentar a investigação direcionada para o cumprimento dos Objetivos do Desenvolvimento Sustentável para 2030 das Nações Unidas, é disponibilizada no Ciência_Iscte a possibilidade de associação, quando aplicável, dos artigos científicos aos Objetivos do Desenvolvimento Sustentável. Estes são os Objetivos do Desenvolvimento Sustentável identificados pelo(s) autor(es) para esta publicação. Para uma informação detalhada dos Objetivos do Desenvolvimento Sustentável, clique aqui.