Leveraging transfer learning for hate speech detection in Portuguese social media posts

Gil Ramos; Fernando Batista; Ricardo Ribeiro; Pedro Fialho; Sérgio Moro; António Fonseca; Rita Guerra; Paula Carvalho; Catarina Marques; Cláudia Silva

Ciência_Iscte Publicações Descrição Detalhada da Publicação

Artigo em revista científica Q1

Leveraging transfer learning for hate speech detection in Portuguese social media posts

Gil Ramos (Ramos, G.); Fernando Batista (Batista, F.); Ricardo Ribeiro (Ribeiro, R.); Pedro Fialho (Fialho, P.); Sérgio Moro (Moro, S.); António Fonseca (Fonseca, A.); Rita Guerra (Guerra, R.); Paula Carvalho (Carvalho, P.); Catarina Marques (Marques, C.); Cláudia Silva (Silva, C.); et al.

Título Revista

IEEE Access

Ano (publicação definitiva)

2024

Língua

Inglês

País

Estados Unidos da América

Mais Informação

Visitar Link

Web of Science®

N.º de citações: 10

(Última verificação: 2026-07-25 12:57)

Ver o registo na Web of Science®

Índice de Impacto do Artigo: 1.4

Ver Mais

Scopus

N.º de citações: 14

(Última verificação: 2026-07-22 22:31)

Ver o registo na Scopus

Índice de Impacto do Artigo: 1.3

Ver Mais

Google Scholar

N.º de citações: 19

(Última verificação: 2026-07-23 19:10)

Ver o registo no Google Scholar

Overton

Esta publicação não está indexada no Overton

Abstract/Resumo

The rapid rise of social media has brought about new ways of digital communication, along with a worrying increase in online hate speech (HS), which, in turn, has led researchers to develop several Natural Language Processing methods for its detection. Although significant strides have been made in automating HS detection, research focusing on the European Portuguese language remains scarce (as it happens in several under-resourced languages). To address this gap, we explore the efficacy of various transfer learning models, which have been shown in the literature to have better performance for this task than other Deep Learning models. We employ BERT-like models pre-trained on Portuguese text, such as BERTimbau and mDeBERTa, as well as GPT, Gemini and Mistral generative models, for the detection of HS within Portuguese online discourse. Our study relies on two annotated corpora of YouTube comments and tweets, both annotated as HS and non-HS. Our findings show that the best model for the YouTube corpus was a variant of BERTimbau retrained with European Portuguese tweets and fine-tuned for the HS task, with an F-score of 87.1% for the positive class, outperforming the baseline models by more than 20% and with a 1.8% increase compared with base BERTimbau. The best model for the Twitter corpus was GPT-3.5, with an F-score of 50.2% for the positive class. We also assess the impact of using in-domain and mixed-domain training sets, as well as the impact of providing context in generative model prompts on their performance.

Agradecimentos/Acknowledgements

Palavras-chave

Hate speech,Transfer learning,Transformer models,Generative models,Text classification

Classificação Fields of Science and Technology

Ciências da Computação e da Informação - Ciências Naturais
Outras Ciências Naturais - Ciências Naturais
Engenharia Civil - Engenharia e Tecnologia
Engenharia Eletrotécnica, Eletrónica e Informática - Engenharia e Tecnologia
Engenharia dos Materiais - Engenharia e Tecnologia

Registos de financiamentos

Referência de financiamento	Entidade Financiadora
101049306	Comissão Europeia

Contribuições para os Objetivos do Desenvolvimento Sustentável das Nações Unidas

Com o objetivo de aumentar a investigação direcionada para o cumprimento dos Objetivos do Desenvolvimento Sustentável para 2030 das Nações Unidas, é disponibilizada no Ciência_Iscte a possibilidade de associação, quando aplicável, dos artigos científicos aos Objetivos do Desenvolvimento Sustentável. Estes são os Objetivos do Desenvolvimento Sustentável identificados pelo(s) autor(es) para esta publicação. Para uma informação detalhada dos Objetivos do Desenvolvimento Sustentável, clique aqui.

Identificadores da Publicação

WoS (fonte: Ciência_Iscte)	WOS:001278992400001
DOI (fonte: autor)	10.1109/ACCESS.2024.3430848
Scopus (fonte: Ciência_Iscte)	2-s2.0-85199862643
Handle (fonte: Ciência-IUL)	http://hdl.handle.net/10071/32083
ID Ciência_Iscte	ci-pub-104797

Outros Detalhes da Publicação

Ano Publicação Online	2024
Editora	IEEE
Indexação	Web of Science©; Scopus;
ISSN	2169-3536 (print) 2169-3536 (online)
ISBN	--
Factor de Impacto	--
Volume	12	Número
Série
Número Artigo
Páginas	101374 - 101389
Avaliado Cientificamente	Sim
Repositório ISCTE-IUL	Link para o repositório
Data Publicação (online)
Data Publicação (print)

Altmetric

Dimensions

PlumX Metrics