Publicação em atas de evento científico
Semi-supervised annotation of Portuguese hate speech across social media domains
Raquel Bento Santos (Santos, R. B.); Bernardo Cunha Matos (Matos, B. C.); Paula Carvalho (Carvalho, P.); Fernando Batista (Batista, F.); Ricardo Ribeiro (Ribeiro, R.);
OpenAccess Series in Informatics
Ano (publicação definitiva)
2022
Língua
Inglês
País
Alemanha
Mais Informação
Web of Science®

Esta publicação não está indexada na Web of Science®

Scopus

N.º de citações: 5

(Última verificação: 2024-11-19 00:31)

Ver o registo na Scopus

Google Scholar

N.º de citações: 12

(Última verificação: 2024-11-22 02:46)

Ver o registo no Google Scholar

Abstract/Resumo
With the increasing spread of hate speech (HS) on social media, it becomes urgent to develop models that can help detecting it automatically. Typically, such models require large-scale annotated corpora, which are still scarce in languages such as Portuguese. However, creating manually annotated corpora is a very expensive and time-consuming task. To address this problem, we propose an ensemble of two semi-supervised models that can be used to automatically create a corpus representative of online hate speech in Portuguese. The first model combines Generative Adversarial Networks and a BERT-based model. The second model is based on label propagation, and consists of propagating labels from existing annotated corpora to the unlabeled data, by exploring the notion of similarity. We have explored the annotations of three existing corpora (CO-HATE, ToLR-BR, and HPHS) in order to automatically annotate FIGHT, a corpus composed of geolocated tweets produced in the Portuguese territory. Through the process of selecting the best model and the corresponding setup, we have tested different pre-trained embeddings, performed experiments using different training subsets, labeled by different annotators with different perspectives, and performed several experiments with active learning. Furthermore, this work explores back translation as a mean to automatically generate additional hate speech samples. The best results were achieved by combining all the labeled datasets, obtaining 0.664 F1-score for the Hate Speech class in FIGHT.
Agradecimentos/Acknowledgements
--
Palavras-chave
Hate speech,Semi-supervised learning,Semi-automatic annotation
  • Ciências da Computação e da Informação - Ciências Naturais
  • Línguas e Literaturas - Humanidades
Registos de financiamentos
Referência de financiamento Entidade Financiadora
HATE Covid-19 (Proj. 759274510) Fundação para a Ciência e a Tecnologia
UIDB/50021/2020 Fundação para a Ciência e a Tecnologia
PTDC/CCI- CIF/32607/2017 Fundação para a Ciência e a Tecnologia

Com o objetivo de aumentar a investigação direcionada para o cumprimento dos Objetivos do Desenvolvimento Sustentável para 2030 das Nações Unidas, é disponibilizada no Ciência-IUL a possibilidade de associação, quando aplicável, dos artigos científicos aos Objetivos do Desenvolvimento Sustentável. Estes são os Objetivos do Desenvolvimento Sustentável identificados pelo(s) autor(es) para esta publicação. Para uma informação detalhada dos Objetivos do Desenvolvimento Sustentável, clique aqui.