Named entity recognition for sensitive data discovery in Portuguese

Mariana Dias; João boné; Joao C Ferreira or Joao Ferreira; Ricardo Ribeiro; Rui Maia

Ciência_Iscte Publicações Descrição Detalhada da Publicação

Artigo em revista científica Q2

Named entity recognition for sensitive data discovery in Portuguese

Mariana Dias (Dias, M. ); João boné (Boné, J.); Joao C Ferreira or Joao Ferreira (Ferreira, J.); Ricardo Ribeiro (Ribeiro, R.); Rui Maia (Maia, R.);

Título Revista

Applied Sciences

Ano (publicação definitiva)

2020

Língua

Inglês

País

Suíça

Mais Informação

Visitar Link

Web of Science®

N.º de citações: 28

(Última verificação: 2026-04-07 19:05)

Ver o registo na Web of Science®

Índice de Impacto do Artigo: 2.1

Ver Mais

Scopus

N.º de citações: 32

(Última verificação: 2026-04-07 21:50)

Ver o registo na Scopus

Índice de Impacto do Artigo: 1.7

Ver Mais

Google Scholar

N.º de citações: 52

(Última verificação: 2026-04-07 20:34)

Ver o registo no Google Scholar

Overton

Esta publicação não está indexada no Overton

Abstract/Resumo

The process of protecting sensitive data is continually growing and becoming increasingly important, especially as a result of the directives and laws imposed by the European Union. The effort to create automatic systems is continuous, but, in most cases, the processes behind them are still manual or semi-automatic. In this work, we have developed a component that can extract and classify sensitive data, from unstructured text information in European Portuguese. The objective was to create a system that allows organizations to understand their data and comply with legal and security purposes. We studied a hybrid approach to the problem of Named Entity Recognition for the Portuguese language. This approach combines several techniques such as rule-based/lexical-based models, machine learning algorithms, and neural networks. The rule-based and lexical-based approaches were used only for a set of specific classes. For the remaining classes of entities, two statistical models were tested—Conditional Random Fields and Random Forest and, finally, a Bidirectional-LSTM approach as experimented. Regarding the statistical models, we realized that Conditional Random Fields is the one that can obtain the best results, with a f1-score of 65.50%. With the Bi-LSTM approach, we have achieved a result of 83.01%. The corpora used for training and testing were HAREM Golden Collection, SIGARRA News Corpus, and DataSense NER Corpus.

Agradecimentos/Acknowledgements

Palavras-chave

Sensitive data,General data protection regulation,Natural language processing,Portuguese language,Named entity recognition

Classificação Fields of Science and Technology

Ciências da Computação e da Informação - Ciências Naturais
Ciências Físicas - Ciências Naturais
Ciências Químicas - Ciências Naturais
Outras Ciências Naturais - Ciências Naturais
Engenharia Civil - Engenharia e Tecnologia
Engenharia Química - Engenharia e Tecnologia
Engenharia dos Materiais - Engenharia e Tecnologia

Identificadores da Publicação

ISSN (fonte: Externo)	2076-3417
DOI (fonte: ORCID)	10.3390/app10072303
WoS (fonte: Ciência_Iscte)	WOS:000533356200102
ISSN (fonte: ORCID)	2076-3417
Outro ID (fonte: ORCID)	cv-prod-id-1715958
DOI (fonte: autor)	10.3390/app10072303
Scopus (fonte: Ciência_Iscte)	2-s2.0-85083575201
WoS (fonte: Externo)	000533356200102
Handle (fonte: outro)	http://hdl.handle.net/10071/20414
Handle (fonte: Ciência-IUL)	http://hdl.handle.net/10071/20414
Scopus (fonte: Externo)	2-s2.0-85083575201
DOI (fonte: outro)	10.3390/app10072303
Outro ID (fonte: Externo)	cv-prod-id-1715958
ID Ciência_Iscte	ci-pub-70949

Outros Detalhes da Publicação

Ano Publicação Online	2020
Editora	MDPI
Indexação	Web of Science©; Scopus;
ISSN	2076-3417 (print) 2076-3417 (online)
ISBN	--
Factor de Impacto	--
Volume	10	Número	7
Série
Número Artigo	2303
Páginas	--
Avaliado Cientificamente	Sim
Meio de Divulgação	Ambos (impresso e digital)
Repositório ISCTE-IUL	Link para o repositório
Data Publicação (online)
Data Publicação (print)

Altmetric

Dimensions

PlumX Metrics