DAFIM
Desenvolvimento de algoritmos de detecção de padrões de fraude na verificação de incentivos
Descrição

O objetivo da candidatura submetida foi a apresentação de uma solução para um problema real com que a Administração Pública se debate, a deteção antecipada de irregularidades, sendo a mais grave a fraude. O projeto DAFIM (Desenvolvimento de algoritmos de deteção de padrões de fraude na verificação de incentivos), em parceria com a AICEP Portugal Global, pretende melhorar a eficiência e eficácia dos programas comunitários em Portugal e, por outro lado, garantir que apenas as empresas cumpridoras acedam aos incentivos financeiros provenientes da UE (União Europeia). Assim, a agilização de processos e a fiabilidade das decisões tomadas só se consegue recorrendo a ferramentas informáticas e a modelos de apoio à decisão que, de facto, permitam aos decisores, em tempo útil, tomar decisões informadas. Respondendo ao desafio levantado no passado dia 15 e de acordo com as criticas apresentadas pelo painel de avaliação da FCT, apresentamos os seguintes pontos relativos ao futuro:

1.         Aspetos do projeto amelhorar

 

1.1.             CritérioA

1.1.1.     “Não é esperado nenhum contributo importante para o avanço doconhecimento científico.”

O estudo dos dados, a identificação de padrões e perfis utilizando algoritmos de data e text mining, já por si poderá dar ganhos de eficiência e eficácia para a administração pública prevenindo possíveis fraudes e contributos para o avanço do conhecimento científico, pois vai aplicar-se a uma nova área de atuação. Por outro lado, apesar de não se utilizarem técnicas analíticas novas, a sua fusão num único modelo também ainda não foi feito. Os diversos outputs do conjunto dos modelos e do modelo final, darão indicação das variáveis explicativas para prever as irregularidades e, consequentemente, a decisão vai estar suportada nos dados.

Assim, iremos explicar e fundamentar melhor que a utilização de algoritmos de data e text mining e de auditoria de projetos poderá ser explorada em conjunto, por forma a criar conhecimento para a comunidade cientifica, não sendo só uma nova área de atuação.

Adicionalmente, será relevado o facto de se considerarem nos modelos dados, estruturados e não estruturados, de diferentes fontes (incluindo variáveis macroeconómicas), o que por si só já é um contributo relevante para o tema da deteção de fraude em processos de atribuição de incentivos comunitários.

1.1.2.     Proposta de se fazer muito com poucosrecursos

Alocação de mais recursos humanos, nomeadamente bolseiros. Em alternativa pondera-se dividir o projeto em duas partes: uma primeira à candidatura e outra ligada à verificação dos projetos aprovados.

 

1.2.             CritérioB

O PI ser economista e não ter muitas publicações em inglês o que reduz o impacto a nível internacional.

O PI além de ser “economista” também tem currículo a nível da análise de dados aplicados à economia, o que será essencial para a resolução do problema proposto. Assim, pensamos em incluir na equipa um investigador com bom currículo em machine learning e realçar as publicações em inglês do PI (indicando, por exemplo, as 100 citações Scopus). 

 

1.3.       Critério C

1.3.1.            Inexistência de contribuição financeira da AICEP Portugal Global. 

Está agendada, para dia 13/dez, uma reunião com a entidade para a obtenção de dados relacionados com as candidaturas e sua compreensão e, essencialmente, para definir, em concreto, os próximos passos e avaliar o contributo da AICEP Portugal Global para projeto, não só com a disponibilização de dados e acompanhamento do projeto, mas também com o envolvimento de recursos financeiros e humanos.

1.3.2.            É uma extensão limitada do trabalho desenvolvido na administração fiscal portuguesa.

Evidenciar as diferenças entre o desenvolvimento da ferramenta para a deteção fraude pela administração fiscal portuguesa e o modelo proposto para a AICEP Portugal Global. Os modelos existentes na administração fiscal Portuguesa não são híbridos, pois não utilizam diferentes técnicas, nomeadamente algoritmos de text mininge de manipulação de resultados. Também, até ao momento, não são utilizados dados não estruturados nos modelos. Utilizam somente o cruzamento da informação proveniente das diversas e vastas fontes e algoritmos de data mining. A maior diferença reside na dimensão (na AICEP Portugal Global é menor) e na fusão de diferentes algoritmos num único modelo, a inovação vai residir neste ponto, pois até ao momento não existe bibliografia científica sobre um modelo hibrido que reúna estes algoritmos. 

 

 
Desafio

As tarefas a realizar nos próximos três meses:

A metodologia utilizada vai ser a do CRISP DM (Cross Industry Standard Process for Data Mining) que é composta por seis fases. Nos próximos três meses prevê-se o início das seguintes fases:

Fase 1: entendimento do negócio e definição do plano preliminar para atingir os objetivos do projeto e do modelo, nomeadamente o levantamento de requisitos.

Fase 2: entendimento dos dados. Extração dos dados e início de atividades para familiarização com os dados, nomeadamente a sua descrição, exploração dos dados e verificação da sua qualidade. Na descrição dos dados deverá ter-se em atenção o dicionário de dados, que deverá ser fornecido pela entidade.

A extração será realizada pela equipa da AICEP Portugal Global. Vão fornecer os seguintes dados relativamente às empresas que submeteram candidaturas, independentemente de ter sido aprovada ou não: i) dados estruturados financeiros; ii) dados estruturados não financeiros; e iii) dados não estruturados.

Caso os dados não estruturados ainda estejam em suporte papel, será necessária a sua digitalização; pretendemos que esse trabalho seja executado pela entidade.

Para a familiarização com os dados será utilizado o softwareIBM SPSS Statistics e IBM SPSS Modeler (em alternativa poderá ser usado um software open source (e.g., Knime), mas terá um custo de aprendizagem por parte dos investigadores).

Posteriormente, após validação e avaliação das empresas será necessário aceder à BD Amadeus, na qual o ISCTE-IUL tem acesso (em fase de renovação da assinatura), para extração de dados de empresas não candidatas e, também, das candidatas para a janela temporal da análise (entre menos três e mais três anos dos anos referentes ao projeto). Será ainda necessário recolher dados do INE relativos à situação macroeconómica nos anos de análise para os diferentes concelhos de Portugal.

Fase 3: preparação dos dados. Tendo-se os dados recolhidos irá dar-se início à preparação dos dados, isto é, à criação de novos atributos (por exemplo, índices de manipulação de resultados, estruturação dos dados não estruturados com base em text mining), tendo em vista terem-se os dados adequados à obtenção dos primeiros modelos para teste. Adicionalmente será necessário criar um modelo de dados relacional (base de dados) em que diversas tabelas se encontram relacionadas.

Parceiros Internos
Centro de Investigação Grupo de Investigação Papel no Projeto Data de Início Data de Fim
UNIDE-IUL Data Analytics Parceiro 2018-12-10 2019-12-31
Parceiros Externos

Não foram encontrados registos.

Equipa de Projeto
Nome Afiliação Papel no Projeto Data de Início Data de Fim
Raul Manuel Silva Laureano UNIDE-IUL [Data Analytics] Investigador Responsável 2018-12-10 2019-12-31
Financiamentos do Projeto

Não foram encontrados registos.

Outputs (Publicações)

Não foram encontrados registos.

Outputs (Outros)

Não foram encontrados registos.

Ficheiros do projeto

Não foram encontrados registos.

Desenvolvimento de algoritmos de detecção de padrões de fraude na verificação de incentivos
2018-12-10
2019-12-31