O Iscte, através da sua unidade de investigação ISTAR_Iscte, ganhou recentemente o projeto ORAL - kriOl(u) laRge lAnguage modeLs, um projeto em consórcio com a Universidade de Cabo Verde cofinanciado pela OEI – Organização dos Estados Iberoamericanos https://oei.int/pt/, no seu programa de incentivo ao “Desenvolvimento, implementação e/ou formação em plataformas, aplicativos ou recursos tecnológicos orientados ao multilinguismo” no âmbito do Fundo de Apoio 2025 - OEI-Portugal. O orçamento do projeto é de 72 000 USD em 15 meses.
O objetivo principal da ação é o de permitir que os falantes de crioulo cabo-verdiano (ISO kea), uma língua de base lexical portuguesa que surgiu no início do século XV, em Cabo Verde e na diáspora, beneficiem da transformação digital na sua língua materna.
A ação visa também apoiar políticas públicas para a valorização, padronização e oficialização da língua cabo-verdiana de forma articulada com as instituições públicas de Cabo Verde que têm o pelouro do desenvolvimento da língua cabo-verdiana e da língua portuguesa, como o Ministério de Educação e Ministério de Cultura e Industrias Criativas, ou o Instituto Camões - Instituto da Cooperação e da Língua, e outras partes interessadas da sociedade civil, como a Associação de Língua Materna Cabo-verdiana ALMA-CV, favorecendo a integração desta língua no cenário internacional da transformação digital, onde línguas como o português e o espanhol já estão consolidadas.
Este projeto vai criar e disponibilizar os seguintes recursos linguísticos e ferramentas de processamento de língua natural ainda inexistentes para o crioulo cabo-verdiano, garantindo à comunidade falante desta língua acesso aberto e código livre, relativamente aos resultados do projeto.
- Corpora de texto kea (nas variedades dialetais de Santiago e São Vicente);
- Corpora paralela de texto kea:pt-pt;
- O primeiro modelo de linguagem em grande escala (LLM) para gerar texto e diálogo escrito em kea;
- O primeiro modelo de linguagem em grande escala para tradução bidirecional kea ↔ pt-pt;
- Um glossário fonético kea e aplicação web demonstradora;
- Corpora de fala kea nas variedades de Santiago e São Vicente;
- O primeiro sistema de reconhecimento de fala em kea;
- Um chatbot com a possibilidade de interação em língua kea escrita;
- Um voicebot com a possibilidade de interação em língua kea falada (com reconhecimento de fala);
- APIs públicas para acesso programático aos recursos, modelos e corpora atrás indicados, publicados no Hugging face (https://huggingface.co/ ).
Além do desenvolvimento tecnológico, a iniciativa inclui ações de formação para funcionários públicos, professores, investigadores, estudantes, empresários e cidadãos com necessidades especiais, capacitando-os para integrarem estas ferramentas nos seus processos organizacionais e de negócio. Adicionalmente, será avaliado o impacto social e institucional do uso destas tecnologias.
Ficha do projeto:
Orçamento Iscte: 46,368.00 USD
Co-PIs Iscte: Prof. Miguel Sales Dias e Prof. António Raimundo
Orçamento UniCV: 25,632.00 USD
Co-PIs UniCV: Prof. Dominika Swolkien e Prof. Ana Karina Moreira
Duração: 15 Meses com início em Outubro 2025.
English