Candidato:
Felermino Dário Mário António Ali
Data, Hora e Local:
20 de fevereiro de 2026, 14:00, Sala de Atos da Faculdade de Engenharia da Universidade do Porto
Presidente do Júri:
Doutor Pedro Nuno Ferreira da Rosa da Cruz Diniz, Professor Catedrático da Faculdade de Engenharia da Universidade do Porto
Vogais:
Doutora Maarit Tuulikki Koponen, Professor at the School of Humanities of the Philosophical Faculty of the University of Eastern Finland (Finland);
Doutora Maria Luísa Torres Ribeiro Marques da Silva Coheur, Professora Associada do Departamento de Engenharia Informática do Instituto Superior Técnico da Universidade de Lisboa;
Doutor Sérgio Sobral Nunes, Professor Associado do Departamento de Engenharia Informática da Faculdade de Engenharia da Universidade do Porto;
Doutor Henrique Daniel de Avelar Lopes Cardoso, Professor Associado do Departamento de Engenharia Informática da Faculdade de Engenharia da Universidade do Porto (Orientador).
A tese foi coorientada pelo Doutor Rui Manuel Sousa Silva, Professor Auxiliar da Faculdade de Letras da Universidade do Porto.
Resumo:
“Esta pesquisa explora a sub-representação de línguas de poucos recursos no campo da tradução automática, com foco específico no Emakhuwa, a língua local mais falada em Moçambique. Apesar de contar com mais de 7 milhões de falantes nativos, o Emakhuwa continua sub-representado tanto na esfera acadêmica quanto na tecnológica devido à falta de recursos digitais e ferramentas linguísticas. Para preencher essa lacuna, desenvolvemos os primeiros recursos significativos de tradução automática para o par de línguas português–Emakhuwa. Nossas contribuições incluem a criação de um corpus paralelo por meio da tradução manual de textos jornalísticos, a digitalização de materiais existentes e a tradução de benchmarks estabelecidos de avaliação em tradução automática. Avaliamos três estratégias centrais para melhorar o desempenho da tradução automática nesse contexto de poucos recursos: (1) aprendizado por transferência utilizando modelos multilíngues e centrados na África, (2) aumento de dados por meio de retrotradução e (3) integração de recursos linguísticos externos, como glossários de empréstimos e dicionários bilíngues. Os resultados mostram que modelos encoder-decoder, particularmente arquiteturas otimizadas para tradução como NLLB e M2M-100, apresentam desempenho equivalente ou superior a modelos maiores apenas com decoder, mantendo a eficiência computacional. A retrotradução oferece melhorias modestas, e a integração de empréstimos e recursos de dicionário, especialmente na direção português Emakhuwa, melhora significativamente a qualidade da tradução, sobretudo com o uso de LLMs. Este trabalho estabelece as bases para pesquisas futuras em PLN para línguas subrepresentadas e demonstra caminhos práticos para o desenvolvimento de sistemas de tradução automática em contextos com recursos limitados.”









