Provas de Doutoramento em Engenharia Informática (ProDEI): “Text Information Retrieval in Tetun”

Candidato:
Gabriel de Jesus

Data, Hora e Local:
1 de setembro de 2025, 14:30, Sala de Atos da Faculdade de Engenharia da Universidade do Porto

Presidente do Júri:
Doutor Rui Filipe Lima Maranhão de Abreu, Professor Catedrático do Departamento de Engenharia de Informática da Faculdade de Engenharia da Universidade do Porto

Vogais:
Doctor Arjen P. de Vries, Full Professor at the Institute for Computing and Information Sciences of the Radboud Universiteit, Nimega, The Netherlands;
Doutor Bruno Emanuel da Graça Martins, Professor Associado do Departamento de Engenharia Eletrotécnica e de Computadores do Instituto Superior Técnico da Universidade de Lisboa;
Doutor Henrique Daniel de Avelar Lopes Cardoso, Professor Associado do Departamento de Engenharia Informática da Faculdade de Engenharia da Universidade do Porto;
Doutor Sérgio Sobral Nunes, Professor Associado do Departamento de Engenharia Informática da Faculdade de Engenharia da Universidade do Porto (Orientador).

Resumo:

Garantir o acesso à informação em todas as línguas é crucial para reduzir as disparidades na participação das comunidades na era digital e promover uma sociedade mais inclusiva e equitativa, em particular para os falantes de línguas com poucos recursos. Contudo, permitir esse acesso continua a ser um desafio significativo para muitas dessas comunidades. O Tetun, uma língua que passou de dialeto a uma das línguas oficiais de Timor-Leste aquando da restauração da independência do país, em 2002, enfrenta desafios semelhantes. De acordo com o censo de 2015, o Tetun é falado por aproximadamente 79% da população, estimada em 1,18 milhões de habitantes. Apesar do seu estatuto oficial, o Tetun continua a ser subservido na tecnologia linguística. Em particular, não existem soluções de recuperação de informação para esta língua, o que dificulta a obtenção de informação relevante na internet e em plataformas digitais, no contexto de pesquisas textuais. Este trabalho aborda estes desafios, explorando estratégias de recuperação para pesquisas textuais que permitam aplicar técnicas de recuperação de informação no desenvolvimento de soluções de pesquisa para Tetun, com um foco específico na tarefa de recuperação ad-hoc de texto. Tendo em conta a inexistência de algoritmos, ferramentas e coleções de documentos para Tetun, este trabalho iniciou-se com a criação desses recursos fundamentais, que constituem contribuições relevantes para os domínios da recuperação de informação e do processamento de linguagem natural. Estes recursos incluem um tokenizador, um modelo de identificação de língua, um stemmer, uma lista de stopwords, uma coleção de documentos textuais em Tetun, uma coleção de julgamentos de relevância, resultados de referência para a tarefa de recuperação ad-hoc de texto, e uma coleção de interrogações de pesquisa. As contribuições para a recuperação de informação em línguas com poucos recursos incluem: (1) Um processo estruturado de recolha de dados, concebido para línguas com poucos recursos, que visa agilizar a construção de dados textuais a partir da web; (2) Uma metodologia com intervenção humana para anotar, processar e construir um conjunto de dados adequado a diversas tarefas de recuperação de informação e processamento de linguagem natural; (3) Uma abordagem baseada em redes para a deteção de stopwords; (4) Metodologias para o desenvolvimento de um stemmer, concebido para uma língua fortemente influenciada por empréstimos linguísticos, e a criação de um conjunto de dados de referência para a avaliação do seu desempenho; (5) Uma metodologia para a construção de um conjunto de dados de referência para a avaliação dos sistemas de recuperação; (6) Uma metodologia para estabelecer resultados de referência robustos para a tarefa de recuperação ad-hoc de texto; e (7) Estratégias de contextualização de documentos e de afinação com dois parâmetros para recuperação de texto baseada em pesquisa híbrida. Os resultados deste trabalho contribuem para o desenvolvimento de tecnologias associadas ao processamento computacional de Tetun, preenchem lacunas nos seus recursos linguísticos e alcançam resultados que elevam o estatuto do Tetun. Estes avanços abrem novas oportunidades para investigações e inovações futuras. Além disso, este trabalho introduz metodologias adaptáveis a outras línguas que enfrentam desafios semelhantes, contribuindo, assim, para o avanço da recuperação de informação em línguas com poucos recursos.

Posted in Destaque, Eventos, Notícias, Provas PhD.