DEI Talks | “smtgcc: Using an SMT solver to find bugs in GCC” por Krister Walfridsson

A palestra “smtgcc: Using an SMT solver to find bugs in GCC” será apresentada por Krister Walfridsson no dia 4 de dezembro, às 16:00, online:

Join the meeting 
Meeting ID: 373 912 942 228 7
Passcode: XS9M8dT3

Resumo:

“SMT solvers are increasingly effective for finding compiler bugs and validating optimizations. This talk presents smtgcc, a translation-validation tool for GCC. It is similar to Alive2 for LLVM, but smtgcc’s approach diverges from Alive2 because GCC and LLVM follow different design choices. I will explain how smtgcc works and discuss issues in formalizing the semantics of GIMPLE, GCC’s IR.”

Sobre o Palestrante:

Krister Walfridsson envolveu-se no projeto GCC enquanto estudante universitário, em meados da década de 1990. Desde que concluiu os estudos, trabalhou com compiladores e sistemas operacionais em vários ambientes incorporados. Mais recentemente, passou 10 anos na Arm como Principal Engineer na equipa Mali GPU. Atualmente, está a tirar alguns anos de pausa para se dedicar a projetos pessoais e à dança.

DEI Talks | “Knowledge Graphs + AI: The Evolution of Automated GitHub Issue Resolution” pela Prof.ª He Ye (University College London)

A palestra intitulada “Knowledge Graphs + AI: The Evolution of Automated GitHub Issue Resolution” será apresentada pela Prof.ª He Ye no dia 17 de novembro, às 14:30, na sala B008, e será moderada pela Prof.ª Alexandra Mendes (DEI).

Resumo:

“AI coding agents are becoming increasingly capable, achieving strong results on benchmarks such as SWE-bench. However, most still struggle with real-world challenges such as issue reproduction, precise context retrieval from large codebases, and the high cost of LLMs. In this talk, I will introduce our recent code agent, Prometheus — a knowledge graph-powered, multi-agent system designed to tackle GitHub issues in practice. Prometheus transforms entire repositories into a unified knowledge graph stored in Neo4j for scalable and structured reasoning. This enables precise, cross-language context retrieval, allowing large language models to generate accurate and efficient fixes. Prometheus delivers robust performance, resolving diverse issues across seven programming languages. I will show how combining LLMs with knowledge graphs can advance automated issue resolution beyond today’s benchmark-driven limits. We have recently transitioned this research into an off-the-shelf product that helps industry resolve software issues automatically.”

Sobre a Palestrante:

He Ye é Professora Auxiliar na University College London. Anteriormente, trabalhou como investigadora de pós-doutorado na Carnegie Mellon University e obteve o seu doutoramento no KTH Royal Institute of Technology. A sua investigação centra-se no desenvolvimento da próxima geração de agentes de código para automatizar tarefas de engenharia de software, com foco na recuperação do contexto da base de código, resolução automatizada de problemas e construção da memória do agente de código. Além da academia, ela é cofundadora da EuniAI, uma startup comprometida em transformar pesquisas em soluções reais que ajudam os programadores a enfrentar desafios práticos de software.

DEI Talks | “Energy-awareness in compute acceleration: The role of FPGAs” pelo Prof. Shreejith Shanker

A palestra intitulada “Energy-awareness in compute acceleration: The role of FPGAs“, será apresentada pelo Prof. Shreejith Shanker no dia 30 de outubro, às 11:30, na sala B012, e será moderada pelo Prof. Tiago Carvalho (DEI).

Resumo:

“The talk will cover a set of projects that my team at TCD is working on, spanning embedded and distributed systems to high-performance media workflows, and how FPGAs are enabling an energy-performance trade-off in these applications.”

Sobre o Palestrante:

Shreejith Shanker é Professor Auxiliar de Computação Reconfigurável no Trinity College de Dublin, Irlanda, e lidera o grupo de investigação sobre arquitecturas reconfiguráveis, aceleradores e fluxos de trabalho. Os seus interesses de investigação incluem arquitecturas de computação reconfiguráveis e adaptáveis, computação em rede, fluxos de trabalho de pós-produção de media, ferramentas de automatização da conceção e sistemas incorporados distribuídos, com destaque para as abordagens de compromisso desempenho-energia e de conceção de códigos hardware-software.

DEI Talks | “Declarative Programming” por Steven Pemberton (ACM Distinguished Speaker)

A palestra “Declarative Programming” será proferida por Steven Pemberton, investigador de renome na área da Ciência da Computação e das Tecnologias de Informação e ACM Distinguished Speaker, no dia 23 de outubro, às 10h00, na sala B033, e será moderada pelo Prof. João Ferreira. A entrada é livre.

Resumo:

“In the 50s, when the first programming languages were designed, computers cost millions, and relatively, programmers were almost free. Those programming languages therefore reflected that relationship: it didn’t matter if it took a long time to program, as long as the resulting program ran as fast as possible.
Now, that relationship has been reversed, which I call Moore’s Switch: compare to the cost of programmers, computers are almost free.
And yet we are still programming in descendants of the programming languages from the 50s: we are still telling the computers step by step how to solve the program.
Declarative programming is a new approach to applications: rather than describing exactly how to reach the solution, it describe what the solution should look like, and leaves more of the administrative parts of the program to the computer.
One of the few declarative languages available is XForms, an XML-based language that despite what its name might suggest is not only about form. Large projects, at large companies such as the National Health Service, the BBC and Xerox, have shown that by using XFoms, programming time and cost of application can be reduced to a tenth and sometimes even much more.”

Sobre o Palestrante:

Steven Pemberton is a distinguished researcher in the field of computer science and information technology, with a long and rich history of contributions to the development of the internet and the web. He is affiliated with the Dutch national research centre Centrum Wiskunde & Informatica (CWI) in Amsterdam, The Netherlands, where he conducts research on interaction, declarative programming, and web technologies.
At university he was tutored by Dick Grimsdale who built the world’s first transistorised computer, and who was himself a tutee of Alan Turing. After university, Pemberton — coincidentally — worked in Turing’s old department in Manchester, writing software for the 5th computer in the line of computers Turing had worked on.
Pemberton was the first user of the open internet in Europe when the CWI created the first connection in 1988, and has been involved with the web from its inception, co-designing several web standards, including HTML, CSS, XHTML, XForms, and RDFa. He chairs two groups at W3C.
In addition to his work on the web, Pemberton has also made significant contributions to other areas of computer science, such as the design of programming languages, having co-designed the language that Python is based on, and the study of human-computer interaction. His involvement with ACM includes being editor in chief of The SIGCHI Bulletin, and then ACM interactions for a decade; he has chaired the CHI Conference and he co-founded the Netherlands local SIGCHI group, and chaired several local CHI conferences there.
He has received numerous awards and recognitions for his work, including the ACM SIGCHI Lifetime Service Award and the ACM SIGCHI Lifetime Practice Award.
As a speaker, Pemberton is known for his engaging and informative presentations, which draw on his deep knowledge of computer science and his passion for technology, and cover both social and technological aspects of computing. His talks are always thought-provoking and entertaining, and he has been invited to speak at numerous conferences and events around the world. In 2023 he became an ACM Distinguished Speaker. He is bi-lingual in English and Dutch.
A fuller bio, videos, and a full list of talks is available on his website: https://www.cwi.nl/~steven”

DEI Talks | “Software process modeling and test automation: Introducing the Reliable Software Architectures Research Group” pelo Prof. Přemek Brada

A palestra intitulada “Software process modeling and test automation: Introducing the Reliable Software Architectures Research Group” será apresentada no dia 9 de outubro, às 15:30, na sala B031, e será moderada pela Prof. Ana Paiva (DEI).

Resumo:

“In this talk, I will give an overview of research done by the Reliable Software Architectures Research Group at the University of West Bohemia in Pilsen, Czechia. The focus will be on analysing software process data to detect project management (anti-)patterns, where we’ll discuss the challenges in modeling software process elements in a way that is conducive to mapping onto the information gathered in project management tools. We’ll also touch the topic of analyzing software implementations to perform advanced verification and testing.”

Sobre o Palestrante:

Přemek Brada é Professor Associado na área de Engenharia de Software no Departamento de Engenharia e de Ciência da Computação da University of West Bohemia, em Pilsen, Czechia. A sua investigação abrange as áreas de consistência da arquitetura de software, métodos interativos de visualização de arquitetura e metodologias de desenvolvimento de software, incluindo a análise de dados de processos relacionados. Leciona, ao nivel de licenciatura e mestrado, unidade curriculares de design e modelagem orientados a objetos, práticas avançadas de engenharia de software e também gestão do conhecimento. Atualmente, é Diretor de departamento e membro do Conselho da Informatics Europe, a associação de faculdades e departamentos de informática europeus.

GNU Tools Cauldron 2025 reuniu especialistas internacionais na FEUP

A Faculdade de Engenharia da Universidade do Porto (FEUP) acolheu, entre 26 e 28 de setembro, a 14.ª edição da GNU Tools Cauldron, uma conferência técnica de referência mundial dedicada à GNU Toolchain e às ferramentas de desenvolvimento open source associadas.

Este encontro internacional decorreu pela primeira vez em Portugal e reuniu cerca de 140 participantes vindos de mais de uma dúzia de países, incluindo Canadá, Alemanha, República Checa, Reino Unido, Irlanda, Portugal, Países Baixos, França, Índia, Estados Unidos, Bélgica, China, África do Sul e Brasil.

Um evento com história e impacto global

Criada em 2012, a GNU Tools Cauldron tem sido organizada anualmente, passando por algumas das universidades mais prestigiadas do mundo, como a University of Cambridge (Reino Unido), a Charles University (República Checa) e a University of Manchester (Reino Unido), chegando agora à Universidade do Porto. Ao longo da sua história, o evento já teve lugar em cidades como Mountain View, Praga, Cambridge, Manchester, Hebden Bridge, Montreal e Porto. A realização da conferência em parceria com instituições de ensino superior tem como objetivo reforçar a ligação entre a comunidade internacional de desenvolvimento open source e o meio académico, promovendo o envolvimento direto de estudantes e investigadores.

Esta conferência técnica foca-se na GNU Toolchain — que inclui ferramentas fundamentais, como gcc e gdb, e utilitários e bibliotecas, como binutils e glibc — e em projetos associados (ltrace, poke, systemtap, valgrind, entre outros). Trata-se de um ecossistema crítico para a maior parte das distribuições Linux de referência (AlmaLinux, CentOS Stream, Debian, Fedora, Gentoo, RHEL, Rocky Linux, SUSE, Oracle Linux), desempenhando um papel central na cadeia global de fornecimento de software open source seguro.

Colaboração entre indústria e academia

A edição de 2025 contou com o apoio do Departamento de Engenharia Informática (DEI) da FEUP, como coorganizador, aproximando a comunidade académica das pessoas que contribuem para a GNU toolchain e para outros software open source. Durante três dias, desenvolvedores de software, investigadores, professores universitários, engenheiros e estudantes tiveram oportunidade de assistir a apresentações e debates liderados por especialistas internacionais na área de compiladores, toolchains e normalização de linguagens software.

Os participantes incluem colaboradores ativos em organismos de definição de normas internacionais, como ISO C, ISO C++, DWARF, OpenMP, POSIX/IEEE e Rust, contribuindo diretamente para a evolução das linguagens e ferramentas usadas por milhões de programadores em todo o mundo.

“É um prazer acolher este evento pela primeira vez em Portugal e, em particular, no Porto. As contribuições do GNU tiveram um impacto profundo no ensino, na investigação e no avanço tecnológico para o bem comum”, sublinhou o Diretor do DEI, Prof. João Paiva Cardoso, na sessão de abertura.

Apoio institucional e empresarial

O desenvolvimento da cadeia de ferramentas GNU faz parte do Projeto GNU e é apoiado pela FSF e por uma comunidade mundial de programadores e patrocinadores empresariais.

O GNU Tools Cauldron 2025 contou com o patrocínio e apoio de importantes empresas e instituições internacionais: AdaCore, AMD, ARM, BayLibre, Embecosm, NVIDIA, Open Source Security, Synopsys, Pretalx (software de gestão de conferências), Pretix (plataforma de bilhética) e FEUP, que coorganizou e apoiou logisticamente o evento.

Página do evento: https://conf.gnu-tools-cauldron.org/opo25/
Vídeos de todas as sessões do evento: https://www.youtube.com/playlist?list=PL_GiHdX17WtxuKn7QYme8EfbBS-RKSn0w

DEI Talks | “Networks, networks, and more networks: applications in humanities, data science, and machine learning” pela Prof. Ana Bazzan

A palestra “Networks, networks, and more networks: applications in humanities, data science, and machine learning” será apresentada dia 1 de outubro, às 14:45, na sala B004, moderada pelo Prof. Rosaldo Rossetti (DEI).

Resumo:

“It is known that networks or graphs can be used in machine learning and data science to represent and analyze data that has complex relationships. Besides these uses, networks are also relevant to the overall AI agenda in at least two aspects. First, it relates to automated data gathering and language models in the semantic web, since the actual data have to be acquired in some manner in order to form the graphs. Second, it can be used to accelerate learning tasks, as in the case of reinforcement learning. In this talk I present examples of how data is acquired and used in applications in the Humanities (history, storytelling) in order to discover patterns and/or to investigate assumptions. Then, I discuss applications on data science and machine learning, as for instance the use of networks in reinforcement learning, with examples from urban mobility and car to infrastructure communication.”

Sobre a Palestrante:

Ana Bazzan é Professora Catedrática de Ciências da Computação no Instituto de Informática da Universidade Federal do Rio Grande do Sul (UFRGS), em Porto Alegre, Brasil. A sua investigação centra-se em sistemas multiagentes, em particular na modelação e simulação baseadas em agentes (ABMS), e na aprendizagem multiagente no domínio dos transportes. Desde 1996, tem colaborado com vários investigadores na aplicação de ABMS e teoria dos jogos a domínios das ciências sociais, tais como a emergência da cooperação, o dilema do prisioneiro e jogos de bens públicos. Nos últimos anos, tem contribuído para diferentes tópicos relacionados com as cidades inteligentes, centrando-se nos transportes, bem como nas sinergias entre sistemas multiagentes, aprendizagem automática e sistemas complexos. Em 2014, Bazzan foi General Co-chair da AAMAS (a principal conferência na área dos agentes autónomos e sistemas multiagentes).

Festa do Software Livre 2025

Na próxima semana, entre os dias 3 e 5 de outubro, a Faculdade de Engenharia da Universidade do Porto (FEUP) não será apenas palco de um evento, mas sim de uma demonstração prática do futuro da tecnologia. A Festa do Software Livre 2025, de entrada gratuita, transcende a ideia de uma simples conferência. Posiciona-se como uma aula aberta e essencial para estudantes, educadores e empresários sobre um dos pilares mais importantes, e muitas vezes invisível, do mundo digital: o Software Livre.

Numa era em que a tecnologia é dominada por licenças dispendiosas e ecossistemas fechados, a FSL surge como um lembrete poderoso de que existe uma alternativa mais democrática, segura e flexível. Mas qual é, afinal, a importância do software livre e por que razão um evento como este é tão crucial para o panorama educativo e empresarial português?

Uma Lição de Autonomia e Inovação
No coração do movimento do software livre existe uma ideia simples, mas revolucionária: a tecnologia que usamos deve estar ao nosso serviço, e não o contrário. Baseia-se em quatro liberdades fundamentais: a de usar, estudar, partilhar e, crucialmente, modificar o software. É esta capacidade de “abrir o capot” que transforma um estudante de um mero consumidor de tecnologia num criador ativo e solucionador de problemas.

Para o sistema de ensino, isto representa uma oportunidade pedagógica imensa. Escolas e Universidades podem equipar os seus laboratórios com sistemas operativos e ferramentas de programação de ponta, como o Linux ou o Blender (para modelação 3D), sem gastar um cêntimo em licenças. Mais importante ainda, permitem que os estudantes explorem, desmontem e compreendam o código que faz o mundo digital funcionar, fomentando o pensamento crítico e a inovação desde a base. A Festa do Software Livre materializa esta ideia, com workshops práticos onde se pode aprender a programar, a proteger a sua privacidade online ou a dar os primeiros passos em Inteligência Artificial, usando ferramentas abertas e acessíveis a todos. O Motor Secreto da Economia Digital

Para o meio empresarial, a mensagem é igualmente clara: o software livre não é uma alternativa de ‘segunda linha’, mas sim o motor que alimenta gigantes tecnológicos. A internet, como a conhecemos, assenta em grande parte sobre tecnologias de código aberto. Adotar software livre permite às empresas portuguesas, desde startups a PMEs, reduzir drasticamente os custos operacionais, mas os benefícios vão muito além da poupança. Significa ter soberania tecnológica: a capacidade de adaptar o software às necessidades exatas do negócio, sem ficar refém de um único fornecedor e das suas políticas de preços. Significa ter mais segurança, pois o código pode ser auditado por uma comunidade global que identifica e corrige falhas de forma transparente e rápida.

A presença na FSL de entidades como a ESOP (Associação de Empresas de Software Open Source Portuguesas) demonstra que já existe um ecossistema empresarial vibrante em Portugal a prosperar com base neste modelo. O evento funciona, assim, como uma ponte, mostrando aos futuros engenheiros as oportunidades de carreira neste setor e, aos empresários, as vantagens competitivas de uma aposta estratégica na tecnologia aberta.

Um investimento para o futuro
Em resumo, a Festa do Software Livre 2025 é muito mais do que um encontro de entusiastas. É um investimento no futuro do país. É a prova viva de que, ao abraçar os princípios da colaboração e do conhecimento aberto, Portugal pode capacitar os seus estudantes para serem os inovadores de amanhã e fortalecer as suas empresas para competirem numa escala global. A aula está prestes a começar, e a entrada é livre.

Consulte o programa do evento e participe!

https://festa2025.softwarelivre.eu

A FSL 2025 tem o apoio do Departamento de Engenharia Informática (DEI).

Provas de Doutoramento em Engenharia Informática (ProDEI): ”Generative models for soccer”

Candidato:
Tiago Filipe Mendes Neves

Data, Hora e Local:
16 de setembro de 2025, 15h30, Sala de Atos da Faculdade de Engenharia da Universidade do Porto

Presidente do Júri:
Doutor Pedro Nuno Ferreira da Rosa da Cruz Diniz, Professor Catedrático do Departamento de Engenharia Informática da Faculdade de Engenharia da Universidade do Porto

Vogais:
Doctor Keisuke Fujii, Associate Professor at the Department of Intelligent Systems of the Graduate School of Informatics of the Nagoya University, Japan;
Doctor Jesse Jon Davis, Full Professor at the Department of Computer Science of the Faculty of Engineering Science of the Katholieke Universiteit Leuven, Belgium;
Doutor Luís Paulo Gonçalves dos Reis, Professor Associado com Agregação do Departamento de Engenharia Informática da Faculdade de Engenharia da Universidade do Porto;
Doutor João Pedro Carvalho Leal Mendes Moreira, Professor Associado do Departamento de Engenharia Informática da Faculdade de Engenharia da Universidade do Porto (Orientador).

A tese foi coorientada pelo Doutor Luís Jorge Machado da Cunha Meireles, Senior Psychologist & Data Scientist, FC Porto.

Resumo:

Os grandes modelos auto-supervisionados em áreas como a linguagem, a visão e a biologia estão a transformar o mundo. No entanto, estes modelos generativos, que aprendem a distribuição dos dados com que são treinados, não apresentam o mesmo nível de desempenho em todos os usos. Por exemplo, os Large Language Models (LLMs) ainda não têm um caso de uso concreto na análise desportiva. Faltam capacidades de raciocínio a estes modelos para produzir conhecimento aplicável para poderem competir com um conjunto de métricas específicas já estabelecidas na análise desportiva.
Embora existam alguns estudos que exploram a aplicabilidade de modelos generativos no futebol, nenhum estudo ambiciona resolver o desafio de construir um modelo de aprendizagem autosupervisionada completo para dados de eventos de futebol. Se considerarmos os eventos num jogo de futebol (cada remate, passe, desarme, …) como as “palavras” que descrevem o que está a acontecer, podemos considerar cada posse de bola uma “frase”, cada jogo uma “composição” e os dados de eventos uma “linguagem”. Ao trabalhar neste enquadramento, temos todas as ferramentas para construir um modelo auto-supervisionado à imagem das LLMs. O objetivo desta tese é construir um modelo de base auto-supervisionado para dados de eventos de futebol – denominado Large Events Model (LEM) – e demonstrar a sua aplicabilidade no campo e generalidade na resolução de diferentes tarefas, como simulação e modelação, que de outra forma exigiriam abordagens individualizadas. Propomos três abordagens para construir LEMs: chain of classifiers, causal mask modeling, e sequential language modeling com transformers.
Em primeiro lugar, a chain of classifiers fornece o primeiro modelo generativo que modela todos os aspetos dos dados de eventos sem impor restrições aos tipos de eventos, alcançando um nível de desempenho que permite a simulação em larga escala de jogos de futebol. Investigamos também duas abordagens alternativas para remover restrições da primeira abordagem. A abordagem de causal mask modeling usando redes neuronais tem o melhor desempenho em vários dos nossos critérios de avaliação, fornecendo um conjunto de modelos prontos para resolver uma ampla gama de tarefas de análise de futebol. Exploramos aplicações desde a pesquisa automática de estratégias com aprendizagem por reforço até aos comportamentos de risco-recompensa dos jogadores de futebol. Esta tese apresenta mais de uma dúzia de casos de uso para LEMs. As LEMs têm o potencial de se tornarem o sistema operativo para dados de eventos na análise do futebol. Elas transformam a forma como os clubes trabalham, com um acesso facilitado a modelos que de outra forma exigiriam um grande esforço de modelação. Com as LEMs, a barreira de entrada diminuirá significativamente, pois qualquer clube do mundo poderá aceder a um modelo capaz de resolver os seus problemas mais relevantes.

Palavras Chave: modelos generativos; modelos de base; analítica desportiva; aplicações de aprendizagem profunda; simulação; futebol.

Provas de Doutoramento em Engenharia Informática (ProDEI): “Text Information Retrieval in Tetun”

Candidato:
Gabriel de Jesus

Data, Hora e Local:
1 de setembro de 2025, 14:30, Sala de Atos da Faculdade de Engenharia da Universidade do Porto

Presidente do Júri:
Doutor Rui Filipe Lima Maranhão de Abreu, Professor Catedrático do Departamento de Engenharia de Informática da Faculdade de Engenharia da Universidade do Porto

Vogais:
Doctor Arjen P. de Vries, Full Professor at the Institute for Computing and Information Sciences of the Radboud Universiteit, Nimega, The Netherlands;
Doutor Bruno Emanuel da Graça Martins, Professor Associado do Departamento de Engenharia Eletrotécnica e de Computadores do Instituto Superior Técnico da Universidade de Lisboa;
Doutor Henrique Daniel de Avelar Lopes Cardoso, Professor Associado do Departamento de Engenharia Informática da Faculdade de Engenharia da Universidade do Porto;
Doutor Sérgio Sobral Nunes, Professor Associado do Departamento de Engenharia Informática da Faculdade de Engenharia da Universidade do Porto (Orientador).

Resumo:

Garantir o acesso à informação em todas as línguas é crucial para reduzir as disparidades na participação das comunidades na era digital e promover uma sociedade mais inclusiva e equitativa, em particular para os falantes de línguas com poucos recursos. Contudo, permitir esse acesso continua a ser um desafio significativo para muitas dessas comunidades. O Tetun, uma língua que passou de dialeto a uma das línguas oficiais de Timor-Leste aquando da restauração da independência do país, em 2002, enfrenta desafios semelhantes. De acordo com o censo de 2015, o Tetun é falado por aproximadamente 79% da população, estimada em 1,18 milhões de habitantes. Apesar do seu estatuto oficial, o Tetun continua a ser subservido na tecnologia linguística. Em particular, não existem soluções de recuperação de informação para esta língua, o que dificulta a obtenção de informação relevante na internet e em plataformas digitais, no contexto de pesquisas textuais. Este trabalho aborda estes desafios, explorando estratégias de recuperação para pesquisas textuais que permitam aplicar técnicas de recuperação de informação no desenvolvimento de soluções de pesquisa para Tetun, com um foco específico na tarefa de recuperação ad-hoc de texto. Tendo em conta a inexistência de algoritmos, ferramentas e coleções de documentos para Tetun, este trabalho iniciou-se com a criação desses recursos fundamentais, que constituem contribuições relevantes para os domínios da recuperação de informação e do processamento de linguagem natural. Estes recursos incluem um tokenizador, um modelo de identificação de língua, um stemmer, uma lista de stopwords, uma coleção de documentos textuais em Tetun, uma coleção de julgamentos de relevância, resultados de referência para a tarefa de recuperação ad-hoc de texto, e uma coleção de interrogações de pesquisa. As contribuições para a recuperação de informação em línguas com poucos recursos incluem: (1) Um processo estruturado de recolha de dados, concebido para línguas com poucos recursos, que visa agilizar a construção de dados textuais a partir da web; (2) Uma metodologia com intervenção humana para anotar, processar e construir um conjunto de dados adequado a diversas tarefas de recuperação de informação e processamento de linguagem natural; (3) Uma abordagem baseada em redes para a deteção de stopwords; (4) Metodologias para o desenvolvimento de um stemmer, concebido para uma língua fortemente influenciada por empréstimos linguísticos, e a criação de um conjunto de dados de referência para a avaliação do seu desempenho; (5) Uma metodologia para a construção de um conjunto de dados de referência para a avaliação dos sistemas de recuperação; (6) Uma metodologia para estabelecer resultados de referência robustos para a tarefa de recuperação ad-hoc de texto; e (7) Estratégias de contextualização de documentos e de afinação com dois parâmetros para recuperação de texto baseada em pesquisa híbrida. Os resultados deste trabalho contribuem para o desenvolvimento de tecnologias associadas ao processamento computacional de Tetun, preenchem lacunas nos seus recursos linguísticos e alcançam resultados que elevam o estatuto do Tetun. Estes avanços abrem novas oportunidades para investigações e inovações futuras. Além disso, este trabalho introduz metodologias adaptáveis a outras línguas que enfrentam desafios semelhantes, contribuindo, assim, para o avanço da recuperação de informação em línguas com poucos recursos.