Candidato:
Bruno Georgevich Ferreira
Data, Hora e Local:
27 de fevereiro de 2026, às 14h00 na Sala de Atos da Faculdade de Engenharia da Universidade do Porto
Presidente do Júri:
Doutor Pedro Nuno Ferreira da Rosa da Cruz Diniz, Professor Catedrático da Faculdade de Engenharia da Universidade do Porto
Vogais:
Doutor João Alberto Fabro, Professor Associado do Departamento Acadêmico de Informática (DAINF) da Universidade Tecnológica Federal do Paraná, Brasil;
Doutor Rui Paulo Pinto da Rocha, Professor Associado do Departamento de Engenharia Eletrotécnica e de Computadores da Faculdade de Ciências e Tecnologia da Universidade de Coimbra;
Doutor André Monteiro de Oliveira Restivo, Professor Associado do Departamento de Engenharia Informática da Faculdade de Engenharia da Universidade do Porto;
Doutor Armando Jorge Miranda de Sousa, Professor Associado do Departamento de Engenharia Eletrotécnica e de Computadores da Faculdade de Engenharia da Universidade do Porto (Orientador).
A tese foi coorientada pelo Doutor Luís Paulo Gonçalves dos Reis, Professor Associado do Departamento de Engenharia Informática da Faculdade de Engenharia da Universidade do Porto.
Resumo:
A evolução da robótica autónoma beneficia largamente da capacidade de construir representações ricas, navegáveis e semânticas do ambiente, ainda mais se partilhadas com humanos. Embora o advento dos grafos de cenas de vocabulário aberto impulsionados por Modelos Visão-Linguagem (VLMs) tenha revolucionado a perceção, estes sistemas enfrentam obstáculos críticos: altas taxas de alucinações (Falsos Positivos), falta de contexto espacial topológico e fragilidade operacional devido à forte dependência de conectividade. Esta tese propõe o Hybrid Inference Perception and Mapping System (HIPaMS), framework adaptável a um sistema alvo, como um sistema robótico que interage com humanos. O HIPaMS é uma framework modular projectado para preencher a lacuna entre low-level perception e high-level agentic reasoning. Uma Prova de Conceito (PoC) foi projectada para implementar o HIPaMS. Esta PoC melhora o processo de semantic mapping do state-of-the-art ConceptGraphs e introduz um sistema de interação refinado através de quatro contribuições principais. Primeira, introduz o Hybrid Adaptable Resource-Aware Inference Mechanism (HARAIM), que orquestra dinamicamente configurações e modelos internos com base na disponibilidade dos recursos em tempo de execução e da política de optimização. Este mecanismo permite que qualquer política de optimização adapte a operação do sistema robótico, possibilitando possivelmente zero downtime durante falhas de rede, graceful degradation e/ou eficiência operacional. Segunda, a pipeline de mapeamento semântico é estendida com rigorosos protocolos de filtragem de Falsos Positivos, engenharia de prompts baseada em personas e uma vasta recolha de informação semântica de forma otimizada durante o mapeamento. Terceira, uma rotina de segmentação semântica de ambientes é proposta para fornecer informação topológica ao mapa semântico durante a interação. Isto transforma detecções não estruturadas e ruidosas num grafo de cena organizado hierarquicamente, ancorando objetos dentro de regiões topológicas funcionais. Quarta, o sistema robótico incorpora agora uma base de conhecimento dinâmico via o Humanin- the-Loop (HITL) Agentic Retrieve Augmented Generation (RAG)-based Interaction System (HARBIS). Esta interface utiliza memórias de curto e longo prazo para compreender solicitações complexas em linguagem natural. Permite ao robô aprender continuamente com as interações do utilizador, abordar lacunas na perceção e conhecimento, manter a consistência temporal e reconhecer as suas limitações pedindo proativamente por clarificação. Foi conduzida uma validação extensiva em 30 ambientes diversos, envolvendo um total de 3300 solicitações interactivas (que dependem da qualidade do mapa semântico). A PoC testada processou 110 requisições do usuário por ambiente, categorizados em: direct (30), indirect (30), graceful failure (30), follow-up (10) e time consistency (10). Foi também realizado um estudo de ablação para identificar o impacto de componentes específicos da framework e da PoC. Os resultados mostram que a PoC reduz as deteções de Falsos Positivos em ≈ 86%, elevando a precisão de mapeamento semântico de um baseline de ≈ 0.28 para ≈ 0.68. Embora a filtragem estrita reduza o recall bruto, a integração de aprendizagem HITL aumentou a taxa de sucesso para a resolução de requisições para ≈ 0.81, comparado com valores de baseline de ≈ 0.48 e ≈ 0.55. Além disso, a PoC do HIPaMS reduziu os custos de inferência em nuvem até ≈ 84% durante mapeamento e mais de ≈ 95% em tarefas de interação, garantindo a estabilidade do sistema. A framework apresentada abre caminho para uma maior autonomia e eficiência robótica. A PoC apresentada demonstra uma performance elevada, particularmente para cenários centrados em humanos.
Palavras-chave: Mapeamento Semântico; Perceção de Vocabulário Aberto; Arquitetura de Inferência Híbrida; Framework Adaptável; Humano no Controle (Human-in-the-Loop); Geração Aumentada por Recuperação (RAG); Segmentação Topológica; Robot@VirtualHome; Modelos Visão-Linguagem; IA Agentiva; Robustez Operacional.







