Provas de Doutoramento em Engenharia Informática: ”Symmetry, hierarchical structures and shallow neural networks: Advancing reinforcement learning for humanoids”

Candidato:
Miguel António Mourão de Abreu

Data, Hora e Local:
19 de julho, às 15:00, na Sala Professor Joaquim Sarmento (G129) do DEC, da Faculdade de Engenharia da Universidade do Porto

Presidente do Júri:
Doutor Rui Filipe Lima Maranhão de Abreu, Professor Catedrático da Faculdade de Engenharia da Universidade do Porto

Vogais:
Doutor Francisco António Chaves Saraiva de Melo, Professor Associado com Agregação do Departamento de Engenharia Informática do Instituto Superior Técnico da Universidade de Lisboa;
Doutor Carlos Fernando da Silva Ramos, Professor Coordenador Principal do Departamento de Engenharia Informática do Instituto Superior de Engenharia do Porto do Instituto Politécnico do Porto;
Doutor Abbas Abdolmaleki, Senior Scientist na Google DeepMind;
Doutor Luís Paulo Gonçalves dos Reis, Professor Associado com Agregação do Departamento de Engenharia Informática da Faculdade de Engenharia da Universidade do Porto (Orientador);
Doutor Henrique Daniel de Avelar Lopes Cardoso, Professor Associado do Departamento de Engenharia Informática da Faculdade de Engenharia da Universidade do Porto;
Doutor Armando Jorge Miranda de Sousa, Professor Associado do Departamento de Engenharia Eletrotécnica e de Computadores da Faculdade de Engenharia da Universidade do Porto.

A tese foi coorientada pelo Doutor José Nuno Panelas Nunes Lau, Professor Associado do Departamento de Eletrónica, Telecomunicações e Informática da Universidade de Aveiro.

Resumo:
No crescente campo da robótica, a aprendizagem por reforço (AR) tornou-se uma ferramenta crucial. No entanto, à medida que as tarefas se tornam mais complexas, os métodos tradicionais de AR enfrentam desafios em termos de eficiência, coordenação entre tarefas, estabilidade e qualidade da solução. Para resolver este problema, investigámos diferentes abordagens. Inicialmente, exploramos o enriquecimento o espaço de estados para complementar o treino de raiz de comportamentos usando AR, o que resultou em excelentes comportamentos individuais.
No entanto, a integração destes comportamentos revelou ser um desafio, uma vez que exploravam o vasto espaço de ações de forma não estruturada. Para resolver este problema, mudámos para uma abordagem estruturada, começando por abstrair o modelo de locomoção do robô com um controlador analítico e melhorando a eficiência da parte superior do corpo. Gradualmente, a componente de aprendizagem foi alargada a todo o robô, tornando o controlador analítico um ponto de partida no processo de aprendizagem, em vez de uma restrição. Estudámos perturbações externas realistas e formas de tirar partido da simetria do robô para acelerar a otimização. Isto levou a uma extensão da função objetivo do PPO chamada Proximal Symmetry Loss, com a qual criámos um andar omnidirecional com capacidades de recuperação de perdas de equilíbrio. Com base neste conhecimento, criámos uma nova estrutura de aprendizagem enriquecida com simetria baseada em Skill-Set-Primitives — uma nova estrutura hierárquica que capta pontos comuns entre diferentes comportamentos, facilitando as transições. Esta estrutura permitiu simplificar a rede neural, melhorando significativamente a eficiência e estabilidade. Aplicando esta estrutura, redesenhamos do zero a nossa equipa de futebol simulado, gerando comportamentos compatíveis entre si, de alta qualidade, que garantiram a vitória no Campeonato Mundial RoboCup em 2022 e 2023. A equipa incluiu novos algoritmos de localização, planeamento de rotas, gestão da formação, comunicação entre colegas, etc. Partilhámos o código da equipa em Python com a comunidade RoboCup, oferecendo uma base robusta para novas equipas. O nosso trabalho foi reconhecido em desafios científicos, ganhando prémios pela introdução da primeira habilidade de corrida da liga, sendo pioneiros num drible ágil de controlo próximo, e desenvolvendo o algoritmo de localização mais preciso da liga. As contribuições estendem-se para lá do futebol robótico, com a Aprendizagem Adaptativa de Simetria, um método que minimiza as redundâncias da simetria, mesmo em robôs que não são perfeitamente simétricos. Uma continuação lógica seria avaliar de que maneira esta abordagem pode beneficiar robôs humanoides reais, que, por natureza, apresentam imperfeições.

Palavras-Chave: Aprendizagem por reforço; Robôs Humanoides; Simetria; Locomoção; Skill-Set-Primitives; Estruturas Hierárquicas; Redes Neuronais Superficiais; RoboCup; Futebol Robótico.

Posted in Destaque, Notícias, Provas PhD.