Provas de Doutoramento em Engenharia Informática (ProDEI): ”Generative models for soccer”

Candidato:
Tiago Filipe Mendes Neves

Data, Hora e Local:
16 de setembro de 2025, 15h30, Sala de Atos da Faculdade de Engenharia da Universidade do Porto

Presidente do Júri:
Doutor Pedro Nuno Ferreira da Rosa da Cruz Diniz, Professor Catedrático do Departamento de Engenharia Informática da Faculdade de Engenharia da Universidade do Porto

Vogais:
Doctor Keisuke Fujii, Associate Professor at the Department of Intelligent Systems of the Graduate School of Informatics of the Nagoya University, Japan;
Doctor Jesse Jon Davis, Full Professor at the Department of Computer Science of the Faculty of Engineering Science of the Katholieke Universiteit Leuven, Belgium;
Doutor Luís Paulo Gonçalves dos Reis, Professor Associado com Agregação do Departamento de Engenharia Informática da Faculdade de Engenharia da Universidade do Porto;
Doutor João Pedro Carvalho Leal Mendes Moreira, Professor Associado do Departamento de Engenharia Informática da Faculdade de Engenharia da Universidade do Porto (Orientador).

A tese foi coorientada pelo Doutor Luís Jorge Machado da Cunha Meireles, Senior Psychologist & Data Scientist, FC Porto.

Resumo:

Os grandes modelos auto-supervisionados em áreas como a linguagem, a visão e a biologia estão a transformar o mundo. No entanto, estes modelos generativos, que aprendem a distribuição dos dados com que são treinados, não apresentam o mesmo nível de desempenho em todos os usos. Por exemplo, os Large Language Models (LLMs) ainda não têm um caso de uso concreto na análise desportiva. Faltam capacidades de raciocínio a estes modelos para produzir conhecimento aplicável para poderem competir com um conjunto de métricas específicas já estabelecidas na análise desportiva.
Embora existam alguns estudos que exploram a aplicabilidade de modelos generativos no futebol, nenhum estudo ambiciona resolver o desafio de construir um modelo de aprendizagem autosupervisionada completo para dados de eventos de futebol. Se considerarmos os eventos num jogo de futebol (cada remate, passe, desarme, …) como as “palavras” que descrevem o que está a acontecer, podemos considerar cada posse de bola uma “frase”, cada jogo uma “composição” e os dados de eventos uma “linguagem”. Ao trabalhar neste enquadramento, temos todas as ferramentas para construir um modelo auto-supervisionado à imagem das LLMs. O objetivo desta tese é construir um modelo de base auto-supervisionado para dados de eventos de futebol – denominado Large Events Model (LEM) – e demonstrar a sua aplicabilidade no campo e generalidade na resolução de diferentes tarefas, como simulação e modelação, que de outra forma exigiriam abordagens individualizadas. Propomos três abordagens para construir LEMs: chain of classifiers, causal mask modeling, e sequential language modeling com transformers.
Em primeiro lugar, a chain of classifiers fornece o primeiro modelo generativo que modela todos os aspetos dos dados de eventos sem impor restrições aos tipos de eventos, alcançando um nível de desempenho que permite a simulação em larga escala de jogos de futebol. Investigamos também duas abordagens alternativas para remover restrições da primeira abordagem. A abordagem de causal mask modeling usando redes neuronais tem o melhor desempenho em vários dos nossos critérios de avaliação, fornecendo um conjunto de modelos prontos para resolver uma ampla gama de tarefas de análise de futebol. Exploramos aplicações desde a pesquisa automática de estratégias com aprendizagem por reforço até aos comportamentos de risco-recompensa dos jogadores de futebol. Esta tese apresenta mais de uma dúzia de casos de uso para LEMs. As LEMs têm o potencial de se tornarem o sistema operativo para dados de eventos na análise do futebol. Elas transformam a forma como os clubes trabalham, com um acesso facilitado a modelos que de outra forma exigiriam um grande esforço de modelação. Com as LEMs, a barreira de entrada diminuirá significativamente, pois qualquer clube do mundo poderá aceder a um modelo capaz de resolver os seus problemas mais relevantes.

Palavras Chave: modelos generativos; modelos de base; analítica desportiva; aplicações de aprendizagem profunda; simulação; futebol.

Posted in Destaque, Eventos, Notícias, Provas PhD.