Candidato:
Pedro Rodrigo Caetano Strecht Ribeiro
Data, Hora e Local:
13 de junho de 2025, às 15:00, na Sala de Atos da Faculdade de Engenharia da Universidade do Porto
Presidente do Júri:
Doutor Rui Filipe Lima Maranhão de Abreu, Professor Catedrático, Faculdade de Engenharia, Universidade do Porto
Vogais:
Doutor Johannes Fürnkranz, Full Professor at the Department of Computer Science of the Institute for Application-Oriented Knowledge Processing at the Johannes Kepler University Linz, Austria;
Doutor José María Alonso Moral, Profesor Titular de Universidad del Departamento de Electrónica y Computación de la Escuela Técnica Superior de Ingeniería de la Universidad de Santiago de Compostela, España;
Doutor José Luís Cabral de Moura Borges, Professor Associado, Departamento de Engenharia e Gestão Industrial, Faculdade de Engenharia, Universidade do Porto;
Doutor João Pedro Carvalho Leal Mendes Moreira, Professor Associado, Departamento de Engenharia Informática, Faculdade de Engenharia, Universidade do Porto (Orientador).
A tese foi coorientada pelo Doutor Carlos Manuel Milheiro de Oliveira Pinto Soares, Professor Associado do Departamento de Engenharia Informática da Faculdade de Engenharia da Universidade do Porto.
Resumo:
Esta tese investiga os desafios e as oportunidades apresentados pela tendência crescente de utilização de múltiplos modelos especializados, designados por modelos operacionais, para abordar problemas complexos de análise de dados. Embora esta abordagem possa melhorar o desempenho preditivo para subproblemas específicos, frequentemente conduz a um conhecimento fragmentado e a dificuldades na compreensão de fenómenos a nível de uma organização.
Esta investigação centra-se na síntese do conhecimento incorporado num conjunto de modelos de árvores de decisão, escolhidos pela sua interpretabilidade inerente e adequação à extração de conhecimento. Por exemplo, uma empresa com cadeias de lojas ou uma universidade com diversos cursos, cada uma utilizando modelos de previsão dedicados (volume de vendas ou abandono escolar, respetivamente). Embora estes modelos localizados sejam importantes, uma perspetiva global é importante a nível organizacional. Contudo, a gestão de muitos modelos operacionais, especialmente para análises interprogramas/lojas, pode ser complexa.
É introduzida uma framework para fundir conjuntos de modelos operacionais em modelos consensuais. Estes modelos são direcionados a decisores de níveis superiores, melhorando a interpretabilidade do conhecimento gerado pelos modelos operacionais. A framework, denominada Inmplode, aborda desafios comuns na agregação de modelos e apresenta um processo customizável com um fluxo de trabalho genérico e componentes adaptáveis, detalhando abordagens alternativas para cada subproblema encontrado no processo de agregação.
A framework foi aplicada a quatro conjuntos de dados públicos de diversas áreas de negócio e a um estudo de caso na educação com dados da Universidade do Porto. Em cada caso, foram exploradas diferentes abordagens de agregação de modelos, ilustrando várias instanciações do processo.
O processo de agregação de modelos revelou que os modelos consensuais resultantes são frequentemente incompletos, ou seja, não conseguem cobrir todo o espaço de decisão, o que pode comprometer o seu propósito. Para abordar o problema da incompletude, são exploradas duas novas metodologias: uma baseia-se na geração de conjuntos de dados sintéticos seguida de treino de árvores de decisão, enquanto a outra utiliza um algoritmo especializado concebido para construir uma árvore de decisão diretamente a partir de dados agregados (i.e., simbólicos).
A eficácia destas metodologias na geração de modelos consensuais completos a partir de conjuntos de regras incompletos é avaliada nos cinco conjuntos de dados. Os resultados empíricos demonstram a viabilidade de superar a incompletude, constituindo um contributo para a área da síntese de conhecimento e modelação com árvores de decisão. Contudo, foram identificados compromissos entre a completude e a interpretabilidade, bem como entre o desempenho preditivo e a fidelidade dos modelos consensuais.
Globalmente, esta investigação aborda uma lacuna crítica na literatura, fornecendo um framework para sintetizar conhecimento a partir de múltiplos modelos de árvores de decisão, com particular foco no desafio da incompletude. As conclusões têm implicações significativas para organizações que procuram usar modelos especializados, obtendo também uma compreensão holística do fenómeno analisado.
Palavras chave: interpretability; rule-based models; model merging framework; decision trees; completeness.