Provas de Doutoramento em Media Digitais: ”Computing by going back in time: Composing video sequences through multimodal generative coordination”

Candidato:
Luís Henrique Pinto Arandas

Data, Hora e Local:
03 de junho, às 14:30, na Sala de Atos da FEUP

Presidente do Júri:
Doutor António Fernando Vasconcelos Cunha Castro Coelho, Professor Associado com Agregação da Faculdade de Engenharia da Universidade do Porto.

Vogais:
Doutora Luísa Maria Lopes Ribas, Professora Auxiliar do Departamento de Design de Comunicação da Faculdade de Belas-Artes da Universidade de Lisboa;
Doutor David Fernandes Semedo, Professor Auxiliar do Departamento de Informática da Faculdade de Ciências e Tecnologia da Universidade Nova de Lisboa;
Doutor André Sier, Professor Auxiliar Convidado do Departamento de Artes Visuais e Design da Universidade de Évora;
Doutor José Miguel Santos Araújo Carvalhais Fonseca, Professor Catedrático da Faculdade de Belas Artes da Universidade do Porto (Orientador);
Doutor Gilberto Bernardes de Almeida, Professor Auxiliar do Departamento de Engenharia Informática da Faculdade de Engenharia da Universidade do Porto.

A tese foi coorientada pelo Professor Doutor Mick Grierson, Professor in Computing, and research leader at the Institute of Creative Computing at the University of the Arts, London.

Resumo
Este projeto propõe um conjunto de métodos, inspirados na experiência humana de visão e tempo, para desenvolver sequências de vídeo utilizando modelos generativos treinados. Os métodos destinam-se à produção de sequências de vídeo com padrões derivados de modelos treinados, encontrados na literatura sobre metacriação e nas artes. Este projeto define possíveis futuros onde os modelos generativos podem ser reutilizados como oráculos em simulações que se centram na experiência humana de vídeo e imagens mentais; modelos que, devido à forma como são treinados através de arquivos e registos que representam o humano e o mundo físico, podem capturar os próprios media e representar momentos específicos no tempo.

Os resultados da investigação são em filme e instalação audiovisual, propondo como a intervenção e prática pode beneficiar da autorreferência, utilizando modelos generativos como sintetizadores de vídeo, som e texto. Os métodos produzidos tomam partido da linguagem natural como guia e da modelação generativa em formas que podem ser entendidas como: amostragem, sequenciação e translação, a partir da literatura da computação e design de IA. Cada resultado pode ser entendido em domínios maiores, como: 1) curtas-metragens a partir de texto, no filme Irreplaceable Biography, 2) instalações discursivas a partir de datasets, na instalação Time as meaning; e 3) curtas-metragens a partir de vídeo, no filme Man lost in the convergence of time e na colaboração all YIN no YANG. Esta investigação expande a prática generativa seguindo uma construção da linguagem na mente humana, no comportamento e na experiência visual como inspiração para a experiência de vídeo. Estes projetos contribuem para uma compreensão da direccionalidade e a representação do passado, utilizando sistemas de memória em rede que aprendem, e que são produzidos de acordo com estrutura encontrada na natureza e experiência humana.

Palavras-chave: Composição de vídeo; Modelos generativos; Viagens no tempo; Experiência visual humana; Representações preditivas.

Provas de Doutoramento em Engenharia Informática: ”Enhancing Forecasting using Read & Write Recurrent Neural Networks”

Candidato
Yassine Baghoussi

Data, Hora e Local
29 de maio, às 09:30, na Sala de Atos da Faculdade de Engenharia da Universidade do Porto

Presidente do Júri
Doutor Pedro Nuno Ferreira da Rosa da Cruz Diniz, Professor Catedrático da Faculdade de Engenharia da Universidade do Porto.

Vogais
Doutor Joydeep Chandra, Associate Professor do Department of Computer Science and Engineering do Indian Institute of Technology de Patna, Índia;
Doutor Mykola Pechenizkiy, Full Professor do Department of Mathematics and Computer Science da Eindhoven University of Technology, Países Baixos;
Doutor Luís Filipe Pinto de Almeida Teixeira, Professor Associado do Departamento de Engenharia Informática da Faculdade de Engenharia da Universidade do Porto;
Doutor João Pedro Carvalho Leal Mendes Moreira, Professor Associado do Departamento de Engenharia Informática da Faculdade de Engenharia da Universidade do Porto (Orientador).

A tese foi coorientada pelo Professor Doutor Carlos Manuel Milheiro de Oliveira Pinto Soares, Professor Associado do Departamento de Engenharia Informática da Faculdade de Engenharia da Universidade do Porto.

Resumo
“A Aprendizagem Automática (AA), conhecida como Machine Learning (ML) em inglês, depende tanto de dados quanto de algoritmos para funcionar de forma ideal. Enquanto a pesquisa convencional em AA frequentemente destaca melhorias algorítmicas, a importância do processamento de dados é frequentemente negligenciada. Em contraste, o pré-processamento de dados é uma tarefa distinta, executada antes de alimentá-los nos algoritmos. A diversidade de métodos de pré processamento adaptados para vários algoritmos de AA destaca a sua importância. No entanto, o ciclo de feedback entre algoritmos e dados é frequentemente negligenciado. Questões relacionadas a dados representam desafios significativos para algoritmos preditivos de AA, afetando adversamente a precisão das previsões. Esses desafios surgem porque problemas nos dados são inerentemente imprevisíveis, carecendo de um padrão discernível. Nesta tese de doutoramento, apresentamos a Aprendizagem de Máquina de Leitura e Escrita (RW-ML), um paradigma inovador que aprimora a precisão da previsão de séries temporais integrando técnicas de modificação de dados no processo de aprendizado. O RW-LSTM, uma adaptação do algoritmo de retro propagação, unifica o pré-processamento com redes neurais recorrentes (RNNs), superando significativamente modelos tradicionais como LSTM. O RW-LSTM possibilita a transição de RNNs apenas de leitura, que apenas aprendem com dados, para RW-ML, permitindo alterações diretas para previsões aprimoradas. Expandindo o framework, o Corrector Long Short-Term Memory (cLSTM) aborda as limitações de RNNs apenas de leitura, demonstrando maior precisão preditiva através de verificação empírica e experimentos extensivos. O último capítulo fornece uma avaliação do mundo real, destacando a vantagem competitiva do cLSTM sobre modelos LSTM em vários cenários”.

Este trabalho de investigação foi realizado no âmbito do SonaeIM.Lab@FEUP, envolvendo a Inovretail.

Provas de Doutoramento em Engenharia Informática: ”Enhancing Research Data Lifecycle: Solving Observation-centric and Reproducibility Challenge”

Candidato
Artur Jorge da Silva Rocha

Data, Hora e Local
17 de maio, às 14h30, na Sala de Atos da FEUP

Presidente do Júri
Doutor Pedro Nuno Ferreira da Rosa da Cruz Diniz, Professor Catedrático da Faculdade de Engenharia da Universidade do Porto

Vogais
Doutor José Luís Brinquete Borbinha, Professor Catedrático do Departamento de Engenharia Informática do Instituto Superior Técnico da Universidade de Lisboa;
Doutora Irene Pimenta Rodrigues, Professora Associada do Departamento de Informática da Universidade de Évora;
Doutor Rosaldo José Fernandes Rossetti, Professor Associado do Departamento de Engenharia Informática da Faculdade de Engenharia da Universidade do Porto;
Doutor Ademar Manuel Teixeira de Aguiar, Professor Associado do Departamento de Engenharia Informática da Faculdade de Engenharia da Universidade do Porto (Orientador).

 Resumo
“A observação é central para qualquer método de investigação, independentemente dos paradigmas utilizados. Desde as raízes observacionais do positivismo até às experiências individuais subjetivas do interpretativismo, a grande maioria dos estudos científicos, requer a observação repetida de características ao longo do tempo. Documentar as observações e os processos utilizados para as obter, captar o contexto das observações e identificar relações entre características observadas de uma forma estruturada e com significado é extremamente importante para a interpretabilidade e reprodutibilidade dos resultados de investigação. Denota-se que o esforço que precede o processamento de dados, incluindo etapas como limpeza e estruturação de dados, ultrapasse em muito o tempo gasto na escrita e adaptação dos algoritmos de processamento e análise. Assim, a existência de uma estrutura concetual instanciada em modelos, métodos e ferramentas para registar observações de forma estruturada, independentemente de sua natureza, juntamente com características e contexto associados, contribui para reduzir o esforço de pré-processamento e potencialmente para melhorar a qualidade dos resultados. Analogamente, os recursos derivados do processamento das observações originais podem beneficiar de uma abordagem semelhante, tornando os fluxos de trabalho em dados de investigação mais explícitos e reproduzíveis. Este trabalho de investigação está focado nas fases de coleção de dados e análise do ciclo de vida dos dados de investigação. Foi realizado no contexto de diversos projetos de investigação, ao longo de vários anos, tendo contribuído para a estruturação de conhecimento em diversos domínios científicos. A investigação levada a cabo incluiu a identificação de novas necessidades, a conceção e prototipagem de soluções inovadoras e a sua aplicação em contextos muito concretos de elevada disponibilidade para testar, refinar e validar as soluções propostas, as quais são consolidadas coletivamente como uma abordagem refinada para o ciclo de vida dos dados de investigação. Como resultado, este trabalho produziu contributos de diferentes tipos, dos quais se destacam os observation templates e a observation framework. Estes contributos principais foram validados no contexto dos projetos de investigação e publicações científicas.”

Provas de Doutoramento em Engenharia Informática: ”Highly reconfigurable smart component system”

Candidato
Luís Carlos de Sousa Moreira Neto

Data, Hora e Local
31 de janeiro, 14:15, Sala de Atos da FEUP

Presidente do Júri
Doutor Carlos Miguel Ferraz Baquero-Moreno, Professor Catedrático do Departamento de Engenharia Informática da Faculdade de Engenharia da Universidade do Porto.

Vogais
Doutor Julio Luis Medina Pasaje, Professor Associado do Departamento de Ingeniería Informática y Electrónica da Facultad de Ciencias da Universidad de Cantabria, Espanha;
Doutor António Eduardo Vitória do Espírito Santo, Professor Auxiliar do Departamento de Engenharia Eletromecânica da Faculdade de Engenharia da Universidade da Beira Interior;
Doutor Pedro Nuno Ferreira da Rosa da Cruz Diniz, Professor Catedrático do Departamento de Engenharia Informática da Faculdade de Engenharia da Universidade do Porto;
Doutor Luis Miguel Pinho de Almeida, Professor Associado com Agregação do Departamento de Engenharia Eletrotécnica e de Computadores da Faculdade de Engenharia da Universidade do Porto;
Doutor Gil Manuel Magalhães de Andrade Gonçalves, Professor Auxiliar do Departamento de Engenharia Informática da Faculdade de Engenharia da Universidade do Porto (Orientador).

Resumo:
“Em todas as atividades da nossa sociedade, a eficiência é uma preocupação crescente na busca por um mundo sustentável. Embora relevante em todos os níveis, nas atividades de larga escala os resultados de uma atividade eficiente são especialmente notórios. A indústria, especificamente a indústria de transformação e produção em massa, é um bom exemplo onde a eficiência tem um impacto significativo. Facilmente se percebe que os preços competitivos dos bens produzidos em massa são o resultado direto da procura por uma crescente eficiência na indústria. O mercado está a evoluir para modelos de negócio que colocam o utilizador numa posição central, podendo este interferir diretamente no desenho dos produtos. Na indústria do futuro, um consumidor final poderá customizar um produto online, dar a ordem de produção e ver o bem entregue, tudo no mesmo dia. Esta fascinante possibilidade será resultado da combinação entre eficiência e flexibilidade dos processos produtivos. Quer em contexto académico, quer em contexto industrial, vários nomes são aplicados a este novo paradigma: Industria 4.0, Fábricas do Futuro ou Produção Inteligente; todos referentes ao mesmo advento tecnológico. Este conceito abrange múltiplos domínios tecnológicos, apresentando uma riqueza de oportunidades de investigação e criando a necessidade de tecnologias inovadoras. Esta tese investiga dois domínios tecnológicos relacionados com este novo paradigma e aborda um problema chave em cada domínio. No domínio dos Sistemas de Produção Cíber-Físicos, aborda o problema de estabelecer uma rede uniformizada de ativos industriais onde o software e as suas ligações com outros ativos sejam claramente discerníveis e reconhecidas. No domínio dos Sistemas de Manufatura Reconfiguráveis, aborda o ritmo acelerado com que as linhas de produção terão que ser reconfiguradas, e, em particular, como o software terá de ser reconfigurado em paralelo com as linhas de produção e a facilidade com que o novo software pode ser desenvolvido e inserido em produção para atender a desafios emergentes. Uma solução para ambos os problemas deriva do campo da Engenharia de Software Baseada em Componentes, onde esta tese se inspirou para desenvolver um sistema Smart Component inovador, com especial destaque nas capacidades de reconfiguração e distribuição de software. O sistema proposto explora a utilização do Linux, um sistema operativo de uso geral, como ambiente de execução (RTE) de componentes. Através da combinação de partilha direta de memória entre componentes e da utilização de computação paralela e reconfigurável, o sistema proposto atende aos padrões de desempenho de aplicações industrias estabelecidos, demonstrando um alto grau de flexibilidade e capacidade de reutilização de componentes. A flexibilidade do Smart Component é demonstrada através da implementação de dois modelos de componentes. O modelo de componentes IEC 61499, projetado para modelar aplicações distribuídas orientadas a eventos, para monitorização e controlo de sistemas industriais, e o modelo Smart Object Self-Description (SOSD), desenvolvido pelo autor para descrever componentes de software, assim como as suas interligações e as suas associações a ativos industriais. A implementação do IEC 61499 foi diretamente comparada a outros RTEs existentes, superando-os em casos de uso reais e igualando o melhor desempenho de um dos RTEs quando aplicado um benchmark sugerido na literatura. De forma a avaliar o desempenho de reconfiguração do Smart Component, assim como o método simplificado de desenvolvimento de componentes de software, foram ainda propostos nesta tese benchmarks adicionais. A eficácia da implementação do modelo SOSD foi validada através da sua aplicação a um caso de uso real, fornecendo a outros nós de um Sistema de Produção Cíber-Físico o contexto sobre a origem dos dados recolhidos e os componentes de software responsáveis pelo seu processamento. Ao utilizar o Linux como RTE, foi possível demonstrar que a camada de software tradicionalmente dedicada à gestão de componentes é desnecessária, devido ao sistema proposto ser capaz de executar aplicações em conformidade com padrões de desempenho relevantes, ao mesmo tempo que mostra uma flexibilidade superior, superando os RTEs testados que utilizam a abordagem tradicional. Apesar de existirem muitos ambientes de execução para componentes de software, poucos permitem o desenvolvimento e utilização simultânea de componentes construídos em mais do que uma linguagem de programação, e nenhum – dado o conhecimento atual do autor – permite o desenvolvimento de componentes em qualquer linguagem de programação – desde que essa linguagem suporte leitura e escrita de ficheiros. A simplicidade de desenvolver um programa de software para Linux e convertê-lo num componente de software é uma característica promissora que deverá beneficiar o desenvolvimento de aplicações de controlo e monitorização industrial, pois acrescenta ao processo de desenvolvimento de aplicações industriais os benefícios de múltiplas linguagens de programação de alto nível.”

Provas de Doutoramento em Informática (MAP-i): ”Artificial Intelligence Methods for Automated Difficulty and Power Balance in Games”

Candidato
Simão Paulo Rato Alves Reis

Data, Hora e Local
11 de janeiro, às 14:00, na Sala de Atos da FEUP

Presidente do Júri
Doutor Carlos Miguel Ferraz Baquero-Moreno, Professor Catedrático, Departamento de Engenharia Informática da Faculdade de Engenharia da Universidade do Porto

Vogais
Doutor João Alberto Fabro, Professor Associado do Departamento Acadêmico de Informática do Universidade Tecnológica Federal do Paraná, Brasil;
Doutor Rui Filipe Fernandes Prada, Professor Associado do Instituto Superior Técnico da Universidade de Lisboa;
Doutora Pétia Georgieva Georgieva, Professora Associada com Agregação do Departamento de Eletrónica, Telecomunicações e Informática da Universidade de Aveiro (representante da Comissão Científica do MAP-i);
Doutor Luís Paulo Gonçalves dos Reis, Professor Associado com Agregação do Departamento de Engenharia Informática da Faculdade de Engenharia da Universidade do Porto (Orientador);
Doutor Henrique Daniel de Avelar Lopes Cardoso, Professor Associado do Departamento de Engenharia Informática da Faculdade de Engenharia da Universidade do Porto.

A tese foi coorientada pelo Doutor Nuno Lau, Professor Associado da Universidade de Aveiro.

Resumo:
“Esta tese estuda o problema de equilíbrio no desenvolvimento de jogos, nomeadamente de jogos para dois jogadores. Especificamente, pretende-se investigar a viabilidade da Inteligência Artificial (IA) como ferramenta auxiliar para corrigir propriedades de jogos. Dividimos a nossa investigação em dois caminhos: Equilíbrio de Poder, onde o objetivo é ajustar as estratégias de jogo para que estas se tornem ferramentas efetivas de vitória; Equilíbrio de Dificuldade, onde o objetivo é ajustar propriedades de jogos em tempo real para que jogadores mais fracos ou em desvantagem possam competir contra jogadores mais fortes, ou jogadores em vantagem. Ambos os domínios exigem afinações no jogo, mas diferem no tempo e no seu objetivo, um lida com o desequilíbrio no desenho de jogos, enquanto o outro lida com o desigualdade nas habilidades dos jogadores. Para o Equilíbrio de Poder, a nossa metodologia foi definir um ecossistema completo de equilíbrio de meta-jogos baseado na franquia de vídeo jogos Pokémon e construir uma competição de IA onde as múltiplas tarefas associadas (batalha, previsão, construção de equipas e equilíbrio do meta-jogo) estão presentes e podem ser testados num domínio comum. Para equilibrar o metajogo, seguimos um modelo adversarial onde os construtores de equipas pretendem restringir-se ao uso de Pokémon ótimos enquanto os agentes equilibradores incentivam o máximo possível de Pokémon distintos a serem escolhidos pelos construtores de equipa. Isto resulta em agentes capazes de jogar, construindo equipas eficazes e afinar a lista de Pokémon ao longo do tempo. Discutimos como os nossos modelos podem ser extendidos noutros domínios de vídeo jogos. Para o Equilíbrio de Dificuldade, propomos uma estrutura de Ajuste de Dificuldade Dinâmico Multijogador onde um agente Mestre de Jogo (MJ) é treinado e inserido num jogo, e dependendo do estado do jogo implementa mecanismos de handicap. O regime de treino segue uma ordem específica. Para generalizar situações de vantagem, perturbações parametrizadas nas ações de um agente de referência são usadas para simular vários graus de habilidade no jogo, e a vantagem de cada jogador é usada para traçar curvas, estas avaliadas para recompensar o MJ. Isto resulta na capacidade do MJ de otimizar um conjunto de critérios de desenho de jogo e criar oportunidades para o jogador atrás de recuperar. Mostramos que existem ferramentas de IA adequadas para cada tarefa, e é razoável pensar em equilíbrio de poder e dificuldade como problemas separados, mas onde ambos podem ser assistidos automaticamente e facilitados, e ambos aumentam a nossa compreensão do campo de equilíbrio automatizado de jogos.”

Provas de Doutoramento em Engenharia Informática: ”Argumentation mining from text using semantic approaches”

Candidato:
Gil Filipe da Rocha

Data, Hora e Local
2 de outubro, 14:00, Sala Professor Joaquim Sarmento (G129) do DECFEUP

Presidente do Júri
Doutor Rui Filipe Lima Maranhão de Abreu, Professor Catedrático da Faculdade de Engenharia da Universidade do Porto

Vogais
Doutor Hugo Ricardo Gonçalo Oliveira, Professor Associado do Departamento de Engenharia Informática da Faculdade de Ciências e Tecnologia da Universidade de Coimbra;
Doutor Bruno Emanuel da Graça Martins, Professor Associado do Departamento de Engenharia Electrotécnica e de Computadores do Instituto Superior Técnico da Universidade de Lisboa;
Doutor Eugénio da Costa Oliveira, Professor Emérito do Departamento de Engenharia Informática da Faculdade de Engenharia da Universidade do Porto;
Doutor Sérgio Sobral Nunes, Professor Associado do Departamento de Engenharia Informática da Faculdade de Engenharia da Universidade do Porto;
Doutor Henrique Daniel de Avelar Lopes Cardoso, Professor Associado do Departamento de Engenharia Informática da Faculdade de Engenharia da Universidade do Porto (Orientador).

Resumo
“O objetivo da prospecção de argumentos é a deteção, identificação e extração automática de argumentos a partir de texto escrito em linguagem natural. O objetivo final é obter uma representação estruturada dos argumentos (diagramas de argumentos) que pode ser automatizada e analizada de diversas formas. A argumentação é um ato retórico que tem sido estudado ao longo de vários séculos e que tem sido influenciado por diferentes áreas de estudo como a filosofia, linguística, ciência dos computadores, e inteligência artificial. De uma forma geral, argumentos são posições justificáveis onde factos (as premissas) são apresentados em suporte de uma afirmação (a conclusão). Algumas características do texto escrito em linguagem natural e, mais especificamente, da exposição de argumentos faz da prospecção de argumentos uma tarefa complexa. De fato, a ambiguidade do texto escrito em linguagem natural, a suposição de senso comum e de conhecimento implícito, diferentes estilos de escrita, e a complexidade inerente aos diagramas de argumentos são alguns dos desafios que os sistemas de prospecção de argumentos têm de superar. Abordar estes desafios, especialmente entre diferentes línguas e géneros textuais, exige sistemas de prospecção de argumentos robustos. Nesta tese, conduzimos investigação no sentido de desenvolver uma sistema computacional robusto que pode ser utilizado para detectar, identificar, e extrair conteúdo argumentativo em diferentes línguas e géneros textuais. A nossa visão é utilizar este sistema para a prospecção de argumentos em línguas com poucos recursos para o processamento de linguagem natural (como a língua portuguesa) e em géneros textuais que são caracterizados por exibir uma variabilidade considerável de perfis de exposição argumentativa (como os artigos de opinião). Para este fim, combinamos técnicas de linguística computacional e aprendizagem máquina com conhecimento das estruturas argumentativas e de teorias da retórica para identificar, de forma automática, raciocínio argumentativo expresso em textos escritos em linguagem natural. Para estudar a prospecção de argumentos numa língua com poucos recursos de processamento de linguagem natural e num género textual desafiante, realizamos um estudo de anotação para criar um corpus anotado com argumentos extraídos de artigos de opinião escritos em português. Para abordar a tarefa de prospecção de argumentos, propomos uma abordagem baseada nas relações e modelos contextuais, motivada por fundamentos da teoria de argumentação e especialmente desenhada para superar alguns dos desafios da exposição de argumentos. Para abordar esta tarefa num língua com poucos recursos de processamento de linguagem natural, investigamos como técnicas de transferência de conhecimento entre diferentes línguas podem ser aplicadas para explorar recursos anotados em diferentes línguas e melhorar o desempenho dos modelos de aprendizagem máquina numa língua alvo. Finalmente, para melhorar a robustez dos sistemas de prospecção de argumentos em diferentes géneros textuais, utilizamos avanços recentes na capacidade de modelação de linguagem e propomos uma abordagem de prospecção de argumentos que pode ser aplicada em diferentes géneros textuais.”

Provas de Doutoramento em Media Digitais: ”Towards Human-in-the-Loop Computational Rhythm Analysis in Challenging Musical Conditions”

Candidato:
António Humberto e Sá Pinto

Data, Hora e Local
8 de setembro, às 14h30, na Sala de Atos da FEUP

Presidente do Júri
Doutor António Fernando Vasconcelos Cunha Castro Coelho, Professor Associado com Agregação da Faculdade de Engenharia da Universidade do Porto;

Vogais
Doutora Magdalena Fuentes, Professora Assistente da Music and Audio Research Lab (MARL) e Integrated Design & Media (IDM) da New York University (NYU);
Doutor Jason Hockman, Professor Associado da School of Computing and Digital Technology (DMT) da Birmingham City University (UK);
Doutor Matthew Edward Price Davies, Senior Scientist da SiriusXM/Pandora (USA)(Orientador);
Doutor Rui Pedro da Silva Nóbrega, Professor Auxiliar do Departamento de Informática da Faculdade de Ciências e Tecnologia da Universidade Nova de Lisboa;
Doutor Aníbal João de Sousa Ferreira, Professor Associado do Departamento de Engenharia Eletrotécnica e de Computadores da Faculdade de Engenharia da Universidade do Porto.

A tese foi coorientada pelo Prof. Rui Luís Nogueira Penha, Professor Coordenador da ESMAE, e pelo Prof. Gilberto Bernardes de Almeida, Professor Auxiliar da FEUP.

Abstract:

“Music Information Retrieval (MIR) is an interdisciplinary field focused on the extraction, analysis, and processing of information from various musical representations.
Grounded on the automatic analysis of musical facets such as rhythm, melody, harmony, and timbre, MIR enables applications in areas like music recommendation, automated music transcription, and intelligent music composition tools. Rhythm, an integral element of music, provides a foundation for decoding music’s complex relational structures and layered depth. Computational rhythm analysis is thus central to MIR research. It encompasses a wide range of tasks, such as the pivotal beat tracking, which unlocks the use of musical time across many MIR systems. However, conventional beat-tracking methods have struggled when dealing with complex musical features, such as expressive timing or intricate rhythmic patterns. While specialized approaches demonstrate some degree of adaptation, they do not generalise to diverse scenarios. Deep learning methods, while promising in addressing these issues, depend heavily on the availability of substantial annotated data. In scenarios requiring adaptation to user subjectivity, or where acquiring annotated data is challenging, the efficacy of beat-tracking methods lowers, thus leaving a gap in the applicability of computational rhythm analysis methods. This thesis investigates how user-provided information can enhance computational rhythm analysis in challenging musical conditions. It initiates the exploration of human-in-the-loop strategies with the aim of fostering adaptability of current MIR techniques. By focusing on beat tracking, due to its fundamental role in rhythm analysis, our goal is to develop streamlined solutions for cases where even the most advanced methods fall short. This is achieved by utilising both high-level and low-level user inputs —- namely, the user’s judgement regarding the expressiveness of the musical piece and annotations of a brief excerpt —- to adapt the state of the art to abstract particularly demanding signals. In an exploratory study, we validate the shared perception of rhythmic complexity among users as a proxy for musical expressiveness, and consequently as a key performance enhancer for beat tracking. Building upon this, we examine how highlevel user information can reparameterise a leading-edge beat-tracker, augmenting its performance to highly expressive music. We then propose a transfer learning method that finetunes the current state of the art, hereafter referred to as the baseline, to a concise user-annotated region. This method exhibits versatility across varied musical styles and offers potential solutions to the inherent limitations of previous approaches. Incorporating both user-guided contextualisation and transfer learning into a human-in-the-loop workflow, we undertake a comprehensive evaluation of our adaptive techniques. This includes examining the key customisation options available to users and their effect on performance enhancement. Our approach outperforms the current state of the art, particularly in the challenging musical content of the SMC dataset, with an improvement over the baseline F-measure of almost 10 percentage points (corresponding to over 16%). However, these quantitative improvements require further interpretation due to the inherent differences between our file-specific, human-in-the-loop technique and traditional dataset-wide methods, which operate without prior exposure to specific file characteristics. With the aim of advancing towards a user-centric evaluation framework for beat tracking, we introduce two novel metrics: the E-Measure and Annotation Efficiency. These metrics account for the user perspective regarding the annotation and finetuning process. The E-Measure is a variant of the F-measure focused on the annotation correction workflow and includes a shifting operation over a larger tolerance window. The Ae is defined as the relative (to the baseline) decrease in correction operations enabled by the fine-tuning process, normalised by the number of user annotations. Specifically, we probe the theoretical upper bound of beat tracking accuracy improvement over the SMC dataset. Our results show that the correct beat estimates provided by our approach surpass those of the state of the art by more than 20%. When considering the full length of the files, we can further frame this improvement in terms of gain per unit of user effort, quantifying the annotation efficiency of our approach. This is reflected in the substantial reduction of required corrections, with nearly 2/3 fewer corrections per user annotation compared to the baseline. In the final phase, we evaluate our human-in-the-loop strategy’s adaptability across a range of musical genres and instances presenting significant challenges. Our exploration extends to various rhythm tasks, including beat tracking, onset detection, and (indirectly) metre analysis. We apply this user-driven strategy to three unique genres with complex rhythm structures, such as polyrhythms, polymetres, and polytempi. Our approach exhibits swift adaptability, enabling efficient utilisation of the state-of-the-art method while bypassing the need for extensive retraining. This results in a balanced integration of data-driven and user-centric methods into a practical and streamlined solution.”

Palavras-Chave: Music Information Retrieval; User-centric; Transfer Learning; Beat Tracking.

Provas de Doutoramento em Engenharia Informática: ”Scaling-up organization of document sets to facilitate their analysis”

Candidato:
Rui Portocarrero Macedo de Morais Sarmento

Data, Hora e Local
24 de julho, às 14:00, na Sala de Atos (L202A) do DEGI, FEUP

Presidente do Júri:
Doutor Carlos Manuel Milheiro de Oliveira Pinto Soares, Professor Associado da Faculdade de Engenharia da Universidade do Porto.

Vogais
Doutor José Fernando Ferreira Mendes, Professor Catedrático do Departamento de Física da Universidade de Aveiro;
Doutor Bruno Emanuel da Graça Martins, Professor Associado do Departamento de Engenharia Electrotécnica e de Computadores do Instituto Superior Técnico da Universidade de Lisboa;
Doutor Pavel Bernard Brazdil, Professor Emérito da Faculdade de Economia da Universidade do Porto (Coorientador);
Doutor Henrique Daniel de Avelar Lopes Cardoso, Professor Associado do Departamento de Engenharia Informática da Faculdade de Engenharia da Universidade do Porto;
Doutor Sérgio Sobral Nunes, Professor Associado do Departamento de Engenharia Informática da Faculdade de Engenharia da Universidade do Porto.

A tese foi orientada pelo Doutor João Manuel Portela da Gama, Professor Catedrático da Faculdade de Economia da Universidade do Porto.

Resumo:

“A sumarização e organização da produção de documentos de uma organização, de forma intuitiva e escalonável, para grandes quantidades de dados, é de grande importância no apoio à tomada de decisão. Esta tese pretende desenvolver um estudo teórico e prático, para resolver estes desafios.

O conteúdo desta dissertação nasceu após a construção de um protótipo de software com algoritmos estaticos, para analisar e fornecer suporte à decisão, a partir de documentos de texto e de uma rede de autores de documentação científica. Várias vantagens foram comprovadas com o uso deste protótipo mencionado. No entanto, havia algumas preocupações em relação à capacidade do protótipo de lidar com redes de dimensões superiores e também com uma grande quantidade de documentos. O estudo de caso de desenvolvimento considera a afinidade entre autores em grande escala e em constante evolução. O primeiro desafio é dimensionar os métodos de representação dos documentos dos autores. O segundo desafio é capturar o desenvolvimento temporal da organização. Considerando este contexto, desenvolvemos e implementamos técnicas de streaming para a caracterização de cada documento e outras subunidades da organização. Para caracterizar, houve interesse por integração em grupos de afinidade identificados por palavras-chave e medidas de relevância. Concluímos este trabalho testando vários algoritmos desenvolvidos, para diminuir a desvantagem do protótipo original e reunindo uma panóplia de soluções para problemas relacionados às técnicas de streaming de texto, considerando uma abordagem em larga escala para a análise correspondente. Foram utilizadas técnicas de recuperação de informação, sendo necessária a análise de redes sociais e streaming de dados. Resolvemos vários problemas associados com a análise eficiente de fluxos de texto, usando várias técnicas, desde técnicas de análise de fluxos puros até técnicas de redes complexas em evolução. Estas técnicas que serviram de base para inovação e contribuição com mais de dez novos algoritmos provaram melhorar o protótipo e resolver os problemas que nos levaram a melhorar e contribuir também para diversas áreas da análise de textos e fluxos de texto.”

Palavras-Chave: Streaming; Fluxo e Dados Evolutivos; Análise de Texto; Análise de Redes Sociais e Complexas; Visualização de Redes Sociais e Complexas.

Provas de Doutoramento em Media Digitais: ”Connect-the-Dots: Artificial Intelligence and Automation in Investigative Journalism”

Requeridas por:
Joana Rodrigues da Silva

Data, Hora e Local
19 de julho, às 14h30, na Sala L119 do DEMEC (FEUP)

Presidente do Júri:
Doutor António Fernando Vasconcelos Cunha Castro Coelho, Professor Associado com Agregação da FEUP

Vogais:
Doutora Teresa Isabel Lopes Romão, Professora Associada do Departamento de Informática da Faculdade de Ciências e Tecnologia da Universidade Nova de Lisboa;
Doutor Luís António Santos, Professor Auxiliar do Departamento de Ciências de Comunicação do Instituto de Ciências Sociais da Universidade do Minho;
Doutor Miguel Ângelo Rodrigues Midões, Professor Adjunto Convidado do Departamento de Comunicação e Arte da Escola Superior de Educação do Instituto Politécnico de Viseu;
Doutora Helena Laura Dias de Lima, Professora Associada do Departamento de Ciências da Comunicação e da Informação da Faculdade de Letras da Universidade do Porto (Orientadora);
Doutor Alexandre Miguel Barbosa Valle de Carvalho, Professor Auxiliar do Departamento de Engenharia Informática da Faculdade de Engenharia da Universidade do Porto.

Resumo:

“Depois da epidemia COVID-19 e das consequentes crises humanitárias que assolaram o planeta, surge uma necessidade de reivindicar o papel do jornalismo de investigação como watchdog e sistema de permeação da justiça social e democracia pela exposição pública. Assistimos a um decréscimo acentuado do investimento desta especialidade do jornalismo, seja pela sua impertinência no tratamento de questões de gestão pública, seja pelo tempo gasto neste tipo de investigações que demoram, fundamentalmente, mais tempo que o jornalismo de atualidade para obter resultados. Neste sentido, percecionamos a influência da automação e da inteligência artificial nos processos de produção informativa para dar destaque a todas as tarefas humanas, com a possibilidade de serem realizadas em menos tempo por sistemas tecnológicos. Tendo em consideração esta possibilidade, surgiu o interesse de estudar, em profundidade, como é que a automação e a aplicação de inteligência artificial através de plataformas de apoio ao procedimento habitual do jornalismo, pode, de facto, ajudar e, até mesmo, melhorar o estado global da prática de jornalismo de investigação na atualidade. A plataforma Connect-the-Dots, e o assistente DODO surge como uma hipotética solução digital para algumas das problemáticas que o jornalismo de investigação enfrenta atualmente e poderá ser uma forma de concretizar de forma prática o jornalismo de investigação no seu âmbito de inovação integrando ferramentas e práticas de código aberto numa abordagem de arqueologia do conhecimento fundamentada no método Design-Based-Research.”

Palavras-Chave: Inteligência Artificial, Automação, Jornalismo de Investigação, Design-Based-Research, Media Digitais.

Provas de Doutoramento em Media Digitais: ”Modelo para utilização da prosódia e da interacção no acesso às expressões matemáticas através da fala sintetizada para pessoas com deficiência visual”

Candidata:
Adriana Silva Souza

Data, Hora e Local:
10 de julho, às 10:30, na Sala de Atos da FEUP

Presidente:
Doutor António Fernando Vasconcelos Cunha Castro Coelho, Professor Associado com Agregação da Faculdade de Engenharia da Universidade do Porto.

Vogais:
Doutor Vitor Manuel Pereira Duarte dos Santos, Professor Auxiliar da NOVA Information Management School da Universidade Nova de Lisboa;
Doutor João Manuel Pereira Barroso, Professor Associado com Agregação, Vice-Reitor para a Inovação, Transferência de Tecnologia e Universidade Digital da Universidade de Trás-os-Montes e Alto Douro;
Doutor João Paulo Ramos Teixeira, Professor Coordenador do Departamento de Eletrotecnia da Escola Superior de Tecnologia e Gestão do Instituto Politécnico de Bragança;
Doutora Maria Selene Henriques da Graça Vicente, Professora Auxiliar do Departamento de Psicologia da Faculdade de Psicologia e de Ciências da Educação da Universidade do Porto;
Doutora Maria do Rosário Marques Fernandes Teixeira de Pinho, Professora Associada do Departamento de Engenharia Eletrotécnica e de Computadores da Faculdade de Engenharia da Universidade do Porto;
Doutor Diamantino Rui da Silva Freitas, Professor Associado do Departamento de Engenharia Eletrotécnica e de Computadores da Faculdade de Engenharia da Universidade do Porto (orientador).

Resumo:

“A fala sintetizada de conteúdos matemáticos ainda apresenta diversos desafios, pois a Matemática para ser compreendida pelas pessoas com deficiência visual, precisa ser verbalizada detalhadamente, o que gera longas saídas e ocasiona sobrecarga cognitiva, além disso, a matemática possui regras que são bastaste peculiares, portanto, os limites prosódicos como pausas e entoação, na maioria das vezes, não são sintetizados da forma adequada. Para minimizar essa problemática, essa investigação propõem um modelo que faz uso da prosódia e da interacção para acessar as expressões matemáticas. Para desenvolvimento do modelo, nos apoiamos na metodologia de Pesquisa Baseada em Design e dividimos a investigação em quatro etapas, na primeira etapa foi feita uma revisão sistemática da literatura, realizamos uma investigação de exploração inicial com entrevistas com estudantes com deficiência visual e professores de braille e analisamos também a matemática falada pelos sintetizadores de voz. Na segunda etapa da investigação, foi criado um corpus de expressões matemáticas falados por professores da área para dar suporte à investigação sobre a prosódia. A entoação e as pausas foram os componentes prosódicos investigados. Embora os estudos não tenham sido aprofundados na entoação, fizemos alguns ensaios de modulação prosódica da frequência fundamental, a destacar trechos das expressões matemáticas de acordo com o nível na árvore MathML. No respeitante às pausas, identificamos os seus principais padrões nas expressões matemáticas. Realizamos também um experimento de rastreamento ocular com pessoas videntes, para compreender os processos cognitivos em torno da observação, análise e processamento das expressões matemáticas. Na terceira etapa, foi criado e avaliado com estudantes com deficiência visual um modelo de regressão linear que calcula as pausas para as expressões matemáticas de forma dinâmica. Os resultados mostraram avanços introduzidos pelas soluções encontradas, avanços percebidos principalmente quando as expressões matemáticas não são familiares aos estudantes. Os resultados do experimento de rastreamento ocular apontaram que além da complexidade da expressão matemática, foi necessário propôr um novo conceito formal que foi denominado diversidade, quantificando essa propriedade subjectiva das estruturas das expressões, porque se verificou que também impacta durante o processamento cognitivo das expressões. A análise dos dados forneceu pistas para a criação do modelo de interacção que faz uso da diversidade para controlar a carga cognitiva no acesso às expressões matemáticas durante o processo. A avaliação do modelo com pessoas com deficiência visual mostrou um avanço em relação aos trabalhos existentes, uma vez que os estudantes tiveram melhor desempenho ao acessar as expressões matemáticas com o modelo. Na quarta etapa fizemos a proposição final do modelo com base na avaliação das pessoas com deficiência visual. Os resultados alcançados nessa investigação possibilitam uma maior autonomia na leitura das expressões matemáticas, podendo as pessoas com deficiência visual governar a interacção no acesso auditivo de acordo com a necessidade de reforço da sua memória, além disso, pode diminuir o tempo na manipulação de expressões matemáticas em comparação com as ferramentas tradicionais, melhorar o processo de escrita, uma vez que à escrita está atrelada a leitura e aliviar a memória do estudante. Além destas contribuições citadas, podemos destacar também a descoberta do novo parâmetro diversidade, que se relaciona fortemente com o processamento cognitivo das expressões. De modo geral, estas contribuições tornam possível a melhoria e desenvolvimento na educação matemática, particularmente no processo ensino-aprendizagem das pessoas com deficiência visual, a torná-los seres mais autonómos, o que, além dos contributos científicos, pode gerar também impactos sociais e económicos decorrentes da acessibilidade.”

 Palavras-chave: Fala Sintetizada, Matemática, Acessibilidade, Deficiência Visual, Complexidade, Diversidade.