Candidato:
Lázaro Gabriel Barros da Costa
Data, Hora e Local:
18 de julho de 2025, 16:00, Sala de Atos da Faculdade de Engenharia da Universidade do Porto
Presidente do Júri:
Doutor Pedro Nuno Ferreira da Rosa da Cruz Diniz, Professor Catedrático do Departamento de Engenharia Informática da Faculdade de Engenharia da Universidade do Porto.
Vogais:
Doctor Tanu Malik, Associate Professor in the Department of Electrical Engineering and Computer Science at the University of Missouri, U.S.A;
Doutor Miguel Carlos Pacheco Afonso Goulão, Professor Associado do Departamento de Informática da Faculdade de Ciências e Tecnologia da Universidade Nova de Lisboa;
Doutor Gabriel de Sousa Torcato David, Professor Associado do Departamento de Engenharia Informática da Faculdade de Engenharia da Universidade do Porto;
Doutor Jácome Miguel Costa da Cunha, Professor Associado do Departamento de Engenharia Informática da Faculdade de Engenharia da Universidade do Porto (Orientador).
A tese foi coorientada pela Doutora Susana Alexandra Tavares Meneses Barbosa, Investigadora Sénior do INESCTEC Porto.
Resumo:
A reprodutibilidade e a replicabilidade científica são pilares essenciais de uma investigação credível, especialmente à medida que os experiências computacionais se tornam cada vez mais prevalentes em diversas disciplinas científicas, como a química, a ciência do clima e a biologia. Apesar da forte defesa da Ciência Aberta e da adesão aos princípios FAIR (Findable, Accessible, Interoperable e Reusable — Localizável, Acessível, Interoperável e Reutilizável), alcançar uma verdadeira reprodutibilidade continua a ser um desafio considerável para muitos investigadores. Questões fundamentais como a gestão complexa de dependências, metadados inadequados e o acesso frequentemente moroso ao código e dados necessários comprometem seriamente os esforços de reprodutibilidade. Além disso, as ferramentas atualmente disponíveis oferecem frequentemente soluções fragmentadas que não conseguem responder às necessidades multifacetadas de configurações experimentais diversas e complexas, particularmente aquelas que envolvem múltiplas linguagens de programação e sistemas de dados intricados.
Esta tese aborda estes desafios através da apresentação de uma ferramenta abrangente concebida para melhorar a reprodutibilidade computacional em várias áreas científicas. A nossa abordagem
incluiu uma revisão sistemática detalhada das ferramentas existentes de reprodutibilidade com o objetivo de identificar lacunas e limitações prevalecentes ao nível do design e funcionalidade.
Esta revisão evidenciou a natureza fragmentada dessas ferramentas, cada uma suportando apenas aspetos do processo de reprodutibilidade, sem fornecer uma solução holística, em particular
para experiências que exigem uma gestão de dados robusta ou suporte a múltiplas linguagens de programação.
Para colmatar estas lacunas, introduzimos o SCIREP, uma ferramenta inovadora que automatiza aspetos essenciais do fluxo de trabalho da reprodutibilidade, como a gestão de dependências, containerização e compatibilidade entre plataformas. Esta ferramenta foi rigorosamente avaliada utilizando um conjunto curado de experiências computacionais, alcançando uma taxa de sucesso
de reprodutibilidade de 94%. Com o objetivo de aumentar a acessibilidade e a usabilidade da investigação reprodutível, desenvolvemos o SCICONV, uma interface conversacional que simplifica a configuração e execução de experiências computacionais, utilizando processamento de linguagem natural. Esta interface reduz significativamente as barreiras técnicas tradicionalmente associadas à configuração de estudos reprodutíveis, permitindo que os investigadores interajam com o sistema através de conversas simples e orientadas. Os resultados da avaliação indicaram que o SCICONV conseguiu reproduzir 83% das experiências do nosso conjunto de dados curado com a mínima interação do utilizador, demonstrando o seu potencial para tornar a investigação reprodutível mais acessível a uma gama mais ampla de investigadores.
Adicionalmente, reconhecendo o papel fundamental dos estudos com utilizadores na avaliação de ferramentas, metodologias e protótipos — particularmente nas áreas da engenharia de software e das ciências comportamentais—esta tese estende-se também ao domínio da avaliação experimental de ferramentas. Conduzimos uma análise aprofundada das ferramentas existentes utilizadas em experiencias nas áreas mencionadas, identificando e propondo funcionalidades especificas destinadas a melhorar a sua utilidade e facilidade de uso na condução de estudos com utilizadores. Estas funcionalidades foram validadas através de um inquérito a comunidade cientifica, confirmando a sua relevância e a necessidade da sua integração em ferramentas atuais e futuras. As contribuições desta tese são múltiplas, abrangendo o desenvolvimento de uma classificação para ferramentas de reprodutibilidade, a criação de um conjunto de dados de referencia padronizado para avaliação da eficácia das ferramentas, e a formulação das ferramentas SCIREP e SCICONV para um avanço significativo do estado da arte em reprodutibilidade computacional. No futuro, a investigação ira centrar-se na expansão das capacidades destas ferramentas para suportar fluxos de trabalho científicos mais complexos, melhorar as interfaces de utilizador e integrar funcionalidades adicionais que suportem os estudos com utilizadores. Ao faze-lo, este trabalho visa abrir caminho para um ecossistema de reprodutibilidade computacional mais robusto, acessível e eficiente, capaz de responder as necessidades em constante evolução da comunidade cientifica global.
Palavras-chave: Reprodutibilidade; Replicabilidade; Reutilização; Experiências computacionais; Interface de utilizador conversacional; Estudos de utilizadores.