Candidato:
Leonardo da Silva Ferreira
Data, Hora e Local:
13 de junho de 2025, às 9:30, Sala de Atos da Faculdade de Engenharia da Universidade do Porto
Presidente do Júri:
Doutor Pedro Nuno Ferreira da Rosa da Cruz Diniz, Professor Catedrático, Departamento de Engenharia Informática, Faculdade de Engenharia da Universidade do Porto
Vogais:
Doutor Pedro Manuel Henriques da Cunha Abreu, Professor Associado com Agregação, Departamento de Engenharia Informática, Faculdade de Ciência e Tecnologia da Universidade de Coimbra;
Doutor Paulo Jorge Freitas de Oliveira Novais, Professor Catedrático, Departamento de Informática, Escola de Engenharia da Universidade do Minho;
Doutor Carlos Manuel Milheiro de Oliveira Pinto Soares, Professor Associado, Departamento de Engenharia Informática, Faculdade de Engenharia da Universidade do Porto;
Doutora Ana Paula Cunha da Rocha, Professora Associada, Departamento de Engenharia Informática, Faculdade de Engenharia da Universidade do Porto;
Doutor Daniel Augusto Gama de Castro Silva, Professor Auxiliar, Departamento de Engenharia Informática, Faculdade de Engenharia da Universidade do Porto (Orientador).
A tese foi coorientada pelo Professor Mikel Uriarte Itzazelaia, Professor Associado da Escuela de Ingeniería de Bilbao, Universidad del País Basco.
Resumo:
A evolução dinâmica da internet, particularmente em setores como serviços multimédia, computação na cloud, internet of things, simulação, e inteligência artificial, levou a que as empresas tenham assistido a uma expansão significativa dos seus serviços e mercados. No entanto, este crescimento também expôs diversas vulnerabilidades que ameaçam a confidencialidade, integridade e disponibilidade dos dados organizacionais e pessoais. Enquanto os especialistas trabalham para responder aos alertas gerados por sistemas de segurança, a inteligência artificial tem introduzido novas formas de comprometer a segurança, variando desde métodos simples e de baixo custo até ataques altamente sofisticados. Abordagens de baixo custo incluem, por exemplo, phishing e password spraying, que exploram falhas humanas e senhas frágeis. Por outro lado, ameaças mais complexas, como os advanced persistent attacks e zero-day exploits, exigem conhecimento e recursos, sendo frequentemente direcionados a sistemas críticos. Várias organizações dependem de centros de helpdesk de cibersegurança, sejam internos ou subcontratados, para gerir incidentes. Contudo, estes centros enfrentam dificuldades em responder de forma eficaz devido à sobrecarga de dados e escassez de operadores qualificados.
Esta dissertação aborda a carência de operadores especializados e o elevado volume de incidentes enfrentados pelas operações de helpdesk, propondo o desenvolvimento de um assistente de gestão de tickets para apoiar operadores humanos na resolução destes incidentes. A plataforma incorpora um sistema de recomendação que, dependendo do contexto, identifica o par operador-procedimento mais rápido para cada incidente, melhorando continuamente com cada tratamento realizado. Para garantir a privacidade dos dados, o sistema de recomendação é treinado com dados artificiais gerados por um gerador de dados personalizado. Além disso, a tese explora a possibilidade de melhorar este assistente com funcionalidades de automated machine learning para prever tickets futuros. Esta funcionalidade pode auxiliar gestores na antecipação da carga de trabalho e na adaptação proativa das suas equipas de segurança.
O desenvolvimento desta framework é realizada em colaboração com a empresa de cibersegurança S21sec, que disponibilizou estruturas e taxonomias de dados históricos anonimizados relacionados com o tratamento de incidentes. No entanto, devido à ausência de informação granular sobre a resolução dos incidentes e informação relacionada com o conjunto de dados partilhados e à necessidade de preservar a privacidade, as técnicas de geração de dados sintéticos tornam-se essenciais. O gerador implementado cria dados artificiais que replicam distribuiçôes semelhantes às dos dados reais, ao mesmo tempo que simula processos do mundo real, incluindo priorização de tickets, agendamento e tratamento.
O gerador de dados artificiais é avaliado pela sua eficiência em replicar as características de conjuntos de dados do mundo real, através de métricas de similaridade como Hellinger distance e Kullback-Leibler divergence. Além disso, são explorados vários cenários de agendamento de tickets, variando o número de operadores e a sua distribuição em três turnos de trabalho. Os resultados demonstram que esta ferramenta consegue replicar tickets com diferentes distribuições e durações de tratamento, derivadas dos dados reais. Adicionalmente, este gerador permite a simulação de operações reais de helpdesk, proporcionando uma base sólida para explorar diversos contextos operacionais sem comprometer a privacidade dos mesmos. A análise do agendamento de tickets mostra consistentemente que cenários caracterizados por um grande desequilíbrio nos turnos e com menos operadores levam a tempos de espera mais longos e a mais tickets agendados para tratamento posterior.
O sistema de recomendação é testado em duas vertentes: escalabilidade e impacto no tratamento de tickets. A primeira fase utiliza diversos conjuntos de dados de teste com tamanhos e números de operadores diferentes, analisados com métricas como o tempo médio de recomendação e memória consumida. Por outro lado, o impacto no tratamento de tickets é examinado considerando as melhorias nos tempos de espera dos tickets antes de serem atribuídos a um operador e o tempo de resposta necessário para a sua resolução, utilizando diferentes graus de aceitação das recomendações. Os resultados indicam que o número de operadores que o sistema de recomendação utiliza tem um impacto ligeiramente superior na sua escalabilidade em comparação com o número de tickets de teste. Ambas as características mostram um padrão de crescimento linear semelhante em relação às métricas referidas, sendo que o número de operadores apresenta um maior declive. A integração deste sistema de recomendação no tratamento de tickets reduziu o tempo médio de resposta entre 37.9\% e 45.1\% e o tempo médio de espera entre 62.2\% e 63.2\%, assumindo que os operadores aceitam sempre as recomendações. Com taxas de aceitação de recomendações variáveis, o tempo médio de espera mantém-se constante, enquanto a melhoria no tempo de resposta varia entre 0.4\% e 11.7\%.
A potencial aplicação de automated machine learning para a análise preditiva é explorada através de um estudo onde as decisões relativamente à dimensionalidade das equipas recomendadas pelo sistema são comparadas com os resultados esperados. Este estudo avalia o sistema com base na precisão das previsões e na sua capacidade de sugerir ajustes no tamanho das equipas. Entre as distribuições de conjuntos de dados testadas, os modelos treinados com dados de três anos superaram os treinados com dados de quatro anos, apresentando um erro médio mais baixo ao utilizar dados reais sobre a frequência de tickets ao longo do ano. Relativamente às recomendações de dimensionalidade da equipa, incluindo a contratação ou despedimento de operadores, a ferramenta baseada em automated machine learning propôs frequentemente decisões estreitamente alinhadas com as esperadas no mesmo periodo.
Coletivamente, estes resultados mostram que as ferramentas propostas podem otimizar os fluxos de trabalho de tratamento de tickets em aplicações do mundo real, levando a um uso mais eficiente dos recursos e a uma redução dos atrasos operacionais. Além disso, a sua capacidade de simular operações do mundo real sem comprometer a privacidade permite que os centros de operações de segurança possam testar vários cenários e aperfeiçar as suas estratégias.
Palavras-chave: Helpdesk; Ticket; Cibersegurança; Dados Sintéticos; Sistemas Recomendação.