Logo do repositório
 
Publicação

Distributed AI training platform

datacite.subject.fosEngenharia e Tecnologia
datacite.subject.sdg09:Indústria, Inovação e Infraestruturas
dc.contributor.advisorLopes, Rui Pedro
dc.contributor.advisorRufino, José
dc.contributor.authorCerqueiro, Tiago Andrés
dc.date.accessioned2026-01-27T10:46:21Z
dc.date.available2026-01-27T10:46:21Z
dc.date.issued2025
dc.date.submitted2025
dc.description.abstractTraining large-scale artificial intelligence models has become a critical challenge in modern research, requiring distributed infrastructures capable of efficiently coordinating multiple devices. This dissertation presents a comparative analysis of three distributed deep learning training platforms: PyTorch Distributed Data Parallel (DDP), Apache Spark, and Determined AI, evaluating their performance, resource management capabilities, and usability in organizational environments. The methodology involved implementing and testing each framework on a three-node cluster equipped with NVIDIA GPUs, using the BERT-tiny model for sentiment classification on the IMDB dataset. Quantitative metrics of training time, model accuracy, and scaling efficiency were collected, complemented by qualitative evaluation of configuration complexity, orchestration features, and developer experience. Results demonstrate that PyTorch DDP offers the best absolute performance, completing 20 epochs of training in 499 seconds with 2 GPUs, while Determinedm AI introduces a 21% overhead but provides superior cluster management capabilities, including automatic scheduling, experiment tracking, and fault tolerance. Apache Spark presents significant overhead (187%) but integrates naturally into existing data processing pipelines. Framework selection depends on context: DDP is ideal for individual researchers prioritizing speed, Determined AI suits shared environments requiring reproducibility and centralized management, and Spark serves scenarios where training is integrated into broader big data workflows.por
dc.description.abstractO treino de modelos de inteligência artificial de grande escala tornou-se um desafio crítico para a investigação moderna, exigindo infraestruturas distribuídas capazes de coordenar múltiplos dispositivos de forma eficiente. Esta dissertação apresenta uma análise comparativa de três plataformas de treino distribuído de deep learning: PyTorch Distributed Data Parallel (DDP), Apache Spark e Determined AI, avaliando o seu desempenho, capacidades de gestão de recursos e usabilidade em ambientes organizacionais. A metodologia envolveu a implementação e teste de cada framework num cluster de três nós equipados com GPUs NVIDIA, utilizando o modelo BERT-tiny para classificação de sentimentos no dataset IMDB. Foram recolhidas métricas quantitativas de tempo de treino, precisão do modelo e eficiência de escalabilidade, complementadas por avaliação qualitativa de complexidade de configuração, funcionalidades de orquestração e experiência de desenvolvimento. Os resultados demonstram que PyTorch DDP oferece o melhor desempenho absoluto, completando 20 épocas de treino em 499 segundos com 2 GPUs, enquanto Determined AI introduz um overhead de 21% mas fornece capacidades superiores de gestão de cluster, incluindo escalonamento automático, tracking de experiências e tolerância a falhas. Apache Spark apresenta overhead significativo (187%) mas integra-se naturalmente em pipelines de processamento de dados existentes. A escolha do framework depende do contexto: DDP é ideal para investigadores individuais que priorizam velocidade, Determined AI adequa-se a ambientes partilhados que requerem reprodutibilidade e gestão centralizada, e Spark serve cenários onde o treino está integrado em workflows de big data mais amplos.por
dc.identifier.tid204162653
dc.identifier.urihttp://hdl.handle.net/10198/35626
dc.language.isoeng
dc.rights.urihttp://creativecommons.org/licenses/by/4.0/
dc.subjectDistributed training
dc.subjectDeep learning
dc.subjectMachine learning
dc.subjectParallel computing
dc.titleDistributed AI training platform
dc.typemaster thesis
dspace.entity.typePublication
thesis.degree.nameDissertação de mestrado em Informática

Ficheiros

Principais
A mostrar 1 - 1 de 1
A carregar...
Miniatura
Nome:
Tiago Cerqueiro.pdf
Tamanho:
2.45 MB
Formato:
Adobe Portable Document Format
Licença
A mostrar 1 - 1 de 1
Miniatura indisponível
Nome:
license.txt
Tamanho:
1.75 KB
Formato:
Item-specific license agreed upon to submission
Descrição: