Distributed AI training platform

Cerqueiro, Tiago Andrés

http://hdl.handle.net/10198/35626

Utilize este identificador para referenciar este registo.

Nome:	Descrição:	Tamanho:	Formato:
Tiago Cerqueiro.pdf		2.45 MB	Adobe PDF	Ver/Abrir

Contacte-nos

Autores

Cerqueiro, Tiago Andrés

Orientador(es)

Lopes, Rui Pedro

Rufino, José

Resumo(s)

Training large-scale artificial intelligence models has become a critical challenge in modern research, requiring distributed infrastructures capable of efficiently coordinating multiple devices. This dissertation presents a comparative analysis of three distributed deep learning training platforms: PyTorch Distributed Data Parallel (DDP), Apache Spark, and Determined AI, evaluating their performance, resource management capabilities, and usability in organizational environments. The methodology involved implementing and testing each framework on a three-node cluster equipped with NVIDIA GPUs, using the BERT-tiny model for sentiment classification on the IMDB dataset. Quantitative metrics of training time, model accuracy, and scaling efficiency were collected, complemented by qualitative evaluation of configuration complexity, orchestration features, and developer experience. Results demonstrate that PyTorch DDP offers the best absolute performance, completing 20 epochs of training in 499 seconds with 2 GPUs, while Determinedm AI introduces a 21% overhead but provides superior cluster management capabilities, including automatic scheduling, experiment tracking, and fault tolerance. Apache Spark presents significant overhead (187%) but integrates naturally into existing data processing pipelines. Framework selection depends on context: DDP is ideal for individual researchers prioritizing speed, Determined AI suits shared environments requiring reproducibility and centralized management, and Spark serves scenarios where training is integrated into broader big data workflows.

O treino de modelos de inteligência artificial de grande escala tornou-se um desafio crítico para a investigação moderna, exigindo infraestruturas distribuídas capazes de coordenar múltiplos dispositivos de forma eficiente. Esta dissertação apresenta uma análise comparativa de três plataformas de treino distribuído de deep learning: PyTorch Distributed Data Parallel (DDP), Apache Spark e Determined AI, avaliando o seu desempenho, capacidades de gestão de recursos e usabilidade em ambientes organizacionais. A metodologia envolveu a implementação e teste de cada framework num cluster de três nós equipados com GPUs NVIDIA, utilizando o modelo BERT-tiny para classificação de sentimentos no dataset IMDB. Foram recolhidas métricas quantitativas de tempo de treino, precisão do modelo e eficiência de escalabilidade, complementadas por avaliação qualitativa de complexidade de configuração, funcionalidades de orquestração e experiência de desenvolvimento. Os resultados demonstram que PyTorch DDP oferece o melhor desempenho absoluto, completando 20 épocas de treino em 499 segundos com 2 GPUs, enquanto Determined AI introduz um overhead de 21% mas fornece capacidades superiores de gestão de cluster, incluindo escalonamento automático, tracking de experiências e tolerância a falhas. Apache Spark apresenta overhead significativo (187%) mas integra-se naturalmente em pipelines de processamento de dados existentes. A escolha do framework depende do contexto: DDP é ideal para investigadores individuais que priorizam velocidade, Determined AI adequa-se a ambientes partilhados que requerem reprodutibilidade e gestão centralizada, e Spark serve cenários onde o treino está integrado em workflows de big data mais amplos.

Palavras-chave

Distributed training Deep learning Machine learning Parallel computing

URI

http://hdl.handle.net/10198/35626

Coleções

ESTiG - Dissertações de Mestrado Alunos

Licença CC

cclicense-by

Ver registo completo