WEXGrid: a modular python framework for defining, managing, and executing complex workflows in local and lSF grid environments

Marques, João Pedro da Silva

http://hdl.handle.net/10198/35650

Utilize este identificador para referenciar este registo.

Nome:	Descrição:	Tamanho:	Formato:
João Marques.pdf		779.65 KB	Adobe PDF	Ver/Abrir

Contacte-nos

Autores

Marques, João Pedro da Silva

Orientador(es)

Matos, Paulo

Resumo(s)

WEXGrid is a modular framework and software tool designed to address the challenges of creating, managing, and executing scientific workflows on local workstations and distributed Load Sharing Facility (LSF) Grid environments. Break workflows into discrete targets with explicit inputs, outputs, execution actions, and resource requirements, all of which are defined programmatically in Python. This ensures that the underlying concepts remain accessible to computational scientists. The system then builds a dependency graph in which the execution order is automated based on data and control dependencies. This graph can be used to drive dynamic scheduling based on resource availability and task readiness. Cache management reduces redundant computations by validating outputs through timestamps and checksums. This influences scheduling decisions, optimizing resource utilization. WEXGrid supports parallel and asynchronous task execution, balancing workload distribution across resources with data locality concerns to avoid Input/Output (I/O) bottlenecks. Its fault-tolerant architecture includes mechanisms for detecting and isolating faults to avoid cascading failures. Its provenance capture and metadata interoperability meet the Findable, Accessible, Interoperable, Reusable (FAIR) principles for reproducibility and portability. WEXGrid aims to enable scalability and maintainability, providing a unified interface for defining and executing workflows for heterogeneous computational infrastructures without sacrificing performance or transparency. Future enhancements include adaptive scheduling informed by real-time telemetry, rich provenance integration, and extended interoperability with cloud and containerized environments. These enhancements will ensure sustained efficiency and reproducibility across heterogeneous scientific computing platforms.

O WEXGrid é uma estrutura modular e uma ferramenta de "software" concebida para enfrentar os desafios da criação, gestão e execução de fluxos de trabalho científicos em estações de trabalho locais e em ambientes de rede distribuídos LSF. Divide os fluxos de trabalho em alvos discretos com entradas, saídas, ações de execução e requisitos de recursos explicitamente definidos, todos programaticamente especificados em Python. Esta abordagem garante que os conceitos subjacentes permaneçam acessíveis aos cientistas computacionais. O sistema constrói, então, um grafo de dependências no qual a ordem de execução é automatizada com base nas dependências de dados e de controlo. Este grafo pode ser utilizado para orientar o agendamento dinâmico em função da disponibilidade de recursos e da prontidão das tarefas. A gestão de cache reduz cálculos redundantes, validando as saídas através de carimbos de data/hora e somas de verificação. Estes mecanismos influenciam as decisões de agendamento, otimizando a utilização dos recursos. O WEXGrid suporta a execução paralela e assíncrona de tarefas, equilibrando a distribuição da carga de trabalho entre os recursos e considerando a localização dos dados para evitar gargalos de I/O. A sua arquitetura tolerante a falhas inclui mecanismos de deteção e isolamento de erros, prevenindo falhas em cascata. A captura de proveniência e a interoperabilidade de metadados cumprem os princípios FAIR de reprodutibilidade e portabilidade. O WEXGrid visa promover a escalabilidade e a manutenção, fornecendo uma interface unificada para a definição e execução de fluxos de trabalho em infraestruturas computacionais heterogéneas, sem comprometer o desempenho ou a transparência. As melhorias futuras incluem programação adaptativa informada por telemetria em tempo real, integração avançada de proveniência e interoperabilidade alargada com ambientes em nuvem e contentores. Estas evoluções garantirão eficiência e reprodutibilidade sustentadas em plataformas de computação científica heterogéneas.

Palavras-chave

Distributed computing Parallel execution LSF grid environments Dynamic task scheduling

URI

http://hdl.handle.net/10198/35650

Coleções

ESTiG - Dissertações de Mestrado Alunos

Licença CC

cclicense-by

Ver registo completo