Logo do repositório
 
A carregar...
Miniatura
Publicação

Optimization of a feature selection tool for inference of gene regulatory networks

Utilize este identificador para referenciar este registo.
Nome:Descrição:Tamanho:Formato: 
João Cunha.pdf23.91 MBAdobe PDF Ver/Abrir

Resumo(s)

This dissertation concerns the computational optimization of DimReduction, a feature selection tool for inference of Gene Regulatory Networks (GRN). The primary aim was to make it faster and more performance scalable, in order to to handle large amounts of data, which would bring it closer to the bioinformatics community. The approach involved the translation of the original Java GUI-based implementation into a CLI version and the re-implementation of the latter in Python. Once the performance of the Python version was lower than expected, the focus turned again to the Java CLI version. The major bottleneck in this version was determined and addressed, namely the elimination of explicit invocation of the Garbage Collector (GC) led to the runtime of a reference dataset (with 4511 genes) to reduce from more than 2 days to 42 minutes. The optimized version of Java was then parallelized, using a threaded approach, which yielded near-linear speedups. The new Java parallel implementation was then compared with other reference platforms from the literature (GENIE3, CLR, ARACNE, C3NET, BC3NET, MRNET, MRNETB, KBOOST and PCIT). The findings indicate that even though some alternatives ensure higher metrics of quality (AUROC/AUPR), DimReduction speed makes it a competitive tool in the field.
Esta dissertação aborda a otimização computacional do DimReduction, uma ferramenta de seleção de características para inferência de Redes de Regulação Gênica (GRN). O objetivo principal foi torná-la mais rápida e com melhor escalabilidade de desempenho, para lidar com grandes quantidades de dados, aproximando-a da comunidade bioinformática. A abordagem envolveu a tradução da implementação original em Java com interface gráfica para uma versão de linha de comando (CLI) e a reimplementação desta última em Python. Como o desempenho da versão em Python ficou abaixo do esperado, o foco voltou-se para a versão em Java CLI. O principal gargalo desta versão foi identificado e resolvido: a eliminação da invocação explícita do Garbage Collector (GC) levou à redução do tempo de execução de um conjunto de dados de referência (com 4511 genes) de mais de 2 dias para 42 minutos. A versão otimizada em Java foi então paralelizada, utilizando uma abordagem com threads, o que resultou em ganhos de velocidade quase lineares. A nova implementação paralela em Java foi então comparada com outras plataformas de referência da literatura (GENIE3, CLR, ARACNE, C3NET, BC3NET, MRNET, MRNETB, KBOOST e PCIT). Os resultados indicam que, embora algumas alternativas apresentem métricas de qualidade superiores (AUROC/AUPR), a velocidade do DimReduction o torna uma ferramenta competitiva na área.

Descrição

Mestrado de dupla diplomação com a UTFPR - Universidade Tecnológica Federal do Paraná

Palavras-chave

Optimization of DimReduction Gene Regulatory Networks (GRN)

Contexto Educativo

Citação

Projetos de investigação

Unidades organizacionais

Fascículo