Extraction of discriminative regions over genomic sequences

Souza, Felipe Bueno de

http://hdl.handle.net/10198/35641

Utilize este identificador para referenciar este registo.

Nome:	Descrição:	Tamanho:	Formato:
Felipe Souza.pdf		7.4 MB	Adobe PDF	Ver/Abrir

Contacte-nos

Autores

Souza, Felipe Bueno de

Orientador(es)

Rufino, José

Pinto, Maria alice

Lopes, Fabrício Martins

Resumo(s)

As computing technologies continue to evolve, new generations of processors have achieved increased levels of computational power and efficiency. This progress enables the execution of tasks that, in the past, required high-end computers and can now be performed on personal systems, allowing many scientific fields to benefit from this progress, including biology. Along with this computational progress, the advancement of DNA sequencing technology is responsible for the exponential growth in the volume and complexity of available genomic data. This scenario requires methods that can efficiently handle and analyze such data in a scalable and interpretable manner, addressing the high volume and inherent complexity of biological sequences. In this context, this work proposes a novel methodology – GREAC (Genomic Region Extraction and Classifier) – for extracting discriminative regions from genomic sequences, reducing data dimensionality, identifying biologically relevant patterns, and variant classification. The proposed methodology is grounded in digital signal processing principles, such as filters and sequences transformation, employing k-mers as the primary source of information to filter and identify informative genomic regions. The relative frequency values of these regions are then measured to construct standardized signals across different variants. Each reference signal represents the characteristic behavior of a variant, enabling the identification of genomic patterns that allow their classification through statistical divergence measures, distance metrics, and supervised classifiers such as XGBoost. GREAC was implemented in the Julia programming language and is public domain opensource software, emphasizing efficiency, transparency, and scientific reproducibility. The implementation enables execution on personal computers, thereby promoting accessibility and encouraging contributions from the scientific community for further improvements. GREAC represents thus a significant contribution to the fields of bioinformatics and computational genomics, presenting a novel methodology for pattern recognition in genomic sequences.

À medida que as tecnologias de computação continuam evoluindo, novas gerações de processadores vêm alcançando níveis cada vez maiores de poder e eficiência computacional. Esse progresso possibilita a execução de tarefas que, no passado, exigiam computadores de alto desempenho e que agora podem ser realizadas em sistemas pessoais, permitindo que diversos campos científicos se beneficiem desses avanços, incluindo a biologia. Juntamente com esse progresso computacional, o avanço das tecnologias de sequenciamento de DNA é responsável pelo crescimento exponencial no volume e na complexidade dos dados genômicos disponíveis. Esse cenário exige métodos capazes de lidar e analisar esses dados de forma eficiente, escalável e interpretável, enfrentando tanto o grande volume quanto a complexidade inerente das sequências biológicas. Nesse contexto, este trabalho propõe uma nova metodologia — GREAC (Genomic Region Extraction and Classifier) — para extração de regiões discriminativas em sequências genômicas, visando à redução da dimensionalidade dos dados (reduzindo o comprimento final das sequências), à identificação de padrões biologicamente relevantes e à classificação de variantes. A metodologia proposta baseia-se em princípios de processamento digital de sinais, como filtros e transformação de sequências, empregando k-mers como principal fonte de informação para filtrar e identificar regiões genômicas informativas. Os valores de frequência relativa dessas regiões são então medidos para construir sinais padronizados entre diferentes variantes. Cada sinal de referência representa o comportamento característico de uma variante, permitindo a identificação de padrões genômicos que possibilitam sua classificação por meio de medidas de divergência estatística, métricas de distância e classificadores supervisionados, como o XGBoost. O GREAC foi implementado na linguagem de programação Julia e disponibilizado como software de código aberto em domínio público, destacando eficiência, transparência e reprodutibilidade científica. A implementação permite sua execução em computadores pessoais, promovendo acessibilidade e incentivando contribuições da comunidade científica para aprimoramentos futuros. Dessa forma, o GREAC representa uma contribuição significativa para os campos da bioinformática e da genômica computacional apresentando uma nova metodologia para reconhecimento de padrões genômicos.

Descrição

Mestrado de dupla diplomação com a UTFPR - Universidade Tecnológica Federal do Paraná

Palavras-chave

Computing technologies Biology XGBoost GREAC

URI

http://hdl.handle.net/10198/35641

Coleções

ESTiG - Dissertações de Mestrado Alunos

Licença CC

cclicense-by

Ver registo completo