Logo do repositório
 
Publicação

Extraction of discriminative regions over genomic sequences

datacite.subject.fosEngenharia e Tecnologia
datacite.subject.sdg08:Trabalho Digno e Crescimento Económico
dc.contributor.advisorRufino, José
dc.contributor.advisorPinto, Maria alice
dc.contributor.advisorLopes, Fabrício Martins
dc.contributor.authorSouza, Felipe Bueno de
dc.date.accessioned2026-01-27T17:28:08Z
dc.date.available2026-01-27T17:28:08Z
dc.date.issued2025
dc.date.submitted2025
dc.descriptionMestrado de dupla diplomação com a UTFPR - Universidade Tecnológica Federal do Paraná
dc.description.abstractAs computing technologies continue to evolve, new generations of processors have achieved increased levels of computational power and efficiency. This progress enables the execution of tasks that, in the past, required high-end computers and can now be performed on personal systems, allowing many scientific fields to benefit from this progress, including biology. Along with this computational progress, the advancement of DNA sequencing technology is responsible for the exponential growth in the volume and complexity of available genomic data. This scenario requires methods that can efficiently handle and analyze such data in a scalable and interpretable manner, addressing the high volume and inherent complexity of biological sequences. In this context, this work proposes a novel methodology – GREAC (Genomic Region Extraction and Classifier) – for extracting discriminative regions from genomic sequences, reducing data dimensionality, identifying biologically relevant patterns, and variant classification. The proposed methodology is grounded in digital signal processing principles, such as filters and sequences transformation, employing k-mers as the primary source of information to filter and identify informative genomic regions. The relative frequency values of these regions are then measured to construct standardized signals across different variants. Each reference signal represents the characteristic behavior of a variant, enabling the identification of genomic patterns that allow their classification through statistical divergence measures, distance metrics, and supervised classifiers such as XGBoost. GREAC was implemented in the Julia programming language and is public domain opensource software, emphasizing efficiency, transparency, and scientific reproducibility. The implementation enables execution on personal computers, thereby promoting accessibility and encouraging contributions from the scientific community for further improvements. GREAC represents thus a significant contribution to the fields of bioinformatics and computational genomics, presenting a novel methodology for pattern recognition in genomic sequences.por
dc.description.abstractÀ medida que as tecnologias de computação continuam evoluindo, novas gerações de processadores vêm alcançando níveis cada vez maiores de poder e eficiência computacional. Esse progresso possibilita a execução de tarefas que, no passado, exigiam computadores de alto desempenho e que agora podem ser realizadas em sistemas pessoais, permitindo que diversos campos científicos se beneficiem desses avanços, incluindo a biologia. Juntamente com esse progresso computacional, o avanço das tecnologias de sequenciamento de DNA é responsável pelo crescimento exponencial no volume e na complexidade dos dados genômicos disponíveis. Esse cenário exige métodos capazes de lidar e analisar esses dados de forma eficiente, escalável e interpretável, enfrentando tanto o grande volume quanto a complexidade inerente das sequências biológicas. Nesse contexto, este trabalho propõe uma nova metodologia — GREAC (Genomic Region Extraction and Classifier) — para extração de regiões discriminativas em sequências genômicas, visando à redução da dimensionalidade dos dados (reduzindo o comprimento final das sequências), à identificação de padrões biologicamente relevantes e à classificação de variantes. A metodologia proposta baseia-se em princípios de processamento digital de sinais, como filtros e transformação de sequências, empregando k-mers como principal fonte de informação para filtrar e identificar regiões genômicas informativas. Os valores de frequência relativa dessas regiões são então medidos para construir sinais padronizados entre diferentes variantes. Cada sinal de referência representa o comportamento característico de uma variante, permitindo a identificação de padrões genômicos que possibilitam sua classificação por meio de medidas de divergência estatística, métricas de distância e classificadores supervisionados, como o XGBoost. O GREAC foi implementado na linguagem de programação Julia e disponibilizado como software de código aberto em domínio público, destacando eficiência, transparência e reprodutibilidade científica. A implementação permite sua execução em computadores pessoais, promovendo acessibilidade e incentivando contribuições da comunidade científica para aprimoramentos futuros. Dessa forma, o GREAC representa uma contribuição significativa para os campos da bioinformática e da genômica computacional apresentando uma nova metodologia para reconhecimento de padrões genômicos.por
dc.identifier.tid204163854
dc.identifier.urihttp://hdl.handle.net/10198/35641
dc.language.isoeng
dc.rights.urihttp://creativecommons.org/licenses/by/4.0/
dc.subjectComputing technologies
dc.subjectBiology
dc.subjectXGBoost
dc.subjectGREAC
dc.titleExtraction of discriminative regions over genomic sequences
dc.typemaster thesis
dspace.entity.typePublication
thesis.degree.nameDissertação de mestrado em Informática

Ficheiros

Principais
A mostrar 1 - 1 de 1
A carregar...
Miniatura
Nome:
Felipe Souza.pdf
Tamanho:
7.4 MB
Formato:
Adobe Portable Document Format
Licença
A mostrar 1 - 1 de 1
Miniatura indisponível
Nome:
license.txt
Tamanho:
1.75 KB
Formato:
Item-specific license agreed upon to submission
Descrição: