Repository logo
 
Publication

Development of a linguistic support model for information retrieval for cloud library systems

datacite.subject.fosEngenharia e Tecnologia::Outras Engenharias e Tecnologiaspt_PT
dc.contributor.advisorLopes, Rui Pedro
dc.contributor.advisorTungatarova, Aigul
dc.contributor.authorShakenov, Nurzhan
dc.date.accessioned2024-08-02T09:25:45Z
dc.date.available2024-08-02T09:25:45Z
dc.date.issued2024
dc.descriptionMestrado de dupla diplomação com a Dulaty Universitypt_PT
dc.description.abstractThis dissertation addresses the limitations of traditional keyword-based search methodsin cloud library systems by developing a robust linguistic support model. Leveraging advanced techniques in text extraction, embedding generation, and semantic search, this study aims to enhance the accuracy and relevance of search results. Document ingestion and text extraction were performed using PyMuPDF, ensuring high-quality data for subsequent processes. Text embeddings generated by LangChain’s Mistral model were stored in the Chroma vector database, facilitating efficient retrieval. A user-friendly interface developed with Flask enabled seamless user interaction. The project faced challenges such as API key requirements for GPT-2, text extraction accuracy, and large-scale data handling, which were addressed through alternative tools and methodologies. The results demonstrate significant improvements in search accuracy and relevance, aligning with recent advancements in NLP. Future work will focus on enhancing data preprocessing, expanding datasets, and integrating more advanced search algorithms. This study contributes valuable insights into the practical application of NLP techniques in cloud library systems, offering a foundation for further research and development in the field.pt_PT
dc.description.abstractEsta dissertação aborda as limitações dos métodos tradicionais de busca por palavras chave em sistemas de bibliotecas na nuvem, desenvolvendo um modelo robusto de suporte linguístico. Aproveitando técnicas avançadas de extração de texto, geração de embeddings e busca semântica, este estudo visa melhorar a precisão e a relevância dos resultados de busca. A ingestão de documentos e a extração de texto foram realizadas utilizando PyMuPDF, garantindo dados de alta qualidade para os processos subsequentes. Embeddings de texto gerados pelo modelo Mistral da LangChain foram armazenados na base de dados vetorial Chroma, facilitando a recuperação eficiente. Uma interface amigável desenvolvida com Flask permitiu uma interação perfeita do utilizador. O projeto enfrentou desafios como a necessidade de chave API para GPT-2, precisão na extração de texto e manipulação de dados em grande escala, que foram solucionados através de ferramentas e metodologias alternativas. Os resultados demonstram melhorias significativas na precisão e relevância da busca, alinhando-se com os avanços recentes em PLN. Trabalhos futuros se concentrarão em aprimorar a pré-processamento de dados, expandir conjuntos de dados e integrar algoritmos de busca mais avançados. Este estudo contribui com insights valiosos sobre a aplicação prática de técnicas de PLN em sistemas de bibliotecas na nuvem, oferecendo uma base para futuras pesquisas e desenvolvimento na área.pt_PT
dc.identifier.tid203670043pt_PT
dc.identifier.urihttp://hdl.handle.net/10198/30152
dc.language.isoengpt_PT
dc.rights.urihttp://creativecommons.org/licenses/by/4.0/pt_PT
dc.subjectCloud library systemspt_PT
dc.subjectInformation retrievalpt_PT
dc.subjectText extractionpt_PT
dc.subjectEmbedding generationpt_PT
dc.subjectSemantic searchpt_PT
dc.subjectNatural language processingpt_PT
dc.titleDevelopment of a linguistic support model for information retrieval for cloud library systemspt_PT
dc.typemaster thesis
dspace.entity.typePublication
rcaap.rightsopenAccesspt_PT
rcaap.typemasterThesispt_PT
thesis.degree.nameInformáticapt_PT

Files

Original bundle
Now showing 1 - 1 of 1
No Thumbnail Available
Name:
Nurkhan Shakenov.pdf
Size:
2.77 MB
Format:
Adobe Portable Document Format
License bundle
Now showing 1 - 1 of 1
No Thumbnail Available
Name:
license.txt
Size:
1.75 KB
Format:
Item-specific license agreed upon to submission
Description: