Name: | Description: | Size: | Format: | |
---|---|---|---|---|
2.77 MB | Adobe PDF |
Authors
Advisor(s)
Abstract(s)
This dissertation addresses the limitations of traditional keyword-based search methods in cloud library systems by developing a robust linguistic support model. Leveraging advanced techniques in text extraction, embedding generation, and semantic search, this study aims to enhance the accuracy and relevance of search results. Document ingestion and text extraction were performed using PyMuPDF, ensuring high-quality data for subsequent processes. Text embeddings generated by LangChain’s Mistral model were stored
in the Chroma vector database, facilitating efficient retrieval. A user-friendly interface developed with Flask enabled seamless user interaction. The project faced challenges such as API key requirements for GPT-2, text extraction accuracy, and large-scale data handling, which were addressed through alternative tools
and methodologies. The results demonstrate significant improvements in search accuracy and relevance, aligning with recent advancements in NLP. Future work will focus on enhancing data preprocessing, expanding datasets, and integrating more advanced search algorithms. This study contributes valuable insights into the practical application of NLP techniques in cloud library systems, offering a foundation for further research and development in the field.
Esta dissertação aborda as limitações dos métodos tradicionais de busca por palavras chave em sistemas de bibliotecas na nuvem, desenvolvendo um modelo robusto de suporte linguístico. Aproveitando técnicas avançadas de extração de texto, geração de embeddings e busca semântica, este estudo visa melhorar a precisão e a relevância dos resultados de busca. A ingestão de documentos e a extração de texto foram realizadas utilizando PyMuPDF, garantindo dados de alta qualidade para os processos subsequentes. Embeddings de texto gerados pelo modelo Mistral da LangChain foram armazenados na base de dados vetorial Chroma, facilitando a recuperação eficiente. Uma interface amigável desenvolvida com Flask permitiu uma interação perfeita do utilizador. O projeto enfrentou desafios como a necessidade de chave API para GPT-2, precisão na extração de texto e manipulação de dados em grande escala, que foram solucionados através de ferramentas e metodologias alternativas. Os resultados demonstram melhorias significativas na precisão e relevância da busca, alinhando-se com os avanços recentes em PLN. Trabalhos futuros se concentrarão em aprimorar a pré-processamento de dados, expandir conjuntos de dados e integrar algoritmos de busca mais avançados. Este estudo contribui com insights valiosos sobre a aplicação prática de técnicas de PLN em sistemas de bibliotecas na nuvem, oferecendo uma base para futuras pesquisas e desenvolvimento na área.
Esta dissertação aborda as limitações dos métodos tradicionais de busca por palavras chave em sistemas de bibliotecas na nuvem, desenvolvendo um modelo robusto de suporte linguístico. Aproveitando técnicas avançadas de extração de texto, geração de embeddings e busca semântica, este estudo visa melhorar a precisão e a relevância dos resultados de busca. A ingestão de documentos e a extração de texto foram realizadas utilizando PyMuPDF, garantindo dados de alta qualidade para os processos subsequentes. Embeddings de texto gerados pelo modelo Mistral da LangChain foram armazenados na base de dados vetorial Chroma, facilitando a recuperação eficiente. Uma interface amigável desenvolvida com Flask permitiu uma interação perfeita do utilizador. O projeto enfrentou desafios como a necessidade de chave API para GPT-2, precisão na extração de texto e manipulação de dados em grande escala, que foram solucionados através de ferramentas e metodologias alternativas. Os resultados demonstram melhorias significativas na precisão e relevância da busca, alinhando-se com os avanços recentes em PLN. Trabalhos futuros se concentrarão em aprimorar a pré-processamento de dados, expandir conjuntos de dados e integrar algoritmos de busca mais avançados. Este estudo contribui com insights valiosos sobre a aplicação prática de técnicas de PLN em sistemas de bibliotecas na nuvem, oferecendo uma base para futuras pesquisas e desenvolvimento na área.
Description
Mestrado de dupla diplomação com a Dulaty University
Keywords
Cloud library systems Information retrieval Text extraction Embedding generation Semantic search Natural language processing