Alves, PauloCadavez, VascoSilva, Lucas Ribeiro2026-01-272026-01-2720252025http://hdl.handle.net/10198/35625Mestrado de dupla diplomação com o Centro Federal de Educação Tecnológica de Minas Gerais – CEFET-MGScientific databases like the Pathogens in Foods (PIF) Database hold valuable public health data but are often inaccessible to experts lacking programming skills. This research addresses this gap by developing and evaluating a novel Visual Natural Language Interface (V-NLI) for the PIF database. The resulting PIF Intelligent Agent empowers users to perform complex queries, conduct meta-analyses, and generate dynamic reports using natural language. The agent uses a hybrid, dual-mode architecture separating language interpretation from statistical computation. An "Open Chat Mode" offers a flexible exploratory interface via a tool-calling Small Language Model (SLM) with Retrieval-Augmented Generation (RAG). A "Guided Meta-Analysis Mode" provides a structured workflow for generating reproducible scientific reports through a dedicated Rserver backend. A comprehensive evaluation benchmarked five SLMs: Phi-4 Mini (3.8B), MFDoom/deepseek-r1-tool-calling (14B), Cogito (14B), Qwen 3 (8B), and Gemini 2.5 Pro. While all models achieved flawless functional accuracy, their effectiveness was determined by interpretive quality. The ability to generate concise, factually coherent text was the key differentiator, with smaller, instruction-tuned models showing performance comparable or superior in conciseness to larger models. The end-to-end system proved highly reliable, validating the architecture and establishing interpretive fidelity as a critical benchmark for domain-specific agents.Bases de dados científicas, como a Pathogens in Foods (PIF) Database, contêm dados valiosos para a saúde pública, mas são muitas vezes inacessíveis a especialistas sem competências de programação. Esta investigação reduz essa lacuna ao desenvolver e avaliar uma nova Interface Visual de Linguagem Natural (V-NLI) para a base PIF. O Agente Inteligente PIF permite realizar consultas complexas, conduzir meta-análises e gerar relatórios dinâmicos em linguagem natural. O agente adota uma arquitetura híbrida, em modo duplo, separando a interpretação da linguagem do cálculo estatístico. Um “Modo de Chat Aberto” oferece uma interface exploratória flexível com um Small Language Model (SLM) e Geração Aumentada por Recuperação (RAG). Um “Modo Guiado de Meta- Análise” disponibiliza um fluxo estruturado para relatórios científicos reprodutíveis via backend dedicado em R-server. Uma avaliação abrangente comparou cinco SLMs: Phi-4 Mini (3,8B), MFDoom/de-epseek-r1-tool-calling (14B), Cogito (14B), Qwen 3 (8B) e Gemini 2.5 Pro. Embora todos os modelos tenham atingido precisão funcional impecável, a eficácia foi determinada pela qualidade interpretativa. A capacidade de gerar texto conciso e factualmente coerente foi o principal diferenciador, com modelos menores, afinados por instruções, a exibirem concisão comparável ou superior face a modelos maiores. O sistema fim-a-fim mostrou-se altamente fiável, validando a arquitetura e afirmando a fidelidade interpretativa como critério crucial para agentes específicos de domínio.engNatural language interfaceSmall language modelsFood safetyMeta-analysisData visualizationTool-using agentsDevelopment of an intelligent agent for knowledge extraction in the pathogens in foods (PIF) database with machine learningmaster thesis204162572