Intelligent OCR application for text extraction and structuring on online platforms and newspapers

Alves, PauloFernandes, José EduardoCunha, Márcio Rodrigues daJunior, Paulo Roberto Machado Silva2026-05-042026-05-042026http://hdl.handle.net/10198/36560Mestrado de dupla diplomação com a UTFPR - Universidade Tecnológica Federal do ParanáThe monitoring of print media is a important function for the advertising industry, enabling the identification of advertisements in newspapers and magazines for market analysis. However, automating this extraction is challenging due to the complex layouts of these publications. Conventional Optical Character Recognition (OCR) systems, capable of transcribing individual characters, often fail to retain structural organization and logicalreading order. To address these issues, the proposed process integrates Document Layout Analysis(DLA) with OCR in a multi-stage process. YOLOv10 and YOLOv12 models detect and segment document elements, and the resulting regions are then passed to PaddleOCR for text extraction. Experimental results show that the first pre-trained model achieved a mAP@50 of 0.728 on a 2,000 images sample from DocLayNet. The second pre-trained model achieved a mAP@50 of 0.519 on a custom dataset. The fusion strategy reduced detection redundancy, and comparative evaluation against a production baseline indicates competitive performance. The final workflow produces a semi-structured JSON output that preserves the association between bounding box coordinates and extracted text. Future work will assess Vision Language Models (VLMs) to improve reading order reconstruction in more complex layouts.O acompanhamento de texto impressos é uma função importante para a indústria da publicidade, permitindo a identificação de anúncios em jornais e revistas para análise de mercado. No entanto, a automatização desta extração é desafiante devido aos layouts complexos destas publicações. Os sistemas convencionais de Reconhecimento Ótico de Caracteres (OCR), embora capazes de transcrever caracteres individuais, falham em preservar a organização estrutural e a ordem lógica de leitura. Para contornar estes desafios, o processo proposto integra a Análise de Layout de Documentos (DLA) com OCR num processo de multietapas. Os modelos YOLOv10 e YOLOv12 detetam e segmentam elementos do documento, e as regiões resultantes são depois encaminhadas para o PaddleOCR para extração de texto. Os resultados experimentais mostram que o primeiro modelo pré-treinado alcançou um mAP@50 de 0,728 numa amostra de 2.000 imagens do DocLayNet. O segundo modelo pré-treinado obteve um mAP@50 de 0,519 num conjunto de dados personalizado. A estratégia de fusão entre os resultados dos modelos reduziu a redundância de deteção e uma avaliação comparativa com uma abordagem atual em produção indica desempenho competitivo. O fluxo de trabalho final produz uma saída JSON semiestruturada que preserva a associação entre as coordenadas das caixas delimitadoras e o texto extraído. Trabalhos futuros sugerem avaliar Modelos de Visão e Linguagem (VLMs) para melhorar a reconstrução da ordem de leitura em layouts mais complexos.engReconhecimento Ótico de Caracteres (OCR)Análise de Layout de Documentos (DLA)modelos YOLOv10PaddleOCRIntelligent OCR application for text extraction and structuring on online platforms and newspapersmaster thesis204299586