Intelligent OCR application for text extraction and structuring on online platforms and newspapers

Junior, Paulo Roberto  Machado Silva

Publicação

Intelligent OCR application for text extraction and structuring on online platforms and newspapers

2026Dissertação de mestrado

datacite.subject.fos	Engenharia e Tecnologia::Engenharia Eletrotécnica, Eletrónica e Informática
dc.contributor.advisor	Alves, Paulo
dc.contributor.advisor	Fernandes, José Eduardo
dc.contributor.advisor	Cunha, Márcio Rodrigues da
dc.contributor.author	Junior, Paulo Roberto Machado Silva
dc.date.accessioned	2026-05-04T10:57:35Z
dc.date.available	2026-05-04T10:57:35Z
dc.date.issued	2026
dc.description	Mestrado de dupla diplomação com a UTFPR - Universidade Tecnológica Federal do Paraná
dc.description.abstract	The monitoring of print media is a important function for the advertising industry, enabling the identification of advertisements in newspapers and magazines for market analysis. However, automating this extraction is challenging due to the complex layouts of these publications. Conventional Optical Character Recognition (OCR) systems, capable of transcribing individual characters, often fail to retain structural organization and logicalreading order. To address these issues, the proposed process integrates Document Layout Analysis(DLA) with OCR in a multi-stage process. YOLOv10 and YOLOv12 models detect and segment document elements, and the resulting regions are then passed to PaddleOCR for text extraction. Experimental results show that the first pre-trained model achieved a mAP@50 of 0.728 on a 2,000 images sample from DocLayNet. The second pre-trained model achieved a mAP@50 of 0.519 on a custom dataset. The fusion strategy reduced detection redundancy, and comparative evaluation against a production baseline indicates competitive performance. The final workflow produces a semi-structured JSON output that preserves the association between bounding box coordinates and extracted text. Future work will assess Vision Language Models (VLMs) to improve reading order reconstruction in more complex layouts.	por
dc.description.abstract	O acompanhamento de texto impressos é uma função importante para a indústria da publicidade, permitindo a identificação de anúncios em jornais e revistas para análise de mercado. No entanto, a automatização desta extração é desafiante devido aos layouts complexos destas publicações. Os sistemas convencionais de Reconhecimento Ótico de Caracteres (OCR), embora capazes de transcrever caracteres individuais, falham em preservar a organização estrutural e a ordem lógica de leitura. Para contornar estes desafios, o processo proposto integra a Análise de Layout de Documentos (DLA) com OCR num processo de multietapas. Os modelos YOLOv10 e YOLOv12 detetam e segmentam elementos do documento, e as regiões resultantes são depois encaminhadas para o PaddleOCR para extração de texto. Os resultados experimentais mostram que o primeiro modelo pré-treinado alcançou um mAP@50 de 0,728 numa amostra de 2.000 imagens do DocLayNet. O segundo modelo pré-treinado obteve um mAP@50 de 0,519 num conjunto de dados personalizado. A estratégia de fusão entre os resultados dos modelos reduziu a redundância de deteção e uma avaliação comparativa com uma abordagem atual em produção indica desempenho competitivo. O fluxo de trabalho final produz uma saída JSON semiestruturada que preserva a associação entre as coordenadas das caixas delimitadoras e o texto extraído. Trabalhos futuros sugerem avaliar Modelos de Visão e Linguagem (VLMs) para melhorar a reconstrução da ordem de leitura em layouts mais complexos.	por
dc.identifier.tid	204299586
dc.identifier.uri	http://hdl.handle.net/10198/36560
dc.language.iso	eng
dc.rights.uri	http://creativecommons.org/licenses/by/4.0/
dc.subject	Reconhecimento Ótico de Caracteres (OCR)
dc.subject	Análise de Layout de Documentos (DLA)
dc.subject	modelos YOLOv10
dc.subject	PaddleOCR
dc.title	Intelligent OCR application for text extraction and structuring on online platforms and newspapers
dc.type	master thesis
dspace.entity.type	Publication
thesis.degree.name	Dissertação de Mestrado

Ficheiros

Principais

A mostrar 1 - 1 de 1

Nome:: Paulo Junior.pdf
Tamanho:: 112.89 MB
Formato:: Adobe Portable Document Format

Ver/Abrir

Licença

A mostrar 1 - 1 de 1

Nome:: license.txt
Tamanho:: 1.75 KB
Formato:: Item-specific license agreed upon to submission
Descrição:

Ver/Abrir

Coleções

ESTiG - Dissertações de Mestrado Alunos