Logo do repositório
 
Publicação

Intelligent OCR application for text extraction and structuring on online platforms and newspapers

datacite.subject.fosEngenharia e Tecnologia::Engenharia Eletrotécnica, Eletrónica e Informática
dc.contributor.advisorAlves, Paulo
dc.contributor.advisorFernandes, José Eduardo
dc.contributor.advisorCunha, Márcio Rodrigues da
dc.contributor.authorJunior, Paulo Roberto Machado Silva
dc.date.accessioned2026-05-04T10:57:35Z
dc.date.available2026-05-04T10:57:35Z
dc.date.issued2026
dc.descriptionMestrado de dupla diplomação com a UTFPR - Universidade Tecnológica Federal do Paraná
dc.description.abstractThe monitoring of print media is a important function for the advertising industry, enabling the identification of advertisements in newspapers and magazines for market analysis. However, automating this extraction is challenging due to the complex layouts of these publications. Conventional Optical Character Recognition (OCR) systems, capable of transcribing individual characters, often fail to retain structural organization and logicalreading order. To address these issues, the proposed process integrates Document Layout Analysis(DLA) with OCR in a multi-stage process. YOLOv10 and YOLOv12 models detect and segment document elements, and the resulting regions are then passed to PaddleOCR for text extraction. Experimental results show that the first pre-trained model achieved a mAP@50 of 0.728 on a 2,000 images sample from DocLayNet. The second pre-trained model achieved a mAP@50 of 0.519 on a custom dataset. The fusion strategy reduced detection redundancy, and comparative evaluation against a production baseline indicates competitive performance. The final workflow produces a semi-structured JSON output that preserves the association between bounding box coordinates and extracted text. Future work will assess Vision Language Models (VLMs) to improve reading order reconstruction in more complex layouts.por
dc.description.abstractO acompanhamento de texto impressos é uma função importante para a indústria da publicidade, permitindo a identificação de anúncios em jornais e revistas para análise de mercado. No entanto, a automatização desta extração é desafiante devido aos layouts complexos destas publicações. Os sistemas convencionais de Reconhecimento Ótico de Caracteres (OCR), embora capazes de transcrever caracteres individuais, falham em preservar a organização estrutural e a ordem lógica de leitura. Para contornar estes desafios, o processo proposto integra a Análise de Layout de Documentos (DLA) com OCR num processo de multietapas. Os modelos YOLOv10 e YOLOv12 detetam e segmentam elementos do documento, e as regiões resultantes são depois encaminhadas para o PaddleOCR para extração de texto. Os resultados experimentais mostram que o primeiro modelo pré-treinado alcançou um mAP@50 de 0,728 numa amostra de 2.000 imagens do DocLayNet. O segundo modelo pré-treinado obteve um mAP@50 de 0,519 num conjunto de dados personalizado. A estratégia de fusão entre os resultados dos modelos reduziu a redundância de deteção e uma avaliação comparativa com uma abordagem atual em produção indica desempenho competitivo. O fluxo de trabalho final produz uma saída JSON semiestruturada que preserva a associação entre as coordenadas das caixas delimitadoras e o texto extraído. Trabalhos futuros sugerem avaliar Modelos de Visão e Linguagem (VLMs) para melhorar a reconstrução da ordem de leitura em layouts mais complexos.por
dc.identifier.tid204299586
dc.identifier.urihttp://hdl.handle.net/10198/36560
dc.language.isoeng
dc.rights.urihttp://creativecommons.org/licenses/by/4.0/
dc.subjectReconhecimento Ótico de Caracteres (OCR)
dc.subjectAnálise de Layout de Documentos (DLA)
dc.subjectmodelos YOLOv10
dc.subjectPaddleOCR
dc.titleIntelligent OCR application for text extraction and structuring on online platforms and newspapers
dc.typemaster thesis
dspace.entity.typePublication
thesis.degree.nameDissertação de Mestrado

Ficheiros

Principais
A mostrar 1 - 1 de 1
Miniatura indisponível
Nome:
Paulo Junior.pdf
Tamanho:
112.89 MB
Formato:
Adobe Portable Document Format
Licença
A mostrar 1 - 1 de 1
Miniatura indisponível
Nome:
license.txt
Tamanho:
1.75 KB
Formato:
Item-specific license agreed upon to submission
Descrição: