Publication
Estimating discrete object orientation based on 2D images using deep learning techniques
| datacite.subject.fos | Engenharia e Tecnologia::Outras Engenharias e Tecnologias | pt_PT |
| dc.contributor.advisor | Lopes, Rui Pedro | |
| dc.contributor.author | Yahia, Youssef Bel Haj | |
| dc.date.accessioned | 2025-01-16T15:21:48Z | |
| dc.date.available | 2025-01-16T15:21:48Z | |
| dc.date.issued | 2024 | |
| dc.description.abstract | This thesis investigates approaches for determining the 3D orientation of vehicles from 2D images, a key challenge in computer vision with applications across robotics, autonomous driving, and maintenance support. Two main methodologies were explored: a Siamese neural network and a Deep Convolutional Neural Network (DCNN) approach, each tested across varied dataset configurations. The Siamese network was implemented with VGG and ResNet architectures, achieving a peak accuracy of 95.8% using VGG16 on RGB images without background. However, the ResNet configurations in this approach showed lower performance, potentially due to dataset limitations and overfitting. The second approach employed DCNN models with both ResNet and EfficientNet architectures, systematically evaluating combinations of original and augmented dataset variations. ResNet152 achieved the highest accuracy of 96.39% on augmented RGB images without background, demonstrating superior robustness and adaptability to data variations. EfficientNet B2 also performed well, but overall, the ResNet models exhibited more consistent results across scenarios. The results underscore the effectiveness of DCNN architectures, particularly ResNet, for orientation inference tasks, indicating their resilience and accuracy across diverse data conditions. Future work will explore sensor fusion techniques to integrate additional data sources, such as LiDAR or radar, with RGB images to further enhance vehicle orientation detection accuracy. This research contributes to advancing 3D object orientation detection methods and highlights promising avenues for continued innovation in computer vision applications. | pt_PT |
| dc.description.abstract | Esta tese investiga abordagens para determinar a orientação 3D de veículos a partir de imagens 2D, um desafio central na visão computacional com aplicações em robótica, direção autônoma e suporte à manutenção. Foram exploradas duas metodologias principais: uma rede neural Siamese e uma abordagem com Rede Neural Convolucional Profunda (DCNN), cada uma testada em diferentes configurações de conjunto de dados. A rede Siamese foi implementada com arquiteturas VGG e ResNet, atingindo uma precisão máxima de 95,8% ao usar VGG16 em imagens RGB sem fundo. No entanto, as configurações ResNet nesta abordagem apresentaram desempenho inferior, possivelmente devido a limitações no conjunto de dados e sobreajuste. A segunda abordagem utilizou modelos DCNN com arquiteturas ResNet e EfficientNet, avaliando sistematicamente combinações de variações do conjunto de dados originais e aumentados. A ResNet152 obteve a maior precisão, de 96,39%, em imagens RGB aumentadas sem fundo, demonstrando maior robustez e adaptabilidade às variações de dados. Embora a EfficientNet B2 também tenha apresentado bons resultados, as redes ResNet exibiram resultados mais consistentes nos diferentes cenários. Os resultados destacam a eficácia das arquiteturas DCNN, em particular ResNet, para tarefas de inferência de orientação, indicando sua resiliência e precisão em condições diversas de dados. Futuros trabalhos explorarão técnicas de fusão de sensores para integrar fontes adicionais, como LiDAR ou radar, com imagens RGB para aumentar ainda mais a precisão na detecção de orientação de veículos. Esta pesquisa contribui para o avanço dos métodos de detecção de orientação de objetos 3D e destaca caminhos promissores para inovações contínuas em aplicações de visão computacional. | pt_PT |
| dc.identifier.tid | 203804643 | pt_PT |
| dc.identifier.uri | http://hdl.handle.net/10198/31010 | |
| dc.language.iso | eng | pt_PT |
| dc.rights.uri | http://creativecommons.org/licenses/by-nc/4.0/ | pt_PT |
| dc.subject | Computer vision | pt_PT |
| dc.subject | Siamese networks | pt_PT |
| dc.subject | DCNN | pt_PT |
| dc.title | Estimating discrete object orientation based on 2D images using deep learning techniques | pt_PT |
| dc.type | master thesis | |
| dspace.entity.type | Publication | |
| rcaap.rights | openAccess | pt_PT |
| rcaap.type | masterThesis | pt_PT |
| thesis.degree.name | Informática | pt_PT |
