Repository logo
 
No Thumbnail Available
Publication

Data mining in retail sector

Use this identifier to reference this record.

Abstract(s)

The retailsectorisoneofPortugal’smostrelevanteconomicactivitiesbecausein2021it was the sector that employed the most Portuguese people and the second largest contributor t gross fixed capital formation. Despite this,in the same year it was the third sector with th most accidents at work.There fore, this master’s thesis aims to apply data mining techniques to improve work accidents prevention using internal and external data from a Portuguese retail company. The company provide dinternal data on stores, accidents and employees, which was the nintegrated with weather information collected via anexternal API. Th correlation analysis was applied separating the data by store and by district and idemonstrated a weak correlation between the features studied and the occurrence of accidents at work. Further more, ML models were trained using the same features with the intention of classifying the data between occurrence(1) ornon-occurrence(0) ofaccidents, also separating by store and by district while comparing 8ML algorithms. Another categorization of stores was testedusing a clustering algorithm along with a number of clusters optimizing method.The stores were then dividedin to clusters so that the same correlation analysis and ML classification models could be implemented for comparison. The correlation analysis per-cluster yielded no different results from the previous ones. On the other hand, the classificationa lgorithms trained by cluster performed better,with the Multilayer Perceptron algorithm obtaining Recall = 0.7959.
O setor do retalho é uma das atividades económicas mais relevantes de Portugal, pois em 2021foi o setor que mais empregou portugueses e o segundo que mais contribuiu para a formação bruta de capital fixo. Apesar disso, nomes o ano foi o terceiro setor com mais acidentes de trabalho. Assim, esta tese demonstra tem como objetivo aplicar técnicas de data mining para melhorar a prevenção de acidentes detrabalho,utilizando dados internoe e externos de uma empresa portuguesa de retalho. A empresa forneceu dados internos sobre as lojas, acidentes e funcionários, que foram depois integrados a informações climáticas recolhidas através de uma API externa. A análise de correlação foi aplicada separando os dados por loja e por distrito e demonstrou uma fraca correlação entre as variáveis estudadas e a ocorrência de acidentes de trabalho.Para além disso, foram treinados modelos de ML utilizando as mesmas variáveis como intuito de classificar os dados entre ocorrência(1) ou não ocorrência(0) de acidentes, separando também por loja e por distrito e comparando 8 algoritmos de ML.Outra categorização de lojas foi testada utilizando um algoritmo de clusterização juntamente com um método de otimização do número de clusters. As lojas foram então divididas em clusters para que a mesma análise de correlação e modelos de classificação ML pudessem ser implementados para comparação. A análise de correlação porcluster não produziu resultados diferentes dos anteriores.Por outro lado,os algoritmos de classificação treinados por cluster tiveram melhor desempenho,como algoritmo MultilayerPerceptrona obter Recall = 0, 7959.

Description

Mestrado de dupla diplomação com o Centro Federal de Educação Tecnológica de Minas Gerais – CEFET

Keywords

Data mining Retail Work accidents

Citation

Research Projects

Organizational Units

Journal Issue