Logo do repositório
 
A carregar...
Miniatura
Publicação

Predictive modeling of media audience based on time series

Utilize este identificador para referenciar este registo.
Nome:Descrição:Tamanho:Formato: 
Bruno Silva.pdf8.97 MBAdobe PDF Ver/Abrir

Resumo(s)

The rapid evolution of media consumption habits and the increasing competition between television and digital platforms have intensified the need for accurate audience forecasting. Understanding how audiences fluctuate over time is crucial for broadcasters, advertisers, and content producers seeking to optimize programming strategies and allocate resources efficiently. This dissertation presents a comprehensive study on the prediction of television audience ratings using machine learning and statistical models. The work compares multiple modelling approaches, including Linear Regression, Ridge Regression, Random Forest, Gradient Boosting (LightGBM), Long Short-Term Memory (LSTM) networks, and the SARIMA statistical model. The analysis was conducted on four datasets derived from Portuguese television audience data, covering pre- and post-COVID-19 periods and incorporating different program types schemes. It is important to emphasize that exclusively exogenous variables were used, that is, variables external to the audience generation process itself, deliberately excluding endogenous variables, in order to evaluate the predictive capacity of the models based only on contextual and programmatic factors. A rigorous preprocessing pipeline was implemented, including data cleaning, feature encoding, temporal normalization, and seasonality analysis. Hyperparameter optimization was performed using grid and randomized search methods, and models were evaluated according to MAE, RMSE, MSE, and R2 metrics. The results demonstrate that ensemble-based methods, particularly Random Forest and LightGBM, consistently outperform linear and statistical baselines, achieving R2 scores above 0.93. The LSTM network effectively captured temporal dependencies but showed sensitivity to the reduction of training data in the post-COVID subsets, while the SARIMA model proved less suitable for capturing nonlinear audience dynamics. The study also identifies clear evidence of seasonal and behavioural patterns in television audiences, which can be leveraged to improve future forecasting models. Future research directions include the integrating of external data sources such as social media and streaming platform metrics. Such extensions could further enhance the contextual understanding of audience behaviour and support data-driven decision-making in the broadcasting industry.
A rápida evolução dos hábitos de consumo de media e a crescente concorrência entre a televisão e as plataformas digitais intensificaram a necessidade de previsões precisas de audiências. Compreender as variações das audiências ao longo do tempo é fundamental para emissores, anunciantes e produtores de conteúdo que procuram otimizar as suas estratégias de programação e alocar recursos de forma eficiente. Esta dissertação apresenta um estudo abrangente sobre a previsão das audiências televisivas utilizando modelos de aprendizagem automática e modelos estatísticos. O trabalho compara múltiplas abordagens de modelação, incluindo Regressão Linear, Regressão Ridge, Random Forest, Gradient Boosting (LightGBM), redes Long Short-Term Memory (LSTM) e o modelo estatístico SARIMA. A análise foi realizada sobre quatro conjuntos de dados derivados de audiências da televisão portuguesa, abrangendo períodos pré e pós-COVID-19 e incorporando diferentes esquemas de tipologia de programas. É importante salientar que foram utilizadas exclusivamente variáveis exógenas, ou seja, variáveis externas ao próprio processo de geração de audiências, excluindo deliberadamente variáveis endógenas, com o objetivo de avaliar a capacidade preditiva dos modelos apenas com base em fatores contextuais e programáticos. Foi implementado um processo de pré-processamento, incluindo limpeza de dados, codificação de variáveis, normalização temporal e análise de sazonalidade. A otimização de hiperparâmetros foi realizada através de métodos de pesquisa em grelha (grid search) e pesquisa aleatória (randomized search), e os modelos foram avaliados segundo as métricas MAE, RMSE, MSE e R2. Os resultados demonstram que os métodos baseados em ensemble, particularmente o Random Forest e o LightGBM, superam consistentemente os modelos lineares e estatísticos de referência, alcançando valores de R2 superiores a 0,93. A rede LSTM mostrou-se eficaz na captação de dependências temporais, mas revelou sensibilidade à redução dos dados de treino nos subconjuntos pós-COVID, enquanto o modelo SARIMA se mostrou menos adequado para capturar dinâmicas não lineares das audiências. O estudo identifica ainda evidências claras de padrões sazonais e comportamentais nas audiências televisivas, que podem ser explorados para melhorar modelos de previsão futuros. As direções futuras de investigação incluem a integração de fontes de dados externas, como métricas de redes sociais e de plataformas de streaming. Estas extensões poderão reforçar a compreensão contextual do comportamento das audiências e apoiar a tomada de decisões baseada em dados na indústria televisiva.

Descrição

Palavras-chave

Television audience forecasting Machine learning Ensemble models LSTM SARIMA LightGBM Time series Media analytics

Contexto Educativo

Citação

Projetos de investigação

Unidades organizacionais

Fascículo