Critical data leak detection in institutions’ public Web sites

Igorevich, Vasilenko Andrey

http://hdl.handle.net/10198/22691

Utilize este identificador para referenciar este registo.

Nome:	Descrição:	Tamanho:	Formato:
Igorevich_Vasilenko.pdf		3.09 MB	Adobe PDF	Ver/Abrir

Contacte-nos

Autores

Igorevich, Vasilenko Andrey

Orientador(es)

Exposto, José

Pedrosa, Tiago

Vladimirovich, Tkachenko Vasiliy

Resumo(s)

Content of modern Web sites could be vulnerable to the data leaks, but could also already contain data leaks in itself, especially in the content of large institution’s Web sites, where a lot of users have an access to large, constantly processed huge amounts of data, which can include sensitive data. Unlike content of databases the content of such Web sites are much less structured and therefore less trackable and even more vulnerable to leaks that could happen due to the human factor. Most existing Data Leak Detection Systems are designed to detect data leaks on networks or in highly organized and structured systems like, for example, databases. During this work we will describe the process of creation of the multi-user Data Leak Detection System which will be capable of detecting critical types of data inside different institution’s Web sites by using descriptive entities of such types received from users. With this work we make a contribution to solving the problem of data leakage from educational institutions’ Web sites by analyzing the problem and developing a Data Detection System capable of collecting data from Web sites independently of search engines and, with help of users, of detecting critical data types in the collected data, providing a user, on the end of detection process, with the basic type of the report, giving him the opportunity for further observation of the detected data in order to decide whether to remove those data from the corresponding Web pages or not.

O conteúdo de sites modernos pode ser vulnerável a fugas de dados, mas pode conter já fugas concretizadas, principalmente quando se trata do conteúdo de sites de grandes instituições, onde grandes quantidades de dados são frequentemente manipuladas e onde existe um grande número de utilizadores, e que geralmente processam dados confidenciais. Ao contrário, e.g das bases de dados, o conteúdo desses sites é muito menos estruturado e, menos rastreável e, portanto, ainda mais propicio a fugas de informação, que podem ocorrer não apenas devido a falhas técnicas, mas também por causa do fator humano. A maioria dos sistemas de deteção de fugas de dados existentes é projetado para detetar fugas em sistemas altamente organizados e estruturados, como bases de dados ou redes. Neste trabalho, descreveremos o processo de criação de um sistema de deteção de fugas de dados multi-utilizador, capaz de detetar tipos críticos de dados em páginas de sites utilizando objetos descritivos desses tipos descritos pelos utilizadores. Este trabalho contribui para a resolução do problema de fuga de dados dos sites de instituições de ensino, analisando o problema e desenvolvendo um sistema de deteção de dados que possa agregar dados de sites independentemente dos mecanismos de pesquisa e identificar dados críticos com a ajuda do utilizador - com a deteção de tipos críticos dados nos dados recolhidos, fornecendo no final um relatório do processo de descoberta, e criando a oportunidade de monitorizar ainda mais os dados detetados, com a finalidade de decidir se deve ou não remove-los das páginas da Web em que foram encontrados.

Descrição

Mestrado de dupla diplomação com a Kuban State Agrarian University

Palavras-chave

Data leak detection Crawling Nutch Solr Information Security GDPR

URI

http://hdl.handle.net/10198/22691

Coleções

ESTiG - Dissertações de Mestrado Alunos

Licença CC

cclicense-by-nc

Ver registo completo