Name: | Description: | Size: | Format: | |
---|---|---|---|---|
3.09 MB | Adobe PDF |
Authors
Abstract(s)
Content of modern Web sites could be vulnerable to the data leaks, but could also already
contain data leaks in itself, especially in the content of large institution’s Web sites, where
a lot of users have an access to large, constantly processed huge amounts of data, which
can include sensitive data. Unlike content of databases the content of such Web sites are
much less structured and therefore less trackable and even more vulnerable to leaks that
could happen due to the human factor.
Most existing Data Leak Detection Systems are designed to detect data leaks on
networks or in highly organized and structured systems like, for example, databases.
During this work we will describe the process of creation of the multi-user Data Leak
Detection System which will be capable of detecting critical types of data inside different
institution’s Web sites by using descriptive entities of such types received from users.
With this work we make a contribution to solving the problem of data leakage from
educational institutions’ Web sites by analyzing the problem and developing a Data Detection
System capable of collecting data from Web sites independently of search engines
and, with help of users, of detecting critical data types in the collected data, providing a
user, on the end of detection process, with the basic type of the report, giving him the
opportunity for further observation of the detected data in order to decide whether to
remove those data from the corresponding Web pages or not.
O conteúdo de sites modernos pode ser vulnerável a fugas de dados, mas pode conter já fugas concretizadas, principalmente quando se trata do conteúdo de sites de grandes instituições, onde grandes quantidades de dados são frequentemente manipuladas e onde existe um grande número de utilizadores, e que geralmente processam dados confidenciais. Ao contrário, e.g das bases de dados, o conteúdo desses sites é muito menos estruturado e, menos rastreável e, portanto, ainda mais propicio a fugas de informação, que podem ocorrer não apenas devido a falhas técnicas, mas também por causa do fator humano. A maioria dos sistemas de deteção de fugas de dados existentes é projetado para detetar fugas em sistemas altamente organizados e estruturados, como bases de dados ou redes. Neste trabalho, descreveremos o processo de criação de um sistema de deteção de fugas de dados multi-utilizador, capaz de detetar tipos críticos de dados em páginas de sites utilizando objetos descritivos desses tipos descritos pelos utilizadores. Este trabalho contribui para a resolução do problema de fuga de dados dos sites de instituições de ensino, analisando o problema e desenvolvendo um sistema de deteção de dados que possa agregar dados de sites independentemente dos mecanismos de pesquisa e identificar dados críticos com a ajuda do utilizador - com a deteção de tipos críticos dados nos dados recolhidos, fornecendo no final um relatório do processo de descoberta, e criando a oportunidade de monitorizar ainda mais os dados detetados, com a finalidade de decidir se deve ou não remove-los das páginas da Web em que foram encontrados.
O conteúdo de sites modernos pode ser vulnerável a fugas de dados, mas pode conter já fugas concretizadas, principalmente quando se trata do conteúdo de sites de grandes instituições, onde grandes quantidades de dados são frequentemente manipuladas e onde existe um grande número de utilizadores, e que geralmente processam dados confidenciais. Ao contrário, e.g das bases de dados, o conteúdo desses sites é muito menos estruturado e, menos rastreável e, portanto, ainda mais propicio a fugas de informação, que podem ocorrer não apenas devido a falhas técnicas, mas também por causa do fator humano. A maioria dos sistemas de deteção de fugas de dados existentes é projetado para detetar fugas em sistemas altamente organizados e estruturados, como bases de dados ou redes. Neste trabalho, descreveremos o processo de criação de um sistema de deteção de fugas de dados multi-utilizador, capaz de detetar tipos críticos de dados em páginas de sites utilizando objetos descritivos desses tipos descritos pelos utilizadores. Este trabalho contribui para a resolução do problema de fuga de dados dos sites de instituições de ensino, analisando o problema e desenvolvendo um sistema de deteção de dados que possa agregar dados de sites independentemente dos mecanismos de pesquisa e identificar dados críticos com a ajuda do utilizador - com a deteção de tipos críticos dados nos dados recolhidos, fornecendo no final um relatório do processo de descoberta, e criando a oportunidade de monitorizar ainda mais os dados detetados, com a finalidade de decidir se deve ou não remove-los das páginas da Web em que foram encontrados.
Description
Mestrado de dupla diplomação com a Kuban State Agrarian University
Keywords
Data leak detection Crawling Nutch Solr Information Security GDPR