Please use this identifier to cite or link to this item: http://hdl.handle.net/10198/1894
Title: Aglomeração não hierárquica em sistemas distribuídos de recuperação de informação
Author: Exposto, José
Defense Date: 1997
Publisher: Universidade do Minho
Citation: Exposto, José (1997) - Aglomeração não hierárquica em sistemas distribuídos de recuperação de informação. Braga: Universidade do Minho. Dissertação de Mestrado em Informática
Abstract: A procura de documentos relevantes em colecções de grandes dimensões é um processo que envolve uma carga computacional muito elevada e uma enorme necessidade em termos de capacidade de armazenamento de dados. Apesar de toda a investigação feita, no sentido de minimizar o espaço físico ocupado pelos documentos, através de técnicas de filtragem, eliminação de palavras comuns e radicalização, são ainda exigidas grandes necessidades de armazenamento devido ao grande número de documentos das colecções. Se aliarmos as técnicas de aglomeração à distribuição de cada um dos aglomerados, por máquinas ligadas por uma rede de grande velocidade, podemos repartir o espaço ocupado pela totalidade da colecção e tirar ainda partido da utilização concorrente do poder computacional de várias máquinas, quer no processo de classificação, quer no processo de selecção de documentos relevantes a pedidos de utilizadores. A investigação apresentada nesta tese tem por objectivo verificar as potencialidades reais da distribuição dos aglomerados de documentos e fazer uma estudo comparativo do desempenho de um sistema de Recuperação de Informação variando o número de aglomerados nos modos local e distribuído. The search for relevant documents in huge collections requires very high computer load and storage overhead. Although, many research has been made towards the minimization of the document overall space overhead through stoplist techniques and stemming, the storage needed to support 60 big collections is still very high. Putting together the decomposition of big collections using clustering algorithms, and their distribution in a high speed network, it would be possible to divide the total document space by each of the network machines, and yet to get concurrent computational processing resources from those same machines. It is the goal of this thesis to verify the real potentialities of clustering distribution making a comparative study of the performance of an Information Retrieval system changing the number of clusters and confronting a local and distributed mode of that system.
URI: http://hdl.handle.net/10198/1894
Appears in Collections:IC - Dissertações de Mestrado

Files in This Item:
File Description SizeFormat 
TESE.PDF683,75 kBAdobe PDFView/Open


FacebookTwitterDeliciousLinkedInDiggGoogle BookmarksMySpace
Formato BibTex MendeleyEndnote Degois 

Items in DSpace are protected by copyright, with all rights reserved, unless otherwise indicated.