Repository logo
 

Search Results

Now showing 1 - 10 of 27
  • Full-speed scalability of the pDomus platform for DHTs
    Publication . Rufino, José; Pina, António; Alves, Albano; Exposto, José; Lopes, Rui Pedro
    Domus is an architecture for Distributed Hash Tables (DHTs) tailored to a shared-all cluster environment. Domus DHTs build on a (dynamic) set of cluster nodes; each node may perform routing and/or storage tasks, for one or more DHTs, as a function of the node base (static) resources and of its (dynamic) state. Domus DHTs also benefit from a rich set of user-level attributes and operations. pDomus is a prototype of Domus that creates an environment where to evaluate the architecture concepts and features. In this paper, we present a set of experiments conduced to obtain figures of merit on the scalability of a specific DHT operation, with several lookup methods and storage technologies. The evaluation also involves a comparison with a database and a P2P-oriented DHT platform. The results are promising, and a motivation for further work.
  • pDomus: a prototype for cluster-oriented distributed hash tables
    Publication . Rufino, José; Pina, António; Alves, Albano; Exposto, José
    The Domus architecture for distributed hash tables (DHTs) is specially designed to support the concurrent deployment of multiple and heterogeneous DHTs, in a dynamic shared-all cluster environment. The execution model is compatible with the simultaneous access of several distributed/parallel client applications to the same or different running DHTs. Support to distributed routing and storage is dynamically configurable per node, as a function of applications requirements, node base resources and the overall cluster communication, memory and storage usage. pDomus is a prototype of Domus that creates an environment where to evaluate the model embedded concepts and planned features. In this paper, we present a series of experiments conduced to obtain figures of merit i) for the performance of basic dictionary operations, and ii) for the storage overhead resulting from several storage technologies. We also formulate a ranking formula that takes into account access patterns of clients to DHTs, to objectively select the most adequate storage technology, as a valuable metric for a wide range of application scenarios. Finally, we also evaluate client applications and services scalability, for a select dictionary operation. Results of the overall evaluation are promising and a motivation for further work
  • Deploying applications in Multi-SAN SMP clusters
    Publication . Alves, Albano; Pina, António; Rufino, José; Exposto, José
    The effective exploitation of multi-SAN SMP clusters and the use of generic clusters to support complex information systems require new approaches. On the one hand, multi-SAN SMP clusters introduce another level of parallelism which is not addressed by conventional programming models that assume a homogeneous cluster. On the other hand, traditional parallel programming environments are mainly used to run scientific computations, using all available resources, and therefore applications made of multiple components, sharing cluster resources or being restricted to a particular cluster partition, are not supported. We present an approach to integrate the representation of physical resources, the modelling of applications and the mapping of application into physical resources. The abstractions we propose allow to combine shared memory, message passing and global memory paradigms.
  • Estratégias de partição para a optimização da descarga distribuída de Web
    Publication . Exposto, José
    Face à imensidão de informação na Web, a descarga de páginas utilizada, por exemplo, em motores de pesquisa, sugere a criação de um sistema de agentes distribuídos (robôs) que descarreguem vários servidores em simultâneo. Porém, quando procuramos optimizar os mecanismos de descargas somos confrontados, pela necessidade de obedecer às actuais políticas de delicadeza que obrigam à existência de um intervalo de tempo mínimo entre dois pedidos de descarga, ao mesmo servidor. Uma outra dificuldade resulta da forma como as páginas estão distribuídas, uma vez que a maior percentagem está alojada em apenas um pequeno número de servidores, provocando um desnivelamento significativo entre servidores com poucas páginas e servidores (mais densos) com elevado número de páginas. O aumento do desempenho de cada agente é alcançável através da diminuição do intervalo de descarga, do aumento do número de conexões http persistentes e/ou repartindo as páginas existentes pelos servidores Web mais densos por vários robôs. No entanto, se considerarmos que o valor daquele intervalo deve permanecer constante, para o universo de todos os servidores, a tentativa de usar qualquer uma daquelas opções conduz necessariamente à violação das políticas de delicadeza. Todavia, sendo razoável esperar que a capacidade de processamento e comunicação de um servidor cresça na razão directa da respectiva densidade, podemos considerar que o intervalo de descarga pode ser reduzido na proporção inversa. Isto é, podemos fazer variar o tempo de delicadeza nos pedidos de descarga a um servidor no sentido de adaptar o intervalo à respectiva densidade. Esta dissertação surge como uma alternativa aos processos tradicionais da descarga da Web, capaz de reduzir o tempo total de descarga de páginas e minimizar a sobrecarga de comunicação necessária à sincronização de uma colecção de agentes distribuídos. Subjacente está uma infra-estrutura de comunicações e uma arquitectura de descarga que comporta a existência de entidades dedicadas ao particionamento do espaço Web e a sua alocação a um conjunto de robôs distribuídos, organizados hierarquicamente através da definição de entidades lógicas. Durante o processo de descarga das páginas é recolhida informação para gerar configurações de divisão da Web, através da aplicação de algoritmos de partição de grafos, baseados em modelos da Internet obtidos por aproximação calculada por caminhos mais curtos no grafo gerado. The hugeness of the Web suggests the creation of distributed agent systems (crawlers) to download several sites simultaneously, for instance, in search engine crawling operations. However, the optimization of crawling download operations faces the need to comply with current politeness policies which require a minimum period of time between two consecutive requests to same server. Another difficulty arises from the distribution of the number of pages on the servers, where a large percentage is hosted in a small number of servers, causing a significant unevenness between servers with few pages and dense servers with a lot of pages. On each crawler performance increase may be achieved through the reduction of the politeness time interval, increase of the number of http persistent connections and/or subdividing dense servers by several crawlers. Nevertheless, considering that the politeness interval should remain constant, for the universe of all the servers, any attempt to use any of the remaining options, leads, inevitably, to the violation of the politeness policies. However, considering the expectation that the density of a server grows proportional to its processing and communication capabilities, it is feasible to consider a reduction in the politeness interval inversely proportional. In other words, politeness interval may be adjusted during download requests to a server based on its density. This dissertation appears as an alternative to the traditional download processes, able to reduce the total page download time and to minimize the communication overhead required to synchronize the collection of distributed crawlers. Underneath the crawling’s operations lays a communication infrastructure and a download architecture embracing the existence of dedicated Web space partitioning entities and its allocation to the distributed crawler set, organized hierarchically through logical entities. Throughout the download process additional information is gathered to generate the resulting division of the Web through the application of graph partitioning algorithms based on models of the Internet obtained by approximation by shortest paths on the generated graph.
  • Orientação ao recurso: um modelo de comunicação para a computação em clusters
    Publication . Alves, Albano; Pina, António; Rufino, José; Exposto, José
    A orientação ao recurso é um novo modelo de comunicação e de computação capaz de tirar partido da comunicação de elevado desempenho, no desenvolvimento de uma classe importante de aplicações paralelas/distribuídas de grande escala. Neste contexto, a biblioteca RoCL, especialmente desenhada para a execução em ambientes cluster, de máquinas SMP, usando múltiplos fios-de-execução, permite a exploração de múltiplas tecnologias de comunicação de elevado desempenho e múltiplos protocolos de comunicação, tais como a Myrinet (GM) e a Gigabit Ethernet (VIA). Os recursos são as abstracções usadas para modelar as entidades aplicacionais que podem ser registadas e localizadas através de um serviço básico de directório, distribuído pelos nodos do cluster.
  • A cluster oriented model for dynamically balanced DHTs
    Publication . Rufino, José; Pina, António; Alves, Albano; Exposto, José
    In this paper, we refine previous work on a model for a Distributed Hash Table (DHT) with support to dynamic balancement across a set of heterogeneous cluster nodes. We present new high-level entities, invariants and algorithms developed to increase the level of parallelism and globally reduce memory utilization. In opposition to a global distribution mechanism, that relies on complete knowledge about the current distribution of the hash table, we adopt a local approach, based on the division of the DHT into separated regions, that possess only partial knowledge of the global hash table. Simulation results confirm the hypothesis that the increasing of parallelism has as counterpart the degradation of the quality of the balancement achieved with the global approach. However, when compared with Consistent Hashing and our global approach, the same results clarify the relative merits of the extension, showing that, when properly parameterized, the model is still competitive, both in terms of the quality of the distribution and scalability.
  • Um modelo cooperativo e distribuído para a recuperação de informação na WWW
    Publication . Exposto, José; Pina, António; Macedo, Joaquim; Alves, Albano; Rufino, José
    Este artigo apresenta um ambiente da recuperação de informação - SIRe - inteiramente adequado a um espaço multilingue e dinâmico da informação como a Internet. A arquitectura proposta visa assegurar que o sistema pode ser ampliado, para atingir um desempenho mais elevado e melhores resultados das pesquisas, ou reduzido para permitir economizar no sentido de obter uma melhor relação global para o custo/desempenho. Para atingir o almejado desempenho, como uma alternativa de baixo custo as máquinas paralelas tradicionais, o sistema proposto assenta em tecnologias de conveniência para a criação de uma arquitectura de cluster baseada em estações de trabalho multi-processadores, ligadas por infraestruturas de rede de elevado desempenho.
  • Relações entre a topologia de rede e a geografia dos servidores WWW em Portugal
    Publication . Exposto, José; Pina, António; Macedo, Joaquim; Alves, Albano; Rufino, José
    Esta comunicação centra-se no estudo das localizações geográficas e da topologia de rede da WWW portuguesa, baseado em recolhas de rotas de encaminhamento de rede. O objectivo é a identificação das nuvens de densidade entre os servidores WWW, utilizando, para tal: medidas de proximidade temporal baseadas nos tempos médios de ida e volta (RTT), de forma a determinar as localizações mais apropriadas para a instalação de robôs cooperativos que minimizem o tempo de descarga global das fontes de informação. O processo é realizado através do recurso a técnicas vulgares de aglomeração num ambiente experimental, recorrendo a dados recolhidos, activamente, através de sondas colocadas na Internet, para criar uma grafo de distâncias fim-a-fim e calcular a distância entre os arcos dados pelos os tempos médios de ida e volta de uma comunicação de Internet entre quaisquer dois servidores. Um outro objectivo, é a confirmação da existência de relação entre a distância lógica (RTT) e a distância física (Geográfica). Os resultados dos experimentos realizados vêm confirmar as hipóteses iniciais pelo que estão abertos caminhos para novas experiências no âmbito do estudo entre as relações entre as topologias de rede e Internet e a geografia dos servidores.
  • Geographical partition for distributed web crawling
    Publication . Exposto, José; Macedo, Joaquim; Pina, António; Alves, Albano; Rufino, José
    This paper evaluates scalable distributed crawling by means of the geographical partition of the Web. The approach is based on the existence of multiple distributed crawlers each one responsible for the pages belonging to one or more previously identified geographical zones. The work considers a distributed crawler where the assignment of pages to visit is based on page content geographical scope. For the initial assignment of a page to a partition we use a simple heuristic that marks a page within the same scope of the hosting web server geographical location. During download, if the analyze of a page contents recommends a different geographical scope, the page is forwarded to the well-located web server. A sample of the Portuguese Web pages, extracted during the year 2005, was used to evaluate: a) page download communication times and the b) overhead of pages exchange among servers. Evaluation results permit to compare our approach to conventional hash partitioning strategies.
  • Aglomeração não hierárquica em sistemas distribuídos de recuperação de informação
    Publication . Exposto, José
    A procura de documentos relevantes em colecções de grandes dimensões é um processo que envolve uma carga computacional muito elevada e uma enorme necessidade em termos de capacidade de armazenamento de dados. Apesar de toda a investigação feita, no sentido de minimizar o espaço físico ocupado pelos documentos, através de técnicas de filtragem, eliminação de palavras comuns e radicalização, são ainda exigidas grandes necessidades de armazenamento devido ao grande número de documentos das colecções. Se aliarmos as técnicas de aglomeração à distribuição de cada um dos aglomerados, por máquinas ligadas por uma rede de grande velocidade, podemos repartir o espaço ocupado pela totalidade da colecção e tirar ainda partido da utilização concorrente do poder computacional de várias máquinas, quer no processo de classificação, quer no processo de selecção de documentos relevantes a pedidos de utilizadores. A investigação apresentada nesta tese tem por objectivo verificar as potencialidades reais da distribuição dos aglomerados de documentos e fazer uma estudo comparativo do desempenho de um sistema de Recuperação de Informação variando o número de aglomerados nos modos local e distribuído. The search for relevant documents in huge collections requires very high computer load and storage overhead. Although, many research has been made towards the minimization of the document overall space overhead through stoplist techniques and stemming, the storage needed to support 60 big collections is still very high. Putting together the decomposition of big collections using clustering algorithms, and their distribution in a high speed network, it would be possible to divide the total document space by each of the network machines, and yet to get concurrent computational processing resources from those same machines. It is the goal of this thesis to verify the real potentialities of clustering distribution making a comparative study of the performance of an Information Retrieval system changing the number of clusters and confronting a local and distributed mode of that system.