Repository logo
 

Search Results

Now showing 1 - 4 of 4
  • Um modelo cooperativo e distribuído para a recuperação de informação na WWW
    Publication . Exposto, José; Pina, António; Macedo, Joaquim; Alves, Albano; Rufino, José
    Este artigo apresenta um ambiente da recuperação de informação - SIRe - inteiramente adequado a um espaço multilingue e dinâmico da informação como a Internet. A arquitectura proposta visa assegurar que o sistema pode ser ampliado, para atingir um desempenho mais elevado e melhores resultados das pesquisas, ou reduzido para permitir economizar no sentido de obter uma melhor relação global para o custo/desempenho. Para atingir o almejado desempenho, como uma alternativa de baixo custo as máquinas paralelas tradicionais, o sistema proposto assenta em tecnologias de conveniência para a criação de uma arquitectura de cluster baseada em estações de trabalho multi-processadores, ligadas por infraestruturas de rede de elevado desempenho.
  • Relações entre a topologia de rede e a geografia dos servidores WWW em Portugal
    Publication . Exposto, José; Pina, António; Macedo, Joaquim; Alves, Albano; Rufino, José
    Esta comunicação centra-se no estudo das localizações geográficas e da topologia de rede da WWW portuguesa, baseado em recolhas de rotas de encaminhamento de rede. O objectivo é a identificação das nuvens de densidade entre os servidores WWW, utilizando, para tal: medidas de proximidade temporal baseadas nos tempos médios de ida e volta (RTT), de forma a determinar as localizações mais apropriadas para a instalação de robôs cooperativos que minimizem o tempo de descarga global das fontes de informação. O processo é realizado através do recurso a técnicas vulgares de aglomeração num ambiente experimental, recorrendo a dados recolhidos, activamente, através de sondas colocadas na Internet, para criar uma grafo de distâncias fim-a-fim e calcular a distância entre os arcos dados pelos os tempos médios de ida e volta de uma comunicação de Internet entre quaisquer dois servidores. Um outro objectivo, é a confirmação da existência de relação entre a distância lógica (RTT) e a distância física (Geográfica). Os resultados dos experimentos realizados vêm confirmar as hipóteses iniciais pelo que estão abertos caminhos para novas experiências no âmbito do estudo entre as relações entre as topologias de rede e Internet e a geografia dos servidores.
  • Geographical partition for distributed web crawling
    Publication . Exposto, José; Macedo, Joaquim; Pina, António; Alves, Albano; Rufino, José
    This paper evaluates scalable distributed crawling by means of the geographical partition of the Web. The approach is based on the existence of multiple distributed crawlers each one responsible for the pages belonging to one or more previously identified geographical zones. The work considers a distributed crawler where the assignment of pages to visit is based on page content geographical scope. For the initial assignment of a page to a partition we use a simple heuristic that marks a page within the same scope of the hosting web server geographical location. During download, if the analyze of a page contents recommends a different geographical scope, the page is forwarded to the well-located web server. A sample of the Portuguese Web pages, extracted during the year 2005, was used to evaluate: a) page download communication times and the b) overhead of pages exchange among servers. Evaluation results permit to compare our approach to conventional hash partitioning strategies.
  • Efficient partitioning strategies for distributed web crawling
    Publication . Exposto, José; Macedo, Joaquim; Pina, António; Alves, Albano; Rufino, José
    This paper presents a multi-objective approach toWeb space partitioning, aimed to improve distributed crawling efficiency. The in- vestigation is supported by the construction of two different weighted graphs. The first is used to model the topological communication infras- tructure between crawlers and Web servers and the second is used to represent the amount of link connections between servers’ pages. The values of the graph edges represent, respectively, computed RTTs and pages links between nodes. The two graphs are further combined, using a multi-objective partition- ing algorithm, to support Web space partitioning and load allocation for an adaptable number of geographical distributed crawlers. Partitioning strategies were evaluated by varying the number of parti- tions (crawlers) to obtain merit figures for: i) download time, ii) exchange time and iii) relocation time. Evaluation has showed that our partition- ing schemes outperform traditional hostname hash based counterparts in all evaluated metric, achieving on average 18% reduction for download time, 78% reduction for exchange time and 46% reduction for relocation time.