Find Jobs
Hire Freelancers

Creating a data set from a web data repository

$30-500 USD

Cancelado
Publicado há quase 18 anos

$30-500 USD

Pago na entrega
The goal of this project is to create a data set that will be used to examine how web pages change over time. We have a repository of 52 weekly snapshots of 152 web sites. Each weekly snapshot is stored in a separate, compressed file. We use zlib for compression, and we have the tools that allow the users to access individual pages within each snapshot. The first step is to extract the URLs from each snapshot, and extract a number of characteristics for each web page, (e.g., URL length, content length, number of words, HTML tags/word ratio, and so on -- we will agree on the exact fields to include). The second step is to examine the evolution of pages that correspons to the same URL. We need to compare the URLs for each week pair (e.g., week 1-2, 1-3, ..., 1-51, 2-3, 2-4,... 50-51) and examine how the pages changed (e.g., in terms of content length, in terms of "shingles", in terms of HTML structure, and so on). To retrieve a small subset of the data and one of the programs that allow you to access the data, the developer can go to: [login to view URL]~webarchive/access/ where the "webcat" program can be used to see the contents of the repository. It is possible to download chunks of the data (in 512M chunks). The developer will have access to our platform for running the code and will not need to download an extensive amount of data. ## Deliverables The output of the project will be: The data set will contain two files one with the URL characteristics per week, and one with the URL comparison across weeks. The files should be in plain text, in a well-structured, tab-separated format, ready to be imported in the database. The coder should also give the source code, well-commented and with good documentation on how to run the code. ## Platform It will run on Linux. Preferred language: Java or C++
ID do Projeto: 3589673

Sobre o projeto

5 propostas
Projeto remoto
Ativo há 18 anos

Quer ganhar algum dinheiro?

Benefícios de ofertar no Freelancer

Defina seu orçamento e seu prazo
Seja pago pelo seu trabalho
Descreva sua proposta
É grátis para se inscrever e fazer ofertas em trabalhos
5 freelancers estão ofertando em média $184 USD for esse trabalho
Avatar do Usuário
See private message.
$127,50 USD em 30 dias
4,8 (35 avaliações)
5,2
5,2
Avatar do Usuário
See private message.
$255 USD em 30 dias
4,7 (29 avaliações)
5,1
5,1
Avatar do Usuário
See private message.
$170 USD em 30 dias
4,9 (35 avaliações)
4,4
4,4
Avatar do Usuário
See private message.
$199,75 USD em 30 dias
4,9 (31 avaliações)
4,3
4,3
Avatar do Usuário
See private message.
$170 USD em 30 dias
0,0 (0 avaliações)
0,0
0,0

Sobre o cliente

Bandeira do(a) GREECE
Thessalon?ki, Greece
5,0
54
Membro desde jun. 21, 2006

Verificação do Cliente

Obrigado! Te enviamos um link por e-mail para que você possa reivindicar seu crédito gratuito.
Algo deu errado ao enviar seu e-mail. Por favor, tente novamente.
Usuários Registrados Total de Trabalhos Publicados
Freelancer ® is a registered Trademark of Freelancer Technology Pty Limited (ACN 142 189 759)
Copyright © 2024 Freelancer Technology Pty Limited (ACN 142 189 759)
Carregando pré-visualização
Permissão concedida para Geolocalização.
Sua sessão expirou e você foi desconectado. Por favor, faça login novamente.