rARC – O arquivo da web portuguesa
Sabia que a web portuguesa é guardada centralmente para a proteger em caso de catástrofe? Podemos muitas vezes pensar que existe sempre alguém ou algo a gerir tudo o que se cria, modifica e apaga na web. Embora saibamos que nada é eterno, confiamos que esta aldeia global não está assente sobre frágeis estacas binárias. É aqui que os serviços prestados pelo Arquivo da Web Portuguesa ultrapassam o âmbito histórico-cultural da preservação de informação digital.
Este arquivo vai mais além da "perda material", este arquivo contribui para a expansão do uso do português enquanto língua para comunicação na Web; contribui para a disseminação de conteúdos de interesse às diversas comunidades científicas... são provas devidamente acauteladas.
O que é o rARC?
A Fundação para a Computação Científica Nacional (FCCN) lançou um projecto de arquivo da web portuguesa. Periodicamente a web portuguesa é recolhida e guardada num arquivo central. Este processo requer uma grande quantidade de espaço em disco para guardar cada recolha.
O rARC é um sistema que permitirá a um utilizador da Internet disponibilizar espaço em disco no seu computador para armazenar cópias de segurança de pequenas partes dos dados armazenados no arquivo central. Para este efeito apenas terá de instalar uma aplicação simples no seu computador.
Pretende-se assim que em caso de destruição do arquivo central, causada por exemplo por uma catástrofe natural, os conteúdos históricos arquivados possam ser salvos a partir das cópias de segurança distribuídas pelos utilizadores.
Quais as principais características do rARC?
O rARC deverá ser:
- Escalável Numa primeira fase deverá suportar milhares de utilizadores distribuídos pela Internet.
- Seguro Os dados contidos numa cópia de segurança não deverão estar acessíveis aos utilizadores do computador.
- Robusto Deverá ser robusto contra utilizadores mal intencionados e garantir a integridade das cópias de segurança.
- Fácil de usar Os utilizadores deverão conseguir instalar facilmente a aplicação que permitirá disponibilizar espaço para guardar as cópias de segurança.
- Configurável Deverá ser fácil de usar e integrar em iniciativas de arquivo independentes.
Serão feitas cópias de segurança de todo o Arquivo?
O principal objectivo do rARC é permitir que mesmo que o arquivo central se perca totalmente, a informação armazenada nos computadores dos utilizadores se salve.
Apenas será possível criar cópias de segurança para todo o arquivo se existir espaço suficiente disponibilizado pelos utilizadores. Quanto maior for a adesão por parte destes utilizadores mais informação poderemos salvar.
No entanto, mesmo que não seja possível copiar todo o arquivo, o rARC provará ser útil se conseguir salvar pelo menos uma parte da informação em caso de destruição do arquivo central, evitando assim a sua total perda.
Quem poderá guardar cópias de segurança?
Qualquer indivíduo ou instituição poderá colaborar para a preservação da web portuguesa. Contamos com a colaboração dos cidadãos cientes da importância da necessidade de um esforço comum, assim como das organizações com preocupações e responsabilidades ao nível da preservação da cultura e História de Portugal.
Esperamos também que o rARC venha a ser usado também para troca de cópias de segurança entre arquivos da web. Por exemplo, o Arquivo da Web Portuguesa poderia disponibilizar espaço para armazenar conteúdos de um arquivo da web do Brasil, e este poderia fazer o mesmo pelo AWP.
Assim sendo, em caso de catástrofe, um dos arquivos da web poderia ser reconstruído a partir das cópias de segurança guardadas em países longínquos onde os efeitos da catástrofe não se tivessem feito sentir.
Quanto espaço tenho de dar?
No mínimo 100 MB, ou seja, o espaço para guardar um ficheiro ARC.
Em Fevereiro de 2008, um computador vulgar vinha equipado com um disco de 320 GB. Uma cópia de segurança de 100 MB de conteúdos arquivados corresponde apenas a 0,03% do espaço em disco.
Quanto mais espaço oferecer, maior será a probabilidade de preservarmos a informação publicada na web para o futuro. Contamos consigo.
O meu computador vai ficar mais lento?
O programa cliente do rARC que é instalado no computador do utilizador terá um impacto mínimo no seu desempenho. Este programa, após descarregar as cópias de segurança a partir do arquivo central, está a maior parte do tempo inactivo, realizando apenas ligações esporádicas ao arquivo central para verificar a integridade das cópias de segurança.
Vou ter de manter a minha cópia do arquivo para sempre?
Não.
É natural que passado algum tempo as pessoas mudem de computador, decidam desinstalar aplicações ou simplesmente percam o interesse em colaborar com o projecto rARC.
No entanto, enquanto tiveram as cópias guardadas no seu disco contribuíram para a preservação da História, pois caso tivesse havido um problema com o arquivo central, estas cópias teriam sido muito valiosas para que a informação arquivada não se tivesse perdido.
Poderá reduzir o espaço oferecido quando quiser.
Por favor, não apague os ficheiros relacionados com o rARC directamente.
Porque é que eu havia de dar espaço do meu computador?
Pela mesma razão que daria qualquer outra coisa. Essencialmente, esperamos que os cidadãos com consciência da importância da História venham a aderir ao projecto.
A "recompensa" é apenas participar num esforço de preservação da cultura e desenvolvimento do país.
Quando o rARC entrar em produção iremos manter uma lista de todos os colaboradores do projecto, no presente e no passado. Assim como um top dos colaboradores mais antigos e mais generosos. Semanalmente, estará em destaque na página do projecto o nome de um colaborador do projecto escolhido aleatoriamente.
Como funciona?
O rARC terá uma arquitectura cliente-servidor. Um utilizador da Internet instala uma aplicação cliente no seu computador. A aplicação cliente comunica com o servidor de modo a efectuar a cópia de segurança, recuperação ou verificação do estado de uma cópia feita previamente.
Sempre que o cliente comunica com o servidor é informado acerca do processo que está a ser executado: cópia de segurança ou recuperação.
Caso o servidor esteja a realizar as cópias de segurança, o cliente irá descarregar informação arquivada.
Caso o servidor esteja a recuperar uma perda de informação, a aplicação cliente irá enviar as suas cópias de segurança para o servidor.
Periodicamente o cliente comunica com o servidor para verificar o estado das cópias de segurança que detém, permitindo ao servidor verificar a sua integridade.
Posso contribuir no desenvolvimento do código?
Sim.
O rARC é um projecto código aberto. Participações técnicas para a detecção e correcção de erros, assim como desenvolvimento de novas funcionalidades são bem vindas.
O rARC só serve para o Arquivo da Web Portuguesa?
Não. O rARC é um projecto de código aberto disponibilizado gratuitamente. Poderá ser usado por qualquer iniciativa de arquivo da web que armazene os conteúdos no formato ARC.
À escala mundial existe o Internet Archive
O Internet Archive recolhe e arquiva conteúdos Web à escala mundial. No entanto, é difícil para uma única organização fazer um arquivo exaustivo de todos os conteúdos publicados na Web, porque esta está em permanente mutação e muitos conteúdos desaparecem antes de poderem ser recolhidos para arquivo.
Acontecimentos históricos de grande importância como o Furacão Katrina originaram acções de arquivo extra-ordinárias por parte do Internet Archive, para que este acontecimento que marcou a história dos Estados Unidos da América ficasse documentado o mais exaustivamente possível.
No entanto, a documentação de acontecimentos históricos de relevância nacional para Portugal não é prioritária para o Internet Archive.
As comunidades de vários países, sensibilizadas para a urgência da preservação da informação publicada na Web de interesse nacional desencadearam iniciativas formais de preservação e catalogação da informação digital.
Decorrem em paralelo iniciativas de arquivo focadas em diferentes conteúdos e todas partilham o objectivo de preservar o conhecimento disponível na Web. Mas mesmo existindo estas várias iniciativas em curso, é difícil conseguir preservar a maioria da informação publicada na Web, devido à sua grande dimensão e ao curto intervalo de tempo em que a informação está disponível para poder ser arquivada.
O arquivo da web requer um esforço à escala mundial.
Licença: Freeware
Sistemas Operativos: Windows/Linux
Download: rARC [0.97MB]
Homepage: rARC
Homepage: Arquivo.pt
Este artigo tem mais de um ano
Eu pensava que isto era um tipo de compactador tipo winrar tuga…
Nem tudo é o que parece!
Leio o artigo que esta ferramenta e o projecto associado é mmmuuiitttoooo interessante.
Brasileiros podem usar? hehe
Claro…todas as pessoas do mundo podem contribuir…quantas mais melhor :-)…existem mais garantias da informação sobreviver.
Interessante!!! 😉
E eu estou em 1º lugar
🙂
http://arquivo-web.fccn.pt/rarc/show/list/?l=en&o=0
200,4 GB Omg
Aposto k daqui uma semana já não tens esse espaço ofrecido..
Vamos lá ofrecer mt espaço e depois vir postar huiiiiiiiii ” E eu estou em 1º lugar “
é pena não dar para guardar em discos externos (que estejam pouco tempo ligados ao pc)
Boas.
Eu tenho instalado num disco externo…durante a instalação tens de indicar o local onde fica o rARC.
Por exemplo:
Em vez de: C:\path\rARC, escolhes o local do disco externo E:\path\rARC.
Eu já estou a contribuir e estou em 4º lugar 🙂
Fantástico!! 🙂
Já que a FCCN conta com a colaboração voluntária e gratuita, era uma boa ideia baixarem os preços que cobram pelos domínios .pt.
É isso mesmo que eu penso e pela razão que para já não contribuo com espaço.
Eles que melhorem as condições para se registar um dominio pt,para além dos preços,claro.
Acho que estão a confundir as coisas!
Uma coisa são os serviços que a FCCN presta à rede académica nacional e outra coisa é o serviço de registo de domínios em .PT.
Mas a entidade é a mesma.
A FCCN é a instituição que operacionaliza o registo e serviço de domínios .PT segundo as regras e legislação em vigor estipuladas pelo Governo.
Nada mais.
Esta é uma situação recorrente em que se está sempre a matar o mensageiro.
Porque é que não organizam um abaixo-assinado para o governo mudar as regras?
Cumprimentos.
Ou percebi mal mas isto já existe a nivel Global, sem a necessidade de extras a instalar nos nossos Pcs.
Nunca ouviram falar do Wayback? É um site que nos mostra todos os sites do mundo da mesma forma que o TIMEMACHINE do Mac funciona 😉
Ex: PPLWARE em Novembro 2006
http://web.archive.org/web/20061110005543/https://pplware.sapo.pt/
Internet Archive: Wayback Machine
Já existe a bastante tempo mesmo…
Já agora o SAPO.PT
Em 1997, tal como o conheci pela primeira vez..! lol
http://web.archive.org/web/19971008225910/http://www.sapo.pt/index.html
Arquivos desde 1997 até agora…
http://web.archive.org/web/*/http://www.sapo.pt
Espectacular! Não conhecia…
Experimente a pesquisar por termo na Wayback, tal como faz no Google. Por exemplo, procure páginas antigas acerca da gripe.
Conseguiu?
Tente de novo:
http://experimental.arquivo.pt
Cumprimentos.
Exacto, tou a perceber mas isso já o próprio Google faz 😉
http://news.google.com/archivesearch
“News archive search provides an easy way to search and explore historical archives. In addition to helping you search, News archive search can automatically create timelines which show selected results from relevant time periods.”
Obviamente este projecto vai reforçar o conteudo no nosso idioma, o que é muito bom mesmo, mas a forma como o faz, dependendo dos utilizadores não sei se será a mais eficaz, já que agora todos partilham “200GB” mas amanhã ou na proxima instalação do Windows ou transição para outro computador, esquecem-se disso… É tudo muito eficaz de “giro” ao inicio, mas a longo prazo ou médio não sei até que ponto será a melhor opção/solução.
Cumprimentos 😉
Tal como citaste: “News archive search”
O Arquivo da Web Portuguesa vai para além disso.
Pesquisas sobre recolhas da web portuguesa e não sobre publicação portuguesas na web.
Ao assumires que ambos são iguais, é considerares que a web portuguesa só é constituída por jornais como público, DN, JN, por rádios, por TVs e afins.
Algo de facto muito redutor para diversidade de informações e opiniões na web.
Muito interessante o artigo mas o início leva-nos a crer num conceito diferente. Na verdade a razão não è preservação em caso de catastrofe somente, mas sobretudo recuperar artigos que se perdem no tempo:
“Após 1 ano, apenas cerca de 20% de um conjunto de endereços da web ainda apontam para um conteúdo válido (Ntoulas, 2004). Ou seja, após 1 ano é provável que 8 em cada 10 dos Favoritos que guardou no seu browser se tenham perdido.”…
” passado relativamente pouco tempo, a grande maioria desta informação deixa de estar acessível online e perde-se irremediavelmente. ”
Além de todos os projectos internacionais, devo acrescentar que conheço algumas pessoas que fazem um backup de parte da internet. Estes serviços focam-se em informação e sobretudo ciência, alguns particulares focam-se na herança cultural, música, livros, filmes…
240GB partilhados aqui 🙂
Se for possível instalar noutro computador talvez ainda partilhe mais.
Algo que não custa para preservar as nossas coisas de Portugal
Cumprimentos
Artigo muito interessante! Mas questiono o que é necessário fazer com a informação caso se queira formatar a máquina, trocar de SO, vender, etc.
Questiono também quais as implicações de perder a informação, em caso de avaria do disco, por exemplo!!
Outra questão é se várias pessoas podem participar com um mesmo nome e assim criar uma equipa virtual!
Parece-me curioso haver ainda tão pouca participação!! O Pplware vai dar um valente empurrão nesta iniciativa?!?!
Vou pensar seriamente nesta ideia (logo a seguir às vossas respostas) 🙂
olá.
Pelo que li, a ideia é ter a informação replicada por vários computadores( Internet) . Caso um computador seja formatado, a informação que estava lá esta replicado noutro PC. Quando instalares novamente, o teu PC começa a replicar novamente informação.
Pelo post do “Francisco Matias” acho que numa próxima versão será possivel ter vários clientes para o mesmo contribuidor. O que será uma grande ideia!!!
Eu instalei à pouco tempo e tinha poucos utilizadores…mas agora já tem mais. É tudo uma questão de publicidade 🙂
A ideia das equipas também é fixe…acho que deve ser uma questão de enviar essa sugestão para eles.
Tenho de aumentar o espaço oferecido, pois estou no fundo da tabela 🙁
Boa tarde.
Enviei um email para eles a perguntar quantos clientes rARC cada utilizador pode ter.
Actualmente, cada utilizador apenas pode ter um cliente rARC activo.
Mas eles pretendem lançar uma versão que permita que cada contribuidor possa ter vários clientes rARC(tipo cluster), e o espaço contar tudo para o mesmo contribuidor. Esperamos que saia rápido 🙂
Já agora, estou em 32º…tenho de ficar no top 🙂
Hmmm… um sistema de ficheiros distribuido (por assim dizer)…
onde já vimos isto?…(FreeNet (Mas com outro objectivo))
É uma boa iniciativa, “user intrusive”, porque implica a instalação de software…
Porque é que os ISP nacionais e os datacenters nacionais não disponibilizam uns Terabytes para o projecto tb?!….