Wikipedia não resiste e oferece dados à IA para evitar que sejam roubados por bots
A IA, para além de todos os recursos que necessita, tem uma dependência muito grade de dados. Estes servem para a parte da sua aprendizagem e para conhecer melhor os temas a que pode responder. Depois de muita confusão neste ponto, a Wikipedia resolveu acompanhar esta onda e oferecer dados para as IA aprenderem. A ideia é serem roubados por bots.
Wikipedia oferece dados para ensinar a IA
Para alimentar os seus modelos de IA cada vez mais ávidos de dados, as empresas implementaram um exército de bots na Internet, encarregues de recolher o máximo de informação possível a partir da “web aberta”. A Wikipedia, com o seu conteúdo gratuito e reutilizável, em determinadas condições, é um alvo importante, mas esta coleção coloca uma grande pressão sobre a infraestrutura da enciclopédia online. Uma solução foi posta em prática para satisfazer todos.
A Wikimedia, fundação sem fins lucrativos que aloja e apoia a Wikipedia, enfrenta dificuldades com os bots de recolha de dados de empresas de IA. São muito gananciosos e colocam pressão na infraestrutura da organização. De facto, desde o início do ano, a atividade destes bots aumentou em 50% a largura de banda utilizada para descarregar conteúdos multimédia.
Para aliviar os seus servidores, a Wikimedia oferece agora uma base de dados de artigos da Wikipedia em inglês e francês. Esta base de dados estruturada foi concebida especificamente para aplicações de aprendizagem automática: facilita o acesso a artigos já processados que podem ser utilizados imediatamente para tarefas como modelação, ajuste fino, alinhamento ou até mesmo análise.
Evitar que sejam roubados por bots
Tecnicamente, a base de dados utiliza a API Snapshot Structured Contents, que fornece dados num formato JSON legível por máquina. Isto permite que os programadores e investigadores trabalhem diretamente com artigos bem segmentados, contendo resumos, descrições curtas, dados estruturados, como infoboxes, ligações para imagens, bem como secções de artigos claramente definidas (excluindo referências ou elementos não textuais).
Estes dados são publicados sob licenças livres, alguns casos sob domínio público ou licenças alternativas. São alojados pelo Kaggle, a plataforma de referência da Google para a comunidade de aprendizagem automática. A Wikimedia já tinha uma parceria com a Google para partilhar o seu conteúdo. Esta nova iniciativa é, portanto, uma continuação lógica disto.
Esta é uma posição interessante da Wikipedia, ainda mais para se proteger. Os dados que tem alojados são pode demais interessantes para os bots que vão alimentar as IA e que acabariam por pesa muito. Com estes dados agora disponibilizados, protege a sua infraestrutura, ao mesmo tempo que alimenta qualquer IA que queira informação fidedigna.






















Temos é de organizar aí uma equipa de edição especial para abordar vários temas que estão na wikipedia.pt com termos, expressões e referências erradas…
“Não resiste” lol há mais de 3 anos foram os primeiros dados de treinamento das AI, já não existe nada de novo para ir buscar em alguns meses os americanos e chineses copiaram tudo o que precisavam.