Pplware

Dados do Bluesky já estão a ser usados para treinar a IA e utilizadores estão descontentes

A Bluesky já está a enfrentar o seu primeiro grande problema de IA, apesar da posição da rede social. Tinham indicado recentemente que não iriam treinar a IA generativa com dados de utilizadores. O primeiro lote de informação recolhida por terceiros surgiu agora e está a deixar muitos utilizadores descontentes.


Bluesky está a ser usado para treinar IA

Um milhão de publicações públicas do Bluesky, completas com informações de identificação do utilizador, foram rastreadas e depois enviadas para a empresa de IA Hugging Face. O conjunto de dados foi criado pelo bibliotecário de aprendizagem automática Daniel van Strien.

Este lote de dados era destinado a ser utilizado no desenvolvimento de modelos de linguagem e processamento de linguagem natural. Além disso, era para usar na análise geral de tendências de redes sociais, moderação de conteúdo e padrões de publicação. Contém identificadores descentralizados (DIDs) de utilizadores e ainda possui uma função de pesquisa para encontrar conteúdo de utilizadores específicos.

First dataset for the new @huggingface.bsky.social @bsky.app community organisation: one-million-bluesky-posts 🦋

📊 1M public posts from Bluesky’s firehose API 🔍 Includes text, metadata, and language predictions 🔬 Perfect to experiment with using ML for Bluesky 🤗

huggingface.co/datasets/blu…

[image or embed]

— Daniel van Strien (@danielvanstrien.bsky.social) November 26, 2024 at 1:50 PM

Segundo a descrição do conjunto de dados, o conjunto “contém 1 milhão de publicações públicas recolhidas da API firehose (Application Programming Interface) do Bluesky Social, destinadas à investigação de aprendizagem automática e experimentação com dados de redes sociais. Cada publicação contém conteúdo de texto, metadados e informações sobre os suportes anexos e relações de resposta.”

Utilizadores estão a ficar descontentes

Os utilizadores da Bluesky não optaram por tais utilizações do seu conteúdo, mas tal também não é expressamente proibido pela rede social. Isto significa que o conteúdo do Bluesky está aberto e disponível para os programadores de terceiros que a plataforma está a tentar atrair.

I’ve removed the Bluesky data from the repo. While I wanted to support tool development for the platform, I recognize this approach violated principles of transparency and consent in data collection. I apologize for this mistake.

[image or embed]

— Daniel van Strien (@danielvanstrien.bsky.social) November 27, 2024 at 2:19 AM

Este poderá ser um importante sinal de alerta para muitos dos milhões de novos utilizadores do site. Muitos dos quais abandonaram o X na sequência da nova política de formação em IA. A plataforma respondeu que “o Bluesky é uma rede social aberta e pública, muito semelhante aos sites da própria Internet”. Tal como os ficheiros robots.txt, nem sempre impede empresas externas de rastrearem.

Logo após a publicação do artigo, o conjunto de dados foi removido do Hugging Face. Daniel van Strien escreveu numa publicação que removeu os dados do Bluesky do repositório. Embora quisesse apoiar o desenvolvimento de ferramentas para a plataforma, reconhece que esta abordagem violou os princípios de transparência e consentimento na recolha de dados. Pediu ainda desculpa por esse erro.

Exit mobile version