Dados do Bluesky já estão a ser usados para treinar a IA e utilizadores estão descontentes
A Bluesky já está a enfrentar o seu primeiro grande problema de IA, apesar da posição da rede social. Tinham indicado recentemente que não iriam treinar a IA generativa com dados de utilizadores. O primeiro lote de informação recolhida por terceiros surgiu agora e está a deixar muitos utilizadores descontentes.
Bluesky está a ser usado para treinar IA
Um milhão de publicações públicas do Bluesky, completas com informações de identificação do utilizador, foram rastreadas e depois enviadas para a empresa de IA Hugging Face. O conjunto de dados foi criado pelo bibliotecário de aprendizagem automática Daniel van Strien.
Este lote de dados era destinado a ser utilizado no desenvolvimento de modelos de linguagem e processamento de linguagem natural. Além disso, era para usar na análise geral de tendências de redes sociais, moderação de conteúdo e padrões de publicação. Contém identificadores descentralizados (DIDs) de utilizadores e ainda possui uma função de pesquisa para encontrar conteúdo de utilizadores específicos.
First dataset for the new @huggingface.bsky.social @bsky.app community organisation: one-million-bluesky-posts 🦋
📊 1M public posts from Bluesky's firehose API 🔍 Includes text, metadata, and language predictions 🔬 Perfect to experiment with using ML for Bluesky 🤗
huggingface.co/datasets/blu...
— Daniel van Strien (@danielvanstrien.bsky.social) November 26, 2024 at 1:50 PM
Segundo a descrição do conjunto de dados, o conjunto "contém 1 milhão de publicações públicas recolhidas da API firehose (Application Programming Interface) do Bluesky Social, destinadas à investigação de aprendizagem automática e experimentação com dados de redes sociais. Cada publicação contém conteúdo de texto, metadados e informações sobre os suportes anexos e relações de resposta."
utilizadores estão a ficar descontentes
Os utilizadores da Bluesky não optaram por tais utilizações do seu conteúdo, mas tal também não é expressamente proibido pela Bluesky. Isto significa que o conteúdo do Bluesky está aberto e disponível para os programadores de terceiros que a plataforma está a tentar atrair.
I've removed the Bluesky data from the repo. While I wanted to support tool development for the platform, I recognize this approach violated principles of transparency and consent in data collection. I apologize for this mistake.
— Daniel van Strien (@danielvanstrien.bsky.social) November 27, 2024 at 2:19 AM
Este poderá ser um importante sinal de alerta para muitos dos milhões de novos utilizadores do site. Muitos dos quais abandonaram o X na sequência da nova política de formação em IA. A Bluesky respondeu que "o Bluesky é uma rede social aberta e pública, muito semelhante aos sites da própria Internet. Tal como os ficheiros robots.txt nem sempre impedem empresas externas de rastrear esses sites.
Logo após a publicação do artigo, o conjunto de dados foi removido do Hugging Face. Daniel van Strien escreveu numa publicação que removeu os dados do Bluesky do repositório. Embora quisesse apoiar o desenvolvimento de ferramentas para a plataforma, reconhece que esta abordagem violou os princípios de transparência e consentimento na recolha de dados. Pediu ainda desculpa por esse erro.
18 Nov 2024 “Bluesky manda uma farpa ao X! Não usará dados dos utilizadores para treinar a IA” E os burrinhos foram todos atrás.
E esta’ errado o que foi dito pela Bluesky? efectivamente nao usou nem tenciona usar os dados para AI training. Agora ser facil o scraping dos dados e’ outro problema que eles teem de resolver
Os woke e a extrema esquerda começam a entrar em parafuso, hehehe.
++1 LOL
Como criar um IA woke e de extrema esquerda e já agora com uma pitada LGBTZCVGHJKiLo++!.
Pergunto-me se existe alguma acao legal contra alguem que publicamente vai contra os terms of service de uma aplicacao com a Bluesky que disse explicitamente que nao iria usar os dados da sua plataforma para treinar AI.
Nao que queira que haja prisao ou algo do genero contra o bibliotecario, mas retirar os dados de uma plataforma e gritar “eu fiz isso mas foi para o bem de todos e para treinar tecnologia” nao me parece uma desculpa boa o suficiente para evitar algum problema legal.
Upsss…
Primeiro a ilegalidade, depois um pedido de desculpa.. séc XXI justiça do séc x
AHAHAHAHA Onde anda a esquerdalha e os “anti-musk” que criticavam o mesmo e o X e endeusavam a BlueSky?!
-Quando é que o povo percebe que serviços gratuitos, implicam cederem muita coisa para que possam continuar a usá-los?!
Dizer que não usa os dados para treinar IA, mas depois ler isto:
“”contém 1 milhão de publicações públicas recolhidas da API firehose (Application Programming Interface) do Bluesky Social, destinadas à investigação de aprendizagem automática e experimentação com dados de redes sociais. Cada publicação contém conteúdo de texto, metadados e informações sobre os suportes anexos e relações de resposta.”
Bem é o mesmo que usar dados para treinar IA ou outras coisas identicas.