Dados do Bluesky já estão a ser usados para treinar a IA e utilizadores estão descontentes
A Bluesky já está a enfrentar o seu primeiro grande problema de IA, apesar da posição da rede social. Tinham indicado recentemente que não iriam treinar a IA generativa com dados de utilizadores. O primeiro lote de informação recolhida por terceiros surgiu agora e está a deixar muitos utilizadores descontentes.
Bluesky está a ser usado para treinar IA
Um milhão de publicações públicas do Bluesky, completas com informações de identificação do utilizador, foram rastreadas e depois enviadas para a empresa de IA Hugging Face. O conjunto de dados foi criado pelo bibliotecário de aprendizagem automática Daniel van Strien.
Este lote de dados era destinado a ser utilizado no desenvolvimento de modelos de linguagem e processamento de linguagem natural. Além disso, era para usar na análise geral de tendências de redes sociais, moderação de conteúdo e padrões de publicação. Contém identificadores descentralizados (DIDs) de utilizadores e ainda possui uma função de pesquisa para encontrar conteúdo de utilizadores específicos.
First dataset for the new @huggingface.bsky.social @bsky.app community organisation: one-million-bluesky-posts 🦋
📊 1M public posts from Bluesky's firehose API 🔍 Includes text, metadata, and language predictions 🔬 Perfect to experiment with using ML for Bluesky 🤗
huggingface.co/datasets/blu...
— Daniel van Strien (@danielvanstrien.bsky.social) November 26, 2024 at 1:50 PM
Segundo a descrição do conjunto de dados, o conjunto "contém 1 milhão de publicações públicas recolhidas da API firehose (Application Programming Interface) do Bluesky Social, destinadas à investigação de aprendizagem automática e experimentação com dados de redes sociais. Cada publicação contém conteúdo de texto, metadados e informações sobre os suportes anexos e relações de resposta."
Utilizadores estão a ficar descontentes
Os utilizadores da Bluesky não optaram por tais utilizações do seu conteúdo, mas tal também não é expressamente proibido pela rede social. Isto significa que o conteúdo do Bluesky está aberto e disponível para os programadores de terceiros que a plataforma está a tentar atrair.
I've removed the Bluesky data from the repo. While I wanted to support tool development for the platform, I recognize this approach violated principles of transparency and consent in data collection. I apologize for this mistake.
— Daniel van Strien (@danielvanstrien.bsky.social) November 27, 2024 at 2:19 AM
Este poderá ser um importante sinal de alerta para muitos dos milhões de novos utilizadores do site. Muitos dos quais abandonaram o X na sequência da nova política de formação em IA. A plataforma respondeu que "o Bluesky é uma rede social aberta e pública, muito semelhante aos sites da própria Internet". Tal como os ficheiros robots.txt, nem sempre impede empresas externas de rastrearem.
Logo após a publicação do artigo, o conjunto de dados foi removido do Hugging Face. Daniel van Strien escreveu numa publicação que removeu os dados do Bluesky do repositório. Embora quisesse apoiar o desenvolvimento de ferramentas para a plataforma, reconhece que esta abordagem violou os princípios de transparência e consentimento na recolha de dados. Pediu ainda desculpa por esse erro.
Este artigo tem mais de um ano




















18 Nov 2024 “Bluesky manda uma farpa ao X! Não usará dados dos utilizadores para treinar a IA” E os burrinhos foram todos atrás.
E esta’ errado o que foi dito pela Bluesky? efectivamente nao usou nem tenciona usar os dados para AI training. Agora ser facil o scraping dos dados e’ outro problema que eles teem de resolver
Os woke e a extrema esquerda começam a entrar em parafuso, hehehe.
++1 LOL
Vestes a camisola de qualquer marca ou empresa. E lutas por isso como se de alguma coisa importante se tratasse. É apenas uma rede social.
Até a marca do açúcar deve ser motivo de grande discussão contigo.
Estas redes sociais só fazem falta a pessoas como tu, que papam qualquer teoria e que acham sempre que têm algo muito importante a dizer ou partilhar.
É uma necessidade constante, da aprovação dos outros. Isso também já está estudado.
Fachos e a sua visão a preto e branco, no pun intended.
Como criar um IA woke e de extrema esquerda e já agora com uma pitada LGBTZCVGHJKiLo++!.
Pergunto-me se existe alguma acao legal contra alguem que publicamente vai contra os terms of service de uma aplicacao com a Bluesky que disse explicitamente que nao iria usar os dados da sua plataforma para treinar AI.
Nao que queira que haja prisao ou algo do genero contra o bibliotecario, mas retirar os dados de uma plataforma e gritar “eu fiz isso mas foi para o bem de todos e para treinar tecnologia” nao me parece uma desculpa boa o suficiente para evitar algum problema legal.
Upsss…
Primeiro a ilegalidade, depois um pedido de desculpa.. séc XXI justiça do séc x
AHAHAHAHA Onde anda a esquerdalha e os “anti-musk” que criticavam o mesmo e o X e endeusavam a BlueSky?!
-Quando é que o povo percebe que serviços gratuitos, implicam cederem muita coisa para que possam continuar a usá-los?!
Dizer que não usa os dados para treinar IA, mas depois ler isto:
“”contém 1 milhão de publicações públicas recolhidas da API firehose (Application Programming Interface) do Bluesky Social, destinadas à investigação de aprendizagem automática e experimentação com dados de redes sociais. Cada publicação contém conteúdo de texto, metadados e informações sobre os suportes anexos e relações de resposta.”
Bem é o mesmo que usar dados para treinar IA ou outras coisas identicas.
Acreditar o que uma empresa ou plataforma diz é um erro. Por muito que neguem, todas as empresas utlizam os dados dos utilizadores para treinar IA e outras coisas.
Woke AI.
Até ontem estava tirando onda com o Twitter/X.
O mundo não gira, capota.
OH NOOOOOOOOOOOO!!!
AHAHAHAHAH
E AGORA???? AHAHAHA
Temos pena
Lol.
Todos preocupados com isto. Eu só uso, e queria que a bluesky fosse maior , porque não suporto a publicidade do x.
O resto não me importa com a IA
Os ladrões da IA. O bluesky foi um pequeno paraiso, com a vibe das redes sociais de há 10-12 anos atrás. Quando as pessoas eram felizes a partilhar e comunicar no seu nicho. Sem pensar em agendas politicas. Longe das pessoas toxicas e limitadas que dividem o mundo entre esquerdalha e direitalha.
esta malta com tantos comentarios contra a bluesky, e nao sabem ler nem a noticia…
A culpa nao é da bluesky, se os dados são publicos, qualquer pessoa pode usalos, neste caso o “culpado” é da huggingface.
Isto é o mesmo que um de nos pegarmos em todos os artigos do PPLWARE e usar para modelar um AI.