Dados do Bluesky já estão a ser usados para treinar a IA e utilizadores estão descontentes
A Bluesky já está a enfrentar o seu primeiro grande problema de IA, apesar da posição da rede social. Tinham indicado recentemente que não iriam treinar a IA generativa com dados de utilizadores. O primeiro lote de informação recolhida por terceiros surgiu agora e está a deixar muitos utilizadores descontentes.
Bluesky está a ser usado para treinar IA
Um milhão de publicações públicas do Bluesky, completas com informações de identificação do utilizador, foram rastreadas e depois enviadas para a empresa de IA Hugging Face. O conjunto de dados foi criado pelo bibliotecário de aprendizagem automática Daniel van Strien.
Este lote de dados era destinado a ser utilizado no desenvolvimento de modelos de linguagem e processamento de linguagem natural. Além disso, era para usar na análise geral de tendências de redes sociais, moderação de conteúdo e padrões de publicação. Contém identificadores descentralizados (DIDs) de utilizadores e ainda possui uma função de pesquisa para encontrar conteúdo de utilizadores específicos.
First dataset for the new @huggingface.bsky.social @bsky.app community organisation: one-million-bluesky-posts 🦋
📊 1M public posts from Bluesky's firehose API 🔍 Includes text, metadata, and language predictions 🔬 Perfect to experiment with using ML for Bluesky 🤗
huggingface.co/datasets/blu...
— Daniel van Strien (@danielvanstrien.bsky.social) November 26, 2024 at 1:50 PM
Segundo a descrição do conjunto de dados, o conjunto "contém 1 milhão de publicações públicas recolhidas da API firehose (Application Programming Interface) do Bluesky Social, destinadas à investigação de aprendizagem automática e experimentação com dados de redes sociais. Cada publicação contém conteúdo de texto, metadados e informações sobre os suportes anexos e relações de resposta."
Utilizadores estão a ficar descontentes
Os utilizadores da Bluesky não optaram por tais utilizações do seu conteúdo, mas tal também não é expressamente proibido pela rede social. Isto significa que o conteúdo do Bluesky está aberto e disponível para os programadores de terceiros que a plataforma está a tentar atrair.
I've removed the Bluesky data from the repo. While I wanted to support tool development for the platform, I recognize this approach violated principles of transparency and consent in data collection. I apologize for this mistake.
— Daniel van Strien (@danielvanstrien.bsky.social) November 27, 2024 at 2:19 AM
Este poderá ser um importante sinal de alerta para muitos dos milhões de novos utilizadores do site. Muitos dos quais abandonaram o X na sequência da nova política de formação em IA. A plataforma respondeu que "o Bluesky é uma rede social aberta e pública, muito semelhante aos sites da própria Internet". Tal como os ficheiros robots.txt, nem sempre impede empresas externas de rastrearem.
Logo após a publicação do artigo, o conjunto de dados foi removido do Hugging Face. Daniel van Strien escreveu numa publicação que removeu os dados do Bluesky do repositório. Embora quisesse apoiar o desenvolvimento de ferramentas para a plataforma, reconhece que esta abordagem violou os princípios de transparência e consentimento na recolha de dados. Pediu ainda desculpa por esse erro.
18 Nov 2024 “Bluesky manda uma farpa ao X! Não usará dados dos utilizadores para treinar a IA” E os burrinhos foram todos atrás.
E esta’ errado o que foi dito pela Bluesky? efectivamente nao usou nem tenciona usar os dados para AI training. Agora ser facil o scraping dos dados e’ outro problema que eles teem de resolver
Os woke e a extrema esquerda começam a entrar em parafuso, hehehe.
++1 LOL
Vestes a camisola de qualquer marca ou empresa. E lutas por isso como se de alguma coisa importante se tratasse. É apenas uma rede social.
Até a marca do açúcar deve ser motivo de grande discussão contigo.
Estas redes sociais só fazem falta a pessoas como tu, que papam qualquer teoria e que acham sempre que têm algo muito importante a dizer ou partilhar.
É uma necessidade constante, da aprovação dos outros. Isso também já está estudado.
Fachos e a sua visão a preto e branco, no pun intended.
Como criar um IA woke e de extrema esquerda e já agora com uma pitada LGBTZCVGHJKiLo++!.
Pergunto-me se existe alguma acao legal contra alguem que publicamente vai contra os terms of service de uma aplicacao com a Bluesky que disse explicitamente que nao iria usar os dados da sua plataforma para treinar AI.
Nao que queira que haja prisao ou algo do genero contra o bibliotecario, mas retirar os dados de uma plataforma e gritar “eu fiz isso mas foi para o bem de todos e para treinar tecnologia” nao me parece uma desculpa boa o suficiente para evitar algum problema legal.
Upsss…
Primeiro a ilegalidade, depois um pedido de desculpa.. séc XXI justiça do séc x
AHAHAHAHA Onde anda a esquerdalha e os “anti-musk” que criticavam o mesmo e o X e endeusavam a BlueSky?!
-Quando é que o povo percebe que serviços gratuitos, implicam cederem muita coisa para que possam continuar a usá-los?!
Dizer que não usa os dados para treinar IA, mas depois ler isto:
“”contém 1 milhão de publicações públicas recolhidas da API firehose (Application Programming Interface) do Bluesky Social, destinadas à investigação de aprendizagem automática e experimentação com dados de redes sociais. Cada publicação contém conteúdo de texto, metadados e informações sobre os suportes anexos e relações de resposta.”
Bem é o mesmo que usar dados para treinar IA ou outras coisas identicas.
Acreditar o que uma empresa ou plataforma diz é um erro. Por muito que neguem, todas as empresas utlizam os dados dos utilizadores para treinar IA e outras coisas.
Woke AI.
Até ontem estava tirando onda com o Twitter/X.
O mundo não gira, capota.
OH NOOOOOOOOOOOO!!!
AHAHAHAHAH
E AGORA???? AHAHAHA
Temos pena
Lol.
Todos preocupados com isto. Eu só uso, e queria que a bluesky fosse maior , porque não suporto a publicidade do x.
O resto não me importa com a IA
Os ladrões da IA. O bluesky foi um pequeno paraiso, com a vibe das redes sociais de há 10-12 anos atrás. Quando as pessoas eram felizes a partilhar e comunicar no seu nicho. Sem pensar em agendas politicas. Longe das pessoas toxicas e limitadas que dividem o mundo entre esquerdalha e direitalha.
esta malta com tantos comentarios contra a bluesky, e nao sabem ler nem a noticia…
A culpa nao é da bluesky, se os dados são publicos, qualquer pessoa pode usalos, neste caso o “culpado” é da huggingface.
Isto é o mesmo que um de nos pegarmos em todos os artigos do PPLWARE e usar para modelar um AI.