Dados do Bluesky já estão a ser usados para treinar a IA e utilizadores estão descontentes

28 Nov 2024 · Inteligência Artificial 19 Comentários

A Bluesky já está a enfrentar o seu primeiro grande problema de IA, apesar da posição da rede social. Tinham indicado recentemente que não iriam treinar a IA generativa com dados de utilizadores. O primeiro lote de informação recolhida por terceiros surgiu agora e está a deixar muitos utilizadores descontentes.

Bluesky está a ser usado para treinar IA

Um milhão de publicações públicas do Bluesky, completas com informações de identificação do utilizador, foram rastreadas e depois enviadas para a empresa de IA Hugging Face. O conjunto de dados foi criado pelo bibliotecário de aprendizagem automática Daniel van Strien.

Este lote de dados era destinado a ser utilizado no desenvolvimento de modelos de linguagem e processamento de linguagem natural. Além disso, era para usar na análise geral de tendências de redes sociais, moderação de conteúdo e padrões de publicação. Contém identificadores descentralizados (DIDs) de utilizadores e ainda possui uma função de pesquisa para encontrar conteúdo de utilizadores específicos.

First dataset for the new @huggingface.bsky.social @bsky.app community organisation: one-million-bluesky-posts 🦋

📊 1M public posts from Bluesky's firehose API 🔍 Includes text, metadata, and language predictions 🔬 Perfect to experiment with using ML for Bluesky 🤗

huggingface.co/datasets/blu...

[image or embed]

— Daniel van Strien (@danielvanstrien.bsky.social) November 26, 2024 at 1:50 PM

Segundo a descrição do conjunto de dados, o conjunto "contém 1 milhão de publicações públicas recolhidas da API firehose (Application Programming Interface) do Bluesky Social, destinadas à investigação de aprendizagem automática e experimentação com dados de redes sociais. Cada publicação contém conteúdo de texto, metadados e informações sobre os suportes anexos e relações de resposta."

Utilizadores estão a ficar descontentes

Os utilizadores da Bluesky não optaram por tais utilizações do seu conteúdo, mas tal também não é expressamente proibido pela rede social. Isto significa que o conteúdo do Bluesky está aberto e disponível para os programadores de terceiros que a plataforma está a tentar atrair.

I've removed the Bluesky data from the repo. While I wanted to support tool development for the platform, I recognize this approach violated principles of transparency and consent in data collection. I apologize for this mistake.

[image or embed]

— Daniel van Strien (@danielvanstrien.bsky.social) November 27, 2024 at 2:19 AM

Este poderá ser um importante sinal de alerta para muitos dos milhões de novos utilizadores do site. Muitos dos quais abandonaram o X na sequência da nova política de formação em IA. A plataforma respondeu que "o Bluesky é uma rede social aberta e pública, muito semelhante aos sites da própria Internet". Tal como os ficheiros robots.txt, nem sempre impede empresas externas de rastrearem.

Logo após a publicação do artigo, o conjunto de dados foi removido do Hugging Face. Daniel van Strien escreveu numa publicação que removeu os dados do Bluesky do repositório. Embora quisesse apoiar o desenvolvimento de ferramentas para a plataforma, reconhece que esta abordagem violou os princípios de transparência e consentimento na recolha de dados. Pediu ainda desculpa por esse erro.

Bluesky manda uma farpa ao X! Não usará dados dos utilizadores para treinar a IA

Este artigo tem mais de um ano

Acompanhe o Pplware no Google Notícias

Propor Revisão Proponha uma correção, faça uma sugestão

Autor: Pedro Simões

Tags: Bluesky dados IA treinar utilizadores

Comentários19

36.71Hz says:

28 de Novembro de 2024 às 08:37

18 Nov 2024 “Bluesky manda uma farpa ao X! Não usará dados dos utilizadores para treinar a IA” E os burrinhos foram todos atrás.

Responder
- Cenas+e+coisas says:
  
  28 de Novembro de 2024 às 08:59
  
  E esta’ errado o que foi dito pela Bluesky? efectivamente nao usou nem tenciona usar os dados para AI training. Agora ser facil o scraping dos dados e’ outro problema que eles teem de resolver
  
  Responder
Rodrigo says:

28 de Novembro de 2024 às 08:48

Os woke e a extrema esquerda começam a entrar em parafuso, hehehe.

Responder
- rui says:
  
  28 de Novembro de 2024 às 09:31
  
  ++1 LOL
  
  Responder
- João says:
  
  28 de Novembro de 2024 às 09:42
  
  Vestes a camisola de qualquer marca ou empresa. E lutas por isso como se de alguma coisa importante se tratasse. É apenas uma rede social.
  Até a marca do açúcar deve ser motivo de grande discussão contigo.
  Estas redes sociais só fazem falta a pessoas como tu, que papam qualquer teoria e que acham sempre que têm algo muito importante a dizer ou partilhar.
  É uma necessidade constante, da aprovação dos outros. Isso também já está estudado.
  
  Responder
  - To Canelas says:
    
    28 de Novembro de 2024 às 15:32
    
    Fachos e a sua visão a preto e branco, no pun intended.
    
    Responder
Rodrigo says:

28 de Novembro de 2024 às 08:50

Como criar um IA woke e de extrema esquerda e já agora com uma pitada LGBTZCVGHJKiLo++!.

Responder
Cenas+e+coisas says:

28 de Novembro de 2024 às 08:57

Pergunto-me se existe alguma acao legal contra alguem que publicamente vai contra os terms of service de uma aplicacao com a Bluesky que disse explicitamente que nao iria usar os dados da sua plataforma para treinar AI.

Nao que queira que haja prisao ou algo do genero contra o bibliotecario, mas retirar os dados de uma plataforma e gritar “eu fiz isso mas foi para o bem de todos e para treinar tecnologia” nao me parece uma desculpa boa o suficiente para evitar algum problema legal.

Responder
LA says:

28 de Novembro de 2024 às 09:19

Upsss…

Responder
Ze says:

28 de Novembro de 2024 às 09:42

Primeiro a ilegalidade, depois um pedido de desculpa.. séc XXI justiça do séc x

Responder
Bruno M. says:

28 de Novembro de 2024 às 10:09

AHAHAHAHA Onde anda a esquerdalha e os “anti-musk” que criticavam o mesmo e o X e endeusavam a BlueSky?!

-Quando é que o povo percebe que serviços gratuitos, implicam cederem muita coisa para que possam continuar a usá-los?!

Dizer que não usa os dados para treinar IA, mas depois ler isto:
“”contém 1 milhão de publicações públicas recolhidas da API firehose (Application Programming Interface) do Bluesky Social, destinadas à investigação de aprendizagem automática e experimentação com dados de redes sociais. Cada publicação contém conteúdo de texto, metadados e informações sobre os suportes anexos e relações de resposta.”
Bem é o mesmo que usar dados para treinar IA ou outras coisas identicas.

Responder
Toni da Adega says:

28 de Novembro de 2024 às 10:49

Acreditar o que uma empresa ou plataforma diz é um erro. Por muito que neguem, todas as empresas utlizam os dados dos utilizadores para treinar IA e outras coisas.

Responder
Pastor says:

28 de Novembro de 2024 às 10:59

Woke AI.

Responder
Julio Albert says:

28 de Novembro de 2024 às 12:20

Até ontem estava tirando onda com o Twitter/X.

O mundo não gira, capota.

Responder
joão says:

28 de Novembro de 2024 às 12:39

OH NOOOOOOOOOOOO!!!

AHAHAHAHAH

E AGORA???? AHAHAHA

Responder
Guelindão says:

28 de Novembro de 2024 às 13:22

Temos pena

Responder
André says:

28 de Novembro de 2024 às 22:30

Lol.
Todos preocupados com isto. Eu só uso, e queria que a bluesky fosse maior , porque não suporto a publicidade do x.
O resto não me importa com a IA

Responder
Igor says:

29 de Novembro de 2024 às 02:07

Os ladrões da IA. O bluesky foi um pequeno paraiso, com a vibe das redes sociais de há 10-12 anos atrás. Quando as pessoas eram felizes a partilhar e comunicar no seu nicho. Sem pensar em agendas politicas. Longe das pessoas toxicas e limitadas que dividem o mundo entre esquerdalha e direitalha.

Responder
rjSampaio says:

29 de Novembro de 2024 às 12:38

esta malta com tantos comentarios contra a bluesky, e nao sabem ler nem a noticia…

A culpa nao é da bluesky, se os dados são publicos, qualquer pessoa pode usalos, neste caso o “culpado” é da huggingface.

Isto é o mesmo que um de nos pegarmos em todos os artigos do PPLWARE e usar para modelar um AI.

Responder

Deixe um comentário Cancelar Resposta

Aviso: Todo e qualquer texto publicado na internet através deste sistema não reflete, necessariamente, a opinião deste site ou do(s) seu(s) autor(es). Os comentários publicados através deste sistema são de exclusiva e integral responsabilidade e autoria dos leitores que dele fizerem uso. A administração deste site reserva-se, desde já, no direito de excluir comentários e textos que julgar ofensivos, difamatórios, caluniosos, preconceituosos ou de alguma forma prejudiciais a terceiros. Textos de caráter promocional ou inseridos no sistema sem a devida identificação do seu autor (nome completo e endereço válido de email) também poderão ser excluídos.