Imagens de abuso de crianças encontradas no maior dataset de imagens de IA, diz estudo
Um enorme dataset (conjunto de dados) de imagens e legendas online, conhecido como LAION-5B, foi retirado do ar pelos seus criadores depois de um estudo de Stanford ter revelado que continha mais de 3200 imagens de abuso sexual de crianças.
O dataset foi amplamente utilizado para treinar sistemas de IA capazes de gerar imagens realistas e explícitas de crianças, o que representa uma séria ameaça à sua segurança e privacidade.
Estudo do Stanford Internet Observatory
O Stanford Internet Observatory (SIO), um grupo de investigação que monitoriza as ameaças online, descobriu que o LAION-5B tinha mais de 3200 imagens de suspeitas de abuso de crianças, das quais cerca de 1000 foram confirmadas por agências externas.
O SIO colaborou com o Canadian Centre for Child Protection e outras organizações anti-abuso para identificar e comunicar as imagens ilegais às autoridades.
LAION-5B tem imagens ilícitas
O relatório do SIO, publicado ontem, também confirmou os rumores que circulavam na Internet desde 2022 de que o LAION-5B tinha conteúdos ilícitos.
A inclusão de material de abuso infantil nos dados de treino do modelo de IA ensina ferramentas para associar crianças em atividades sexuais ilícitas e usa imagens conhecidas de abuso infantil para gerar conteúdo novo e potencialmente realista de abuso infantil.
Disse David Thiel, principal investigador do SIO.
Outro relatório do SIO, em colaboração com a organização sem fins lucrativos de segurança infantil online Thorn, destaca o rápido progresso na aprendizagem automática generativa. Este progresso permite a geração de imagens realistas que, infelizmente, contribuem para a exploração sexual de crianças através da utilização de modelos open-source de geração de imagens de IA.
A investigação de Thiel foi motivada pela sua descoberta anterior, em junho, de que os geradores de imagens de IA estavam a ser utilizados para criar e distribuir milhares de imagens falsas, mas realistas, de abuso de crianças na dark web. Thiel quis descobrir como é que estes modelos de IA, como o Stable Diffusion, um popular gerador de imagens através de texto, foram treinados para produzir conteúdos tão perturbadores.
Descobriu que estes modelos foram treinados diretamente no LAION-5B, um dataset público de milhares de milhões de imagens retiradas de várias fontes, incluindo sites de redes sociais como o Reddit, X, WordPress e Blogspot, bem como sites pornográficos como o XHamster e o XVideos. O dataset foi criado pela LAION, uma organização sem fins lucrativos sediada na Alemanha que tem como objetivo promover a investigação em IA.
Dataset em espera para supervisão
A LAION, a "Rede Aberta de Inteligência Artificial em Grande Escala", sem fins lucrativos, disse que tem uma política de tolerância zero para conteúdos ilegais. Por uma questão de precaução, retirou os datasets LAION para garantir a sua segurança antes de os voltar a publicar.
De acordo com o relatório de Thiel, as versões posteriores do Stable Diffusion, 2.0 e 2.1, filtraram parte ou a maior parte do conteúdo inseguro, dificultando a geração de conteúdo explícito. No entanto, também perderam popularidade entre os utilizadores.
A Stability AI, a startup britânica de IA que está por detrás do desenvolvimento e da adoção generalizada do Stable Diffusion, sublinhou a dedicação da empresa à prevenção da utilização indevida da IA. O porta-voz afirmou que a empresa proíbe estritamente a utilização dos seus modelos de imagem para atividades ilegais.
Este relatório concentra-se no dataset LAION-5B como um todo. Os modelos de IA de estabilidade foram treinados num subconjunto filtrado desse conjunto de dados. Além disso, ajustámos estes modelos para mitigar os comportamentos residuais.
Disse o porta-voz.
Leia também:
Por muito horrível que seja, na minha visão acho que é necessário para treinar as IA, para posteriormente detetarem essas imagens quando for em contexto real, para bloquear e denunciar. A menos que esteja a ver as coisas de forma errada, mas se essas imagens forem usadas apenas para treino e depois apagadas e destruídas não vejo onde está o mal, desde que depois essa IA seja utilizada para o bem, para depois sim detetar os verdadeiros criminosos e pedófilos.
aqui há uns tempos fizeram uma LLM que meteram bases de dados sem qualquer critério, tentaram fazer um apanhado da internet toda, foi um desastre. Não consigo encontrar a noticia
Desastre em que sentido?
No sentido em que não foi filtrado inf á llm do que é fantasia e produção imaginária , além de outros temas mais sensíveis sem ética. O resultado foi mau. Não consigo encontrar a noticia mas acho que era da universidade de stanford : No entanto, outro desastre foi esta, que teve de ser retirada depressa offline : https://www.cbsnews.com/news/microsoft-shuts-down-ai-chatbot-after-it-turned-into-racist-nazi/
Fiz um comentario e ele desapreceu o que passou?
SPAM. Já está moderado.
Abr.
Só nos faltava uma AI pedófila.
“O dataset foi amplamente utilizado para treinar sistemas de IA capazes de gerar imagens realistas e explícitas de crianças, o que representa uma séria ameaça à sua segurança e privacidade.” Isto nem dá para acreditar.
Foi algum data set sem critério de seleção, foi encher de dados á martelo e nem viram a porcaria que lá ia….. as boas LLM gabam de ter excelentes datasets, mas atendendo ao volume gigante de dados que cada uma têm é sempre impossível conseguir filtrar tudo. É rastrear o dataset até á origem e meter na choldra que merece e deitar a chave fora e servir de exemplo publico.
A que se está a falar tem perto de 6.000 milhões de imagens-texto.
Haverá 3.200 imagens de abuso sexual de crianças.
O que o investigador diz é que está demonstrado é que a IA é capaz de criar nus de pessoas vestidas, imagens de sexo não consentido e abuso sexual de crianças. Diz, com o que toda a gente concorda, que as imagens de pedofilia da base de dados são ilegais e que não deviam lá estar – mas não diz que é só por causa dessas imagens que a IA é capaz de criar imagens de abuso sexual de crianças.
Isto é uma caixa de pandora que não se resume às imagens usadas para pré-treinar a IA – tem que passar pelas regras sobre as imagens que produz.
Concordo. Penso que quem quer conteúdos xxx, tem uma brutalidade de mercado LEGAL para recorrer do que á A.I. E ao alcance de um clique. Quanto muito, alguma manga mais marota, no máximo.