
A probabilidade de uma palavra seguir outra pode ser usada para criar uma marca d’água para texto gerado por IA
Vikram Arun/Shutterstock
O Google usa marca d’água de inteligência artificial para identificar automaticamente o texto gerado pelo chatbot Gemini da empresa, facilitando a distinção entre conteúdo gerado por IA e postagens escritas por humanos. Esse sistema de marca d’água poderia ajudar a prevenir o uso indevido de chatbots de IA para desinformação e confusão – sem mencionar a fraude em ambientes escolares e empresariais.
Agora, a empresa de tecnologia está criando uma versão de código aberto de sua tecnologia para que outros desenvolvedores de IA generativa possam colocar marcas d’água semelhantes na saída de seus próprios grandes modelos de linguagem. Pushmeet Kohli No Google DeepMind, a equipe de pesquisa de IA da empresa, que combina os antigos laboratórios Google Brain e DeepMind “Embora o SynthID não seja uma solução mágica para identificar conteúdo gerado por IA, é um importante alicerce para o desenvolvimento de ferramentas de detecção de IA mais confiáveis”, diz ele.
Pesquisadores independentes expressaram otimismo semelhante. “Embora nenhum método conhecido de marca d’água seja perfeito, eu realmente acho que ele pode ajudar a detectar informações erradas geradas por IA, fraudes acadêmicas e muito mais”, disse Scott Aaronson na Universidade do Texas em Austin, que anteriormente trabalhou com segurança de IA na OpenAI. “Espero que outras grandes empresas de modelos de linguagem, incluindo OpenAI e Anthropic, sigam o exemplo da DeepMind nesse sentido.”
Em maio deste ano, o Google DeepMind anúncio Ela aplicou seu método SynthID para marcar texto e vídeo gerados por IA dos serviços Gemini e VO AI do Google, respectivamente. A empresa já publicou um artigo de pesquisa na revista a natureza Mostrando como o SynthID geralmente supera técnicas semelhantes de marca d’água de IA para texto. A comparação envolve avaliar a facilidade com que as respostas podem ser detectadas em diferentes modelos de IA com marca d’água.
No método de marca d’água de IA do Google DeepMind, o modelo gera uma sequência de texto, um algoritmo de “amostragem de torneio” o ajusta para selecionar “tokens” de palavras específicas, criando uma assinatura estatística que pode ser detectada pelo software correspondente. Este processo emparelha aleatoriamente possíveis tokens de palavras em uma chave estilo torneio, com o vencedor de cada par determinado pela pontuação mais alta de acordo com uma função de marca d’água. Os vencedores passam por rodadas sucessivas do torneio até que reste apenas uma – uma “abordagem multicamadas” que “aumenta a complexidade de possíveis tentativas de engenharia reversa ou remoção de marcas d’água”, diz o documento. Furong Huang na Universidade de Maryland.
Um “adversário determinado” com enorme poder de computação ainda pode remover essas marcas d’água de IA, diz ele Han Lin Zhang na Universidade de Harvard. Mas ele descreveu a abordagem do SynthID como significativa, dada a necessidade de marcas d’água escalonáveis em serviços de IA.
Os pesquisadores do Google DeepMind testaram duas versões do SynthID que representam uma compensação entre tornar as assinaturas de marcas d’água mais identificáveis em detrimento da distorção do texto normalmente gerado por um modelo de IA. Eles mostraram que a versão sem distorção da marca d’água de IA ainda funciona, sem afetar significativamente a qualidade de 20 milhões de respostas de texto geradas pelo Gemini durante um teste ao vivo.
Mas os pesquisadores reconhecem que a marca d’água funciona melhor com respostas longas de chatbot que podem ser respondidas de diversas maneiras – como criar uma redação ou e-mail – e que ainda precisa ser testada em respostas a problemas matemáticos ou de codificação.
Tanto a equipe do Google DeepMind quanto outros descreveram a necessidade de salvaguardas adicionais contra o abuso de chatbots de IA – Huang também recomenda controles mais fortes. “A obrigatoriedade da marca d’água por lei resolverá os desafios de praticidade e de adoção pelo usuário, garantindo um uso mais seguro de grandes modelos de linguagem”, diz ela.
Assunto: