“Por exemplo, informações prejudiciais podem ser ocultas em demanda inofensiva, enterro de demandas prejudiciais no muro de conteúdo inofensivo ou ocultando a demanda prejudicial no jogo imaginário ou usando alternativas óbvias”.
No lado da saída, a variedade especializada calcula a oportunidade de discutir qualquer conteúdo que não seja permitido (ou seja, palavras) em uma resposta. Esse cálculo é repetido à medida que cada token é criado e o fluxo de liberação será interrompido se os resultados excederem uma determinada porta.
Agora depende de você
Desde agosto. A empresa afirma que 183 especialistas diferentes tentaram fazê -lo por mais de 3.000 horas, fornecendo informações que podem ser usadas em 10 dos 10 gatilhos restritos.
O Glad LLM testou o modelo Andhric contra os 10.000 estimulantes artificialmente criados. A classificação constitucional impediu com sucesso 95 % dessas iniciativas, em comparação com apenas 14 % do sistema CLUT inseguro.
Apesar desses sucessos, o sistema de classificação constitucional vem com 23,7 % de sobrecarga computacional significativa, o que alerta a antropologia de que os requisitos de preço e energia de cada consulta aumentarão. O sistema de sortimento se recusou a responder a impulsos maliciosos adicionais de 0,38 % na pista insegura, que considera um pequeno aumento de aceitável.
A antropologia para de dizer que seu novo sistema oferece um sistema estúpido contra toda e qualquer jailbreak. A antropologia diz que “as novas técnicas de jailbreak podem ser descobertas e podem ser descobertas no futuro”, a constituição usada para o treinamento para classificação pode mudar rapidamente os novos ataques como eles descobriram.
Por enquanto, a antropologia está confiante de que precisa abri -la para um teste negativo generalizado em seu sistema de variedade constitucional. Até 10 de fevereiro, os usuários de Claude podem Visite o site de teste Experimente a mão para quebrar novas proteções para obter respostas para oito perguntas sobre armas químicas. Andric diz que durante o teste, os recém -descobertos jailbreaks serão anunciados. Gatspeed, novas equipes vermelhas.