A maioria dos modelos de linguagem foi treinada para rejeitar as perguntas que os designers não querem que eles respondam.
Mas alguns dos promoções ou a ordem do baile podem forçar o LLMS a sair da prisão, envolvendo o pedido de que o modelo interpreta um personagem específico que evitava a proteção enquanto outros jogam com o formato do Promb, como o uso de grande Impressões que não são padrão ou substituem alguns caracteres por números.
Esse erro na rede nervosa foi educado pelo menos devido à primeira explicação de Ilya Sutskever e co -autores em 2013, mas mesmo que a pesquisa tenha sido em décadas, ainda não há como criar um modelo que não seja arriscado.
Em vez de tentar consertar seu modelo, a antropologia desenvolveu obstáculos que pararam de tentar romper e a resposta indesejada do modelo.
Em particular, a antropologia está preocupada com o LLM, que se acredita ser capaz de ajudar as pessoas com habilidades técnicas básicas. (Como um estudante de bacharel), criado ou adaptado a produtos químicos biológicos ou armas nucleares.
A empresa se concentra nos colapsos internacionais de prisão tão chamados que podem forçar o modelo a reduzir toda a prevenção, como a prisão conhecida terrível quebra.
A prisão internacional quebrou é a chave principal. O trabalho.
Antropologia para manter a lista de modelos de modelos que devem ser negados. Para criar um escudo, a empresa pediu a Claude para criar muitas perguntas e respostas sintéticas que cobrem trocas aceitáveis e inaceitáveis com os modelos. Por exemplo, perguntas sobre mostarda são aceitas e perguntas sobre Gasman.