Participe de nossos boletins diários e semanais para obter as atualizações mais recentes e conteúdo exclusivo na cobertura da IA da frente industrial. Saber mais
Modelos racionais como o OpenAI O1 e Depsek-R1 têm um problema: eles desaparecem. “O que é 1+1?” Faça a eles uma pergunta tão simples e eles pensarão por vários segundos antes de respondê -los.
Idealmente, como os humanos, os modelos de IA devem receber uma resposta direta e quando justificar tempo e recursos extras antes de responder. UM A nova técnica Fornecido por pesquisadores Meta ay E Universidade de Illinois Chicago Amostras ferroviárias para alocar orçamentos assumidos com base no inconveniente da consulta. Isso resulta em respostas rápidas, redução de custos e alocação de recursos de computação.
Racionalidade cara
Os grandes modelos de linguagem (LLM) podem melhorar seu desempenho em questões racionais ao criar cadeias racionais longas, que geralmente são chamadas de “chin-chin” (COD). O sucesso da COT levou a uma técnica de hipoglicemia em escala completa, que considerará o modelo por um longo tempo sobre o problema, criará e revisará muitas respostas e escolherá o melhor.
Uma das principais formas usadas em modelos racionais também é conhecida como “votação majoritária” (MV). O problema dessa abordagem é que o modelo segue um comportamento equilibrado, considera cada linha um problema racional difícil e gasta recursos desnecessários para criar muitas respostas.
Racional inteligente
A nova folha propõe técnicas contínuas de treinamento, que podem ser muito eficientes em responder a modelos racionais. O primeiro passo é a “votação contínua” (SV), onde o modelo interrompe o processo racional quando um certo número de vezes aparece. Por exemplo, o modelo é solicitado a criar no máximo oito respostas e escolher a resposta que ocorre pelo menos três vezes. Se for dado ao modelo de consulta simples mencionado acima, as três primeiras respostas serão idênticas, que serão interrompidas no início, economizando tempo e calculando recursos.
Seus testes mostram que o SV Classic MV supera os problemas de competição matemática ao criar o mesmo número de respostas. No entanto, o SV requer instruções adicionais e geração de token, que é paralela ao MV com base na taxa de token-tulium.
A segunda técnica, “votação contínua adaptativa” (ASV), melhora o SV, examina o problema do modelo e só cria muitas respostas quando o problema é difícil. Para problemas simples (como na linha 1+1), o modelo simplesmente cria uma resposta sem passar no processo de votação. Isso torna o modelo mais eficiente para lidar com problemas simples e complexos.
Reintentando o aprendizado
Embora o SV e o ASV melhorem o desempenho do modelo, eles precisam de muitos dados marcados com mão. Para aliviar esse problema, os pesquisadores têm uma “otimização de políticas com orçamento assumida” (IPPO), um mecanismo de aprendizado de reforço, que ensina o modelo a ajustar a duração dos traços racionais com base no inconveniente da consulta.
O IPPO foi projetado para permitir que os LLMs melhorem suas respostas quando uma hipótese está no controle. O mecanismo RL implementa o modelo que excede os ganhos obtidos por dados nomeados manualmente, selecionando as consequências dos traços de ASV, avaliando as respostas e selecionando as consequências de fornecer a resposta certa e o orçamento ideal.
Seus testes mostram que o IPPO é atualizado para a liderança do Parateto, ou seja, para um orçamento carregado de suporte, um treinamento de modelo no IPPO superará outros princípios básicos.
As inovações estão chegando no cenário de pesquisadores que alertam que os modelos atuais de IA atingirão um muro. As empresas estão lutando para encontrar dados de treinamento de qualidade e estão explorando métodos alternativos para melhorar seus modelos.
Uma solução confiável é o aprendizado de reforço, onde o modelo recebe uma meta e pode encontrar suas próprias soluções em vez de ajustar fino supervisionado (SFT), onde o modelo é nomeado manualmente.
Surpreendentemente, o modelo geralmente vê as soluções que os humanos não pensam. É uma fórmula, que parece ter funcionado bem para o Deepseek-R1, que desafiou o domínio dos laboratórios da AI baseados na América.
Os pesquisadores observam: “Os métodos baseados em gatilho e SFT lutam para o maior progresso e o desempenho, e a SFT suporta apenas a suposição de que as habilidades de auto-radiação não serão implementadas. Esta observação é um pouco apoiada por trabalhos simultâneos, que é mais R.L.
Link da fonte