O modelo o3 da OpenAI avança nos testes lógicos de IA – mas ainda não é AGI
5 min readO novo modelo de inteligência artificial o3 da OpenAI alcançou uma pontuação alta em um prestigiado teste de raciocínio de IA chamado ARC Challenge, levando alguns entusiastas de IA a especular que o3 alcançou inteligência artificial geral (AGI). Mas embora os organizadores do Desafio ARC tenham descrito a conquista da o3 como um marco importante, eles também alertaram que ela não ganhou o grande prêmio da competição – e que é apenas um passo no caminho para AGI, um termo para uma hipotética futura IA com humanos. como inteligência. .
O modelo o3 é o mais recente de uma linha de lançamentos de IA que seguem o modelo de linguagem grande que alimenta o ChatGPT. “Este é um aprimoramento de função passo a passo surpreendente e importante nas capacidades de IA, mostrando novas capacidades de adaptação de tarefas nunca antes vistas em modelos da família GPT.” François CholetEngenheiro do Google e principal criador do ARC Challenge Postagem no blog.
O que exatamente o modelo o3 da OpenAI faz?
Desenhado por Cholet Corpus de Abstração e Raciocínio (ARC) Desafio em 2019 para testar até que ponto as IAs conseguem encontrar o padrão correto conectando pares de grades coloridas. Esses quebra-cabeças visuais têm como objetivo mostrar à IA uma forma de inteligência geral, incluindo habilidades básicas de raciocínio. Mas usar poder de computação suficiente nos quebra-cabeças pode resolver até mesmo um programa não lógico pela força bruta. Para evitar isso, a competição exige o envio de pontuações oficiais para atender a certos limites de poder computacional.
O recém-anunciado modelo o3 da OpenAI – programado para lançamento no início de 2025 – alcançou uma pontuação oficial de 75,7% no teste “semiprivado” do ARC Challenge, que é usado para classificar os concorrentes em uma tabela de classificação pública. O custo computacional de sua realização foi de cerca de US$ 20 para cada tarefa de quebra-cabeça visual, atingindo o limite total da competição de menos de US$ 10.000. No entanto, o rigoroso teste “individual” utilizado para determinar os vencedores do grande prémio tem um limite de poder computacional mais rigoroso, equivalente a gastar apenas 10 cêntimos em cada tarefa, que a OpenAI não cumpriu.
O modelo o3 alcançou uma pontuação não oficial de 87,5%, utilizando aproximadamente 172 vezes mais poder de computação do que a pontuação oficial. Para efeito de comparação, a pontuação humana média é de 84%, e uma pontuação de 85% é suficiente para ganhar o grande prêmio de US$ 500.000 do ARC Challenge – se o modelo também conseguir manter seus custos de computação dentro dos limites exigidos.
Mas para atingir sua pontuação não oficial, o3 custa milhares de dólares para resolver cada tarefa. A OpenAI solicitou que os organizadores do desafio não divulgassem os custos exatos de computação.
O que essa conquista do o3 mostra que a AGI alcançou?
Não, os organizadores do Desafio ARC afirmam especificamente que não consideram que superar este benchmark de competição seja um indicador de realização de AGI.
O modelo O3 não conseguiu resolver mais de 100 tarefas de quebra-cabeças visuais, mesmo quando a OpenAI aplicou o poder da computação em pontuações não oficiais, disse Mike Knoop, organizador do ARC Challenge na empresa de software Zapier, em uma postagem nas redes sociais. publicar em x.
em uma mídia social publicar em céu azul, Melanie Mitchell O ARC do Santa Fe Institute, no Novo México, disse o seguinte sobre o progresso do o3 no benchmark: “Acho que resolver essas tarefas com computação de força bruta vai contra o propósito”.
“Embora o novo modelo seja muito impressionante e represente um marco importante no caminho para AGI, não acredito que seja AGI – ainda existem muitas tarefas simples (Desafio ARC) que o3 não consegue resolver”, disse Cholet, outro ex . publicar.
No entanto, Chollet descreve como podemos saber quando a inteligência de nível humano é demonstrada por alguma forma de AGI. “Você saberá que a AGI está aqui quando se tornar a prática de criar tarefas que são fáceis para humanos normais, mas difíceis para a IA”, disse ele.
Thomas Dieterich A Oregon State University sugere outra maneira de reconhecer a AGI. “Essas arquiteturas pretendem incluir todos os elementos funcionais necessários para a cognição humana”, diz ele. “Por esta medida, os sistemas comerciais de IA carecem de memória episódica, planejamento, raciocínio lógico e, o mais importante, metacognição”.
Então, o que realmente significa a pontuação mais alta do o3?
A pontuação mais alta do modelo o3 ocorre no momento em que a indústria de tecnologia e os pesquisadores de IA reconhecem o ritmo lento de progresso dos modelos de IA mais recentes em 2024, em comparação com o desenvolvimento explosivo inicial de 2023.
Embora não tenha vencido o Desafio ARC, a pontuação alta da o3 indica que os modelos de IA podem superar os benchmarks da concorrência num futuro próximo. Além de sua pontuação não oficial, Chollet disse que muitos envios oficiais de computação já obtiveram pontuação acima de 81 por cento no conjunto de testes de Avaliação Pessoal.
Dieterich também acha que “este é um salto impressionante no desempenho”. No entanto, ele alerta que, sem saber mais sobre como funcionam os modelos o1 e o3 da OpenAI, é impossível avaliar o quão impressionantes são as pontuações mais altas. Por exemplo, se o3 for capaz de praticar problemas de ARC de antemão, isso facilitará sua realização. “Temos que esperar por uma replicação de código aberto para compreender todo o seu significado”, disse Dietrich
Os organizadores do ARC Challenge já pretendem lançar um segundo e mais difícil conjunto de testes de benchmark em 2025. Eles continuarão o desafio do Prêmio ARC 2025 até que alguém ganhe o grande prêmio e publique sua solução.
Assunto:
- Inteligência artificial/
- IA