Você sabia que algumas pessoas inteligentes do planeta criaram critérios para examinar a capacidade da inteligência humana? Bem, os benchmarks de IA Scaley o suficiente são facilmente feitos por modelos de inteligência artificial, mostra ChatGPT-4 GPT-4, Google Jembss 1.5 e até quão inteligente é o novo e o 3-mini realmente gosta.
Em busca dos critérios mais difíceis, o par amarrado para criar um Centro de Proteção AI e AI em escala (CAIS) O último teste da humanidadeUm teste que eles estão chamando de “uma nova e inovadora referência de IA, projetada para testar os limites do conhecimento da IA na fronteira das habilidades humanas”.
Eu não sou um talento de forma alguma, mas algumas das perguntas entre mim estavam de relance e me deixam dizer, elas são ridiculamente difíceis. Tanto que apenas a mente brilhante no planeta provavelmente pode respondê -los. Esse incrível grau de inconveniente é que apenas menos de 10 % do questionamento dos modelos atuais de IA foi capaz de responder corretamente.
O nome original do teste foi “a última posição da humanidade”, mas foi alterada para o teste, apenas para tirar parte da natureza horrível do conceito. As perguntas estavam lotadas, colaboradores especializados para mais de 500 empresas em 50 países trouxeram as questões racionais mais difíceis.
Existem 3.000 perguntas no conjunto de dados do último exame da humanidade atual e selecionamos algumas amostras abaixo para mostrar o quão complicado é. Você pode passar no último teste da humanidade? Boa sorte!
Você é mais inteligente que a AI Chatboats?
Pergunta 1:
Os epodforms têm os beija -flores de ossos ovais dobrados bilateralmente, estendendo -se à inserção de M, um sisamóide incorporado na parte do codollador da aponurose crucial. CoD depressão. Quantos pares de propostas são suportados por esse osso sisamóide? Responda com um número.
Pergunta 2:
Estou fornecendo a fonte hebraica da Bíblia padronizada para o texto de origem hebraico de Bibilia Hebrica Stutgartnessia (Salmo 104: 7). Seu trabalho está desligado e distingue entre sílabas abertas. Liste todas as sílabas fechadas (terminando em um som consoante) com base nas pesquisas mais recentes sobre a pronúncia tiberiana da Bíblia por estudiosos como Geoffrey Khan, Aaron de Horncolhol, Kim Philips e Benjamin Suchard. Fontes da Idade Média, como Pandesus de transcrição do CARIT, permitiram a tradição tiberiana com as qualidades e funções dos pesquisadores modernos para entender melhor os aspectos específicos da pronúncia hebraica da Bíblia, e quais letras foram pronunciadas como consoantes no final da sílaba .
Você quer pegar o seu dia?
Pergunta 3:
Na mitologia grega, quem era a mãe de Jason?
Como você fez? Não há vergonha de dizer “não muito bem”. Não vou mentir – acho que não entendo o que estou me perguntando no segundo.
Quando devemos ficar aterrorizados?
De acordo Resultado inicial Relatado pelo CAIS e pela Scale AI, o GPT -4O da OpenAI alcançou 3,3%de precisão no último teste da humanidade, enquanto Grock -2 3,8%, coda 3,5 sonetos 4,3%, JEMI 6,2%, O19,1%e depósito -r 1 alcançado (não é um modelo multi-modelo como texto no texto) ganhou 9,4%.
Curiosamente, o último teste da humanidade é mais difícil para a IA para qualquer outro critério para a IA, incluindo as opções mais populares, incluindo GPQA, matemática e MMLU.
Então, o que tudo isso significa? Bem, ainda estamos na infância de modelos de IA com eficácia lógica, e a abertura nova e de 3 e 3 minutos ainda não tomou esse incrível benchmark sólido, vai demorar muito tempo para vir a um LLM para terminar o último teste da humanidade.
No entanto, deve -se ter em mente que a IA está evoluindo a uma taxa rápida, a nova eficácia está fornecendo aos usuários quase todos os dias. Nesta semana, o operador do OpenAI, seu primeiro agente de IA, apresentou seu primeiro agente de IA e mostra uma grande promessa no futuro em que a IA pode automaticamente automaticamente requer entrada humana automaticamente. De repente, nenhuma IA pode se aproximar para terminar o último teste da humanidade, mas quando alguém … bem, podemos ter problemas.