Em 1977, Andrew Barto, como pesquisador da Universidade de Massachusetts da Universidade de Massachusetts, começou a explorar uma nova teoria que O neurônio se comportou como o chefeO A idéia principal era que o cérebro humano fosse alimentado por bilhões de células nervosas que todos estavam tentando maximizar a alegria e reduzir a dor.

Um ano depois, ele se juntou a outro jovem pesquisador Richard Sutan. Juntos, eles trabalharam para explicar a inteligência humana usando esse conceito geral e a aplicaram à inteligência artificial. O resultado foi “Aprender reforço”, uma maneira de aprender com o equivalente digital de dor e dor para os sistemas de IA.

Na quarta -feira, a Associação de Máquinas de Computação, os maiores profissionais de computadores do mundo, anunciou que o Dr. Barto e o Dr. Sutan ganharam o prêmio Turating deste ano por sua educação em reforço. O prêmio Turning, lançado em 66666, é frequentemente chamado de Prêmio Nobel de Computação. Dois cientistas compartilharão esse prêmio milhões de 1 milhão de prêmios.

Na última década, o reforço desempenhou um papel importante no surgimento da inteligência artificial no aprendizado de reforço, incluindo a tecnologia inovadora Alfago do Google E chatzipt do OpenAI. As técnicas para impulsionar esses sistemas estavam envolvidas no trabalho do Dr. Barto e do Dr. Sutan.

“Eles são o pioneiro indiscutível da educação de reforço”, disse Oren Atgioni, professor de ciência da computação na Universidade de Washington, e Oren Atgioni, fundador do Instituto Allen de Inteligência Artificial. “Eles fizeram as idéias originais – e escreveram o livro sobre esse tópico”.

O livro deles, “Aprendizagem de reforço: uma introdução”, publicado em 1998, continua sendo uma exploração específica de uma idéia que muitos especialistas dizem que apenas começaram a perceber seu potencial.

Os psicólogos há muito estudam maneiras pelas quais humanos e animais aprenderam com suas experiências. Na década de 1940, o cientista da Computação Agrã Alan Turing sugeriu que as máquinas pudessem aprender da mesma maneira.

No entanto, foi o Dr. Barto e o Dr. Sutan, que começaram a explorar a matemática sobre como ele poderia trabalhar, com base em uma teoria de que um cientista da computação que trabalha em nome do governo. Harry Klopf oferecido. O

“Esta é uma idéia clara quando você está falando sobre humanos e animais”, disse o Dr. Sutan, que é cientista de pesquisa da Ken Technologies da IA ​​e um dos três laboratórios nacionais de IA no Canadá é um aliado do Alberta Machine Intelligence Institute. “Enquanto o recuperamos, era sobre a máquina”.

Permaneceu uma busca acadêmica até a chegada de Alfago em 20 de 2016.

No entanto, durante uma partida na Coréia do Sul, Alfago derrotou Lee Sedol, o melhor jogador da última década. A estratégia era que o sistema jogou alguns milhões de jogos contra si mesmo, aprendido por experimentos e erros. Aprendeu quais etapas trazem sucesso (alegria) e qual traz fracasso (dor).

O sistema foi liderado pela equipe do Google, David Silver, um pesquisador que estudou reforço sob o Dr. Suton, da Universidade de Alberta.

Muitos especialistas ainda perguntam se o reforço pode trabalhar fora dos jogos. Os jogos são determinados pelos pontos de ganhos, o que facilita a distinção entre as máquinas entre sucesso e fracasso.

No entanto, o aprendizado de reforço também desempenhou um papel importante nos chatbots on -line.

O OpenAI, liderado pela publicação do Chatzp no início de 20222, poderia usar a versão primária e fornecer conselhos específicos que poderiam adquirir suas habilidades. Eles mostraram o chatbot em resposta a perguntas específicas, classificaram suas reações e corrigiram seus erros. Ao analisar essas sugestões, o Chatzp aprendeu a ser um chatbot melhor.

Os pesquisadores chamam de “aprender reforço de reações humanas” ou RLHF, e é uma das principais causas dos chatbuts de hoje para reagir surpresa à vida.

(O New York Times processou o Openi e seu parceiro da Microsoft pela violação de direitos autorais do sistema de AI de Nova York. OpenAI e Microsoft negaram essas reivindicações.)

Recentemente, empresas como o OpenAI e a start-up chinesa Dipsic desenvolveram uma espécie de educação reforçada que permite que o Chatbot aprenda com si mesmo-como Alfago. Funciona através de vários problemas de matemática, por exemplo, um bota pode aprender quais métodos levam à resposta correta e qual não.

Se repetir esse processo com muitos problemas, o bot pode aprender a duplicar racionalmente as pessoas – pelo menos de algumas maneiras. O resultado é o sistema racional chamado como o OpenAI e 1 ou DePSec R1.

O Dr. Barto e o Dr. Suton dizem que esses sistemas indicam a maneira como as máquinas aprenderão no futuro. Finalmente, eles dizem que os robôs associados à IA aprenderão com tentativa e erro no mundo, como humanos e animais.

O Dr. Barto disse: “Aprender a controlar um corpo aprendendo o reforço – isso é uma coisa muito natural”, disse o Dr. Barto.

Link da fonte