Quase todos os anos, recebemos um relatório que nos diz que algo na indústria de PCs está morrendo ou desaparecendo, ou que algum aspecto da tecnologia da computação está com os dias contados.
Então, quando eu vi um Artigo A Micron não está vendendo chips de memória suficientes para PCs e smartphones com IA, o que significa que a empresa reduziu sua previsão de receita para o próximo trimestre, e por isso algumas pessoas temem que “a IA esteja morrendo” – bem, isso não me surpreende.
A indústria às vezes gosta de um pouco de tristeza e tristeza, mas muito deste ruído equivocado se deve inteiramente à compreensão pública da IA moderna – certamente no setor entusiasta.
Deixe-me ser claro: a IA não está morrendo – nós sabemos disso. Inferno, tudo que você precisa fazer é ver o desempenho da Nvidia para ter uma ideia melhor de quão errada é essa afirmação. A questão é que, entre todos os numerosos laptops e telefones com IA ou outros gadgets por aí – que atualmente estão sendo comercializados com slogans de IA (tenho uma discussão mais longa sobre isso aqui) – o fato é que a grande maioria do processamento de IA não vem do seu pequeno laptop. Não está certo.
Mesmo o melhor PC para jogos personalizado não é capaz de executar o ChatGPT com 10% de sua capacidade total. E isso mesmo que você possa fazer isso, porque não é um programa de código aberto que qualquer pessoa possa simplesmente baixar.
Infelizmente, a simulação completa de tal programa localmente em um desktop requer muitos dados e poder de processamento. Existem soluções alternativas e aplicativos alternativos, mas eles geralmente são insignificantes em comparação com Gemini ou GPT, tanto em profundidade de conhecimento quanto em tempo de resposta. Não admira que você esteja tentando competir com vários servidores blade operando em tempo real. Sinto muito, seu RTX 4090 não vai funcionar, meu amigo.
E esse é outro ponto importante aqui – mesmo olhando para o seu PC personalizado, qualquer um que diga que uma CPU com um NPU integrado pode superar algo como um antigo RTX 3080 em cargas de trabalho de IA está puxando os cabelos dos seus olhos. Use algo como o conjunto de benchmark Procyon da UL com seu teste AI Computer Vision e você descobrirá que os resultados de um desktop RTX 4080 versus um laptop com Intel Core Ultra 9 185H são cerca de 700% a 800% maiores. Não é uma margem pequena e está dando ao chip Intel o benefício da dúvida e ao Nvidia Tensor não usar API, onde os resultados são melhores para Tim Green.
A questão é que as empresas, ferramentas e técnicas que estão indo bem no ecossistema de IA já estão bem estabelecidas. Se você possui uma placa gráfica RTX, é provável que já tenha desempenho suficiente para rodar anéis em torno de uma CPU ‘AI’ moderna com um NPU. Em segundo lugar, todo programa de IA executado usa um servidor blade para oferecer esse desempenho – há muito poucos que são executados localmente ou não possuem alguma forma de conexão com a nuvem.
O Google já lançou o Gemini para a maioria de seus dispositivos com sistema operacional Android e, nos próximos meses, também chegará aos alto-falantes Nest (uma versão beta já está tecnicamente disponível, graças a algumas divertidas visualizações públicas do Google Home no Skulldogery). E para ser claro, neste momento este é um alto-falante de quatro anos, não exatamente com tecnologia de ponta.
Este é apenas o começo
Muitos anos atrás, conversei com Roy Taylor, que na época era vice-presidente corporativo de mídia e entretenimento da AMD, especialista em RV e nos avanços nessa área.
Minha memória está um pouco confusa, mas o resumo da conversa é que, no que diz respeito ao desempenho da placa gráfica, um ser humano não poderia dizer a diferença, para garantir uma densidade de pixels alta o suficiente e uma taxa de quadros alta o suficiente para obter uma experiência realista em VR Precisaremos de GPUs capazes de gerar petaflops de desempenho. Acho que o número correto estava em torno da marca de 90 pFLOP (para referência, um RTX 4090 ainda é 100x menos potente que isso).
Na minha opinião, a IA nativa parece cair no mesmo campo. É uma área de aplicativos, utilitários e ferramentas que provavelmente não residirão no seu PC de jogos local, mas apenas em servidores blade e supercomputadores. Não há como um sistema de computador isolado competir – mesmo que interrompêssemos todo o desenvolvimento da IA em seu estado atual, levaríamos anos para recuperar o atraso em termos de desempenho geral. Isso não é necessariamente uma coisa ruim ou o fim do mundo.
Há uma fresta de esperança para nós, pessoal fora da rede, e isso depende de todos os fabricantes de GPU. Naturalmente, a programação de IA, especialmente o aprendizado de máquina, funciona principalmente por meio da computação paralela. Isso é algo que as GPUs são muito boas em fazer, muito melhor que as CPUs e especialmente as GPUs Nvidia que usam núcleos tensores. É a tecnologia por trás de todos os modelos DLSS e FSR que conhecemos e amamos, aumentando as taxas de quadros sem sacrificar a fidelidade gráfica nos jogos.
No entanto, desenvolver uma GPU desde o início leva tempo – muito tempo. Para uma arquitetura totalmente nova, estamos falando de vários anos. Isso significa que a série RTX 40 provavelmente estava em desenvolvimento em 2020/2021, em um palpite, e da mesma forma, a série RTX 50 (quando a próxima geração chegar, supostamente iminente) provavelmente começou a vida em 2022/2023, com várias equipes mudando de trabalho para trabalhar e quando estiverem disponíveis. Tudo isso antes do recente degelo do inverno da IA e da chegada do ChatGPT.
O que isto nos diz é que, a menos que a Nvidia mude radicalmente os seus designs, talvez a série RTX 50 ainda continue o sucesso da Lovelace (série RTX 40), certamente dando-nos melhor desempenho de IA. Mas não será até a série RTX 60 que realmente veremos os recursos de IA e o desempenho sobrecarregados de uma forma que nunca vimos antes com essas GPUs. Pode ser a próxima geração de placas gráficas que pode tornar o LLM nativo uma realidade, em vez de uma quimera.