O Google Whisk é uma nova maneira de criar recursos visuais de IA usando prompts de imagem – veja como experimentá-lo
3 min read- O Google Whisk usa imagens como entrada em vez de instruções baseadas em texto
- Ele é baseado no modelo de IA generativa Image 3 do Google
- A ferramenta de teste é gratuita para usuários dos EUA
A nova ferramenta de IA do Google facilita a criação e a remixagem de suas ideias visuais. Em vez de pedir que você descreva o que está em sua mente, o Whisk permite inserir três prompts de imagem: um para o assunto, um para a cena e um para o estilo. O Whisk cuida do resto, tornando-o uma forma mais intuitiva de experimentar ideias diferentes.
Embora a maioria dos melhores geradores de imagens de IA exija que você escreva um prompt detalhado, o Whisk cuida disso nos bastidores. Quando você coloca imagens na interface Whisk baseada na web como inspiração, o modelo Gemini do Google as analisa automaticamente e escreve uma legenda detalhada para cada uma. Estes são então alimentados no modelo Imagen 3, para criar uma imagem correspondente.
Por exemplo, você pode colocar a imagem de um carro como tema e uma foto de uma paisagem rural como cena Você pode adicionar uma aquarela como estilo para ver o que o batedor cria. Pressione o botão e você obterá um par de imagens com base em suas entradas.
A partir daqui, é fácil remixar as imagens. A interface permite especificar detalhes adicionais baseados em texto para modificar os resultados. Se precisar de inspiração, você pode facilmente retirar imagens de diferentes fontes ou jogar os dados. Novos resultados aparecem aos pares no feed, tornando-o uma forma intuitiva de visualização. Você também pode optar por refinar as imagens revelando instruções de texto e adicionando mais detalhes.
Sacuda isso
Embora o Whisk tenha sido projetado para eliminar a necessidade de solicitações baseadas em texto, o Google inclui a opção de refinar as solicitações escritas porque os resultados nem sempre correspondem ao material de origem.
UM Postagem no blog Em relação à ferramenta de testes, o Google explica que o Whisk “captura a essência do seu conteúdo, não uma réplica exata”. É tão eficaz quanto a análise do Gemini das imagens que você envia. Embora geralmente seja muito impressionante, também não consegue entrar na sua mente: você pode esperar que o Whisk extraia um detalhe de uma imagem enquanto foca em outra.
A postagem explica ainda: “Como o Whisk extrai apenas alguns recursos principais da sua imagem, ele pode produzir imagens diferentes do que você espera. Por exemplo, os sujeitos podem ter altura, peso, penteado ou tom de pele diferentes. Entendemos que esses recursos podem ser críticos para o seu projeto e errar o alvo, por isso permitimos que você visualize e edite os prompts subjacentes a qualquer momento.”
Mesmo com essas desvantagens, é uma aplicação interessante das ferramentas de IA existentes do Google Os modelos generativos subjacentes são os mesmos que se você estivesse conversando com o Gemini por meio de sua interface de texto Dependendo das entradas de imagem, porém, o Whisk é uma forma mais acessível e intuitiva para os criadores visuais brincarem com suas ideias.
Com base no feedback inicial de criativos digitais, o Google se refere ao Whisk como “um novo tipo de ferramenta criativa” destinada à “exploração visual rápida, não à edição perfeita em pixels”.
Como experimentar o Google Whisk
Atualmente, o Google Whisk está disponível apenas para usuários dos EUA. Se estiver lá, você pode experimentá-lo através do seu navegador em labs.google/whisk.
A ferramenta de teste é totalmente gratuita para jogar. Os dados da sua experiência com o Whisk serão enviados ao Google para ajudar a refinar e desenvolver futuros produtos de IA.