Google aprimora edição de imagens no Gemini com modelo “nano banana”

Tecnologia

O Google disponibilizou um novo modelo para o recurso de edição de imagens do Gemini. Batizado internamente como Gemini 2.5 Flash Image e apelidado de “nano banana”, o sistema promete manter a aparência dos sujeitos com maior fidelidade ao aplicar alterações solicitadas pelo usuário.

Modelo foca em manter consistência visual

Desenvolvido pela equipe do Google DeepMind, o Gemini 2.5 Flash Image foi treinado justamente para reduzir variações indesejadas que costumam ocorrer em edições sucessivas. Ao longo dos últimos meses, usuários relataram que rostos, cores ou proporções de objetos podiam mudar sem motivo aparente quando novos pedidos eram feitos a partir de uma mesma imagem. Segundo o Google, o modelo renovado foi ajustado para identificar e preservar essas características, tornando o resultado mais previsível.

A nova versão liderou temporariamente o ranking do LMArena sob o codinome “nano banana” antes de ser oficialmente apresentada. A empresa afirma que o treinamento priorizou a reprodução fidedigna de traços físicos, mesmo quando o cenário, a roupa ou outros elementos são modificados durante a edição.

Edição prática por comandos de texto

Desde abril, o Gemini permite que qualquer pessoa faça upload de uma foto e descreva, em linguagem simples, as mudanças desejadas. A proposta é dispensar ferramentas técnicas como Photoshop e substituir menus complexos por instruções do tipo “troque a camisa por uma jaqueta” ou “coloque este grupo em uma praia ao pôr-do-sol”.

Com o novo modelo, o processo ganha possibilidades adicionais. Usuários podem:

  • Mudar cenário e vestuário sem alterar feições ou proporções do retratado.
  • Combinar pessoas de diferentes fotos em uma única imagem, preservando fisionomia e escala.
  • Adicionar ou remover detalhes específicos, como tonalidade de parede ou mobiliário de um cômodo, para visualizar variações de design.

Essas funções já estavam disponíveis em versão preliminar, mas agora contam com maior estabilidade, segundo o Google. Em teste divulgado pela empresa, um cachorro foi colocado em pose de ioga e transportado para um estúdio. Embora a postura não tenha ficado perfeita, tamanho, pelagem e coloração foram mantidos.

Limitações conhecidas e marca-d’água obrigatória

O Google DeepMind reconhece que ainda podem ocorrer imprecisões em detalhes finos, como texto dentro da imagem ou contornos muito delicados. Nas demonstrações internas, por exemplo, a pelagem do animal ficou excessivamente lisa, indicando que nem sempre a textura original é preservada.

Todas as criações recebem dois tipos de marca-d’água: uma visível e outra imperceptível, inserida pelo sistema SynthID. O mecanismo serve para indicar a origem artificial do conteúdo e mitigar confusões com fotografias reais. A empresa reforça que o recurso já está ativo no aplicativo Gemini, disponível para Android, iOS e também na versão web.

Disponibilidade e próximos passos

O Gemini 2.5 Flash Image está liberado globalmente para quem utiliza o editor de imagens do Gemini. Não é necessário atualização manual; o modelo opera nos servidores do Google e é acionado sempre que o usuário faz um novo pedido de edição.

Embora não tenha divulgado datas para futuras melhorias, o Google sinaliza que continuará refinando a consistência visual e o tratamento de texto presente nas fotos. A companhia também mantém o compromisso de aplicar marcações que identifiquem material gerado por inteligência artificial.

Para acompanhar outras melhorias em IA e tecnologia móvel, o leitor pode visitar a seção dedicada em remansonoticias.com.br/category/Tecnologia, onde novidades semelhantes são atualizadas constantemente.

Em resumo, o novo modelo “nano banana” amplia a confiabilidade das edições de imagem no Gemini, permitindo transformações mais complexas sem descaracterizar pessoas ou objetos. Experimente a atualização no app e explore as possibilidades de edição apenas com descrições em texto.

Curiosidade

O codinome “nano banana” ganhou destaque entre entusiastas por ter aparecido em rankings públicos antes do anúncio oficial. Apelidos desse tipo são comuns na comunidade de IA para mascarar identidades de modelos em testes. No caso do Google, a estratégia ajuda a avaliar desempenho sem influenciar a percepção do público. A própria divulgação acabou gerando especulação sobre funções futuras antes mesmo de a empresa confirmar o lançamento.

Deixe um comentário

O seu endereço de e-mail não será publicado. Campos obrigatórios são marcados com *