O Google lançou nesta quarta, 11, o Gemini 2.0 Flash que pode gerar — e modificar — imagens junto com texto. O modelo também pode lidar com fotos e vídeos, bem como gravações de áudio, para responder perguntas sobre o conteúdo. De acordo com a empresa, ele também pode utilizar aplicativos de terceiros e acessar pesquisas da sua ferramenta de busca.
Uma versão experimental está disponível por meio da API Gemini e das plataformas de desenvolvedores da tecnologia do Google (AI Studio e Vertex AI). No entanto, os recursos de geração de áudio e imagem serão liberados para mais usuários apenas em janeiro. Nos próximos meses, serão lançadas novas versões de produtos como Android Studio , Chrome DevTools, Firebase , Gemini Code Assist e outros.
A companhia divulgou que o Gemini 2.0 Flash é duas vezes mais rápido que o modelo Gemini 1.5 Pro, especialmente em áreas como codificação e análise de imagem. A geração de áudio é outro recurso diferenciado da ferramenta, que possibilita gravar conteúdos usando uma das oito vozes otimizadas para diferentes sotaques e idiomas.
A empresa afirma que está usando sua tecnologia SynthID para colocar marca d’água em todos os áudios e imagens gerados pelo Gemini Flash 2.0, e alguns modelos serão sinalizados como sintéticos para impedir abusos e deepfakes.