Google lancia Whisk: l’innovativo strumento di AI generativa per la creazione di immagini da immagini
Google ha recentemente presentato Whisk, il suo ultimo esperimento nel campo dell’intelligenza artificiale generativa.

Questo nuovo strumento, lanciato negli Stati Uniti, rappresenta un approccio rivoluzionario alla creazione di immagini attraverso l’uso dell’AI. Whisk si distingue per la sua capacità di generare immagini utilizzando altre immagini come input, anziché lunghi prompt testuali.
Il processo di “remix” visuale di Whisk: un’innovazione nel campo dell’AI generativa
Il funzionamento di Whisk è sorprendentemente intuitivo e si basa su un processo di “remix” visuale:
- Gli utenti possono caricare tre tipi di immagini di input: una per il soggetto, una per la scena e una per lo stile.
- Il modello Gemini di Google analizza automaticamente queste immagini e genera descrizioni dettagliate per ciascuna di esse.
- Queste descrizioni vengono poi elaborate dal modello di generazione di immagini Imagen 3, che combina gli elementi delle immagini originali per creare una nuova composizione unica.
Questo approccio permette agli utenti di esplorare rapidamente nuove idee visive in modi creativi e inaspettati.
Catturare l’essenza senza replicare: il cuore dell’innovazione di Whisk
Ciò che rende Whisk veramente speciale è la sua capacità di catturare l’essenza del soggetto senza crearne una replica esatta. Questo approccio permette agli utenti di remixare soggetti, scene e stili in modi completamente nuovi e inaspettati.

È importante notare che Whisk estrae solo alcune caratteristiche chiave dalle immagini di input. Questo significa che le immagini generate potrebbero differire dalle aspettative iniziali dell’utente in termini di altezza, peso, acconciatura o tono della pelle del soggetto.
Vantaggi dell’approccio basato su immagini
L’utilizzo di immagini come prompt offre diversi vantaggi rispetto ai tradizionali metodi basati su testo:
- Maggiore accessibilità: Gli utenti non devono essere esperti nella formulazione di prompt testuali complessi.
- Ispirazione visiva diretta: È più facile comunicare concetti visivi attraverso altre immagini.
- Processo creativo intuitivo: L’approccio “drag and drop” semplifica notevolmente il flusso di lavoro.
Caratteristiche principali di Whisk:
- Generazione di immagini basata su input visivi
- Utilizzo del modello Gemini per la descrizione automatica delle immagini
- Impiego del modello Imagen 3 per la generazione di nuove immagini
- Possibilità di remixare soggetti, scene e stili
- Opzione per visualizzare e modificare i prompt sottostanti
- Interfaccia intuitiva per l’esplorazione rapida di idee visive
Whisk: uno strumento per l’esplorazione creativa, non per l’editing preciso
Google sottolinea che Whisk è stato concepito come un nuovo tipo di strumento creativo, distinto dai tradizionali editor di immagini. Il suo scopo principale è l’esplorazione visiva rapida, non l’editing pixel-perfect.
Whisk è progettato per permettere agli utenti di esplorare decine di opzioni diverse in breve tempo, scaricando quelle che più li ispirano. Questo approccio lo rende particolarmente adatto per artisti e creativi che cercano nuovi modi di esplorare e sviluppare le proprie idee visive.
Whisk apre nuove frontiere nella creazione di immagini AI
Whisk rappresenta un significativo passo avanti nel campo dell’intelligenza artificiale generativa applicata alla creazione di immagini.
Offrendo un approccio unico basato sull’input visivo e sul remix creativo, Whisk si propone di rivoluzionare il modo in cui artisti e creativi esplorano e sviluppano le loro idee visive, aprendo nuove possibilità nel mondo della creatività digitale assistita dall’intelligenza artificiale.
Potrebbe piacerti
Google Trends 2021: cosa hanno cercato gli Italiani nell’ultimo anno
2 Gennaio 2022