Che...?

Gemini Omni entra in scena: Google mostra l’IA che crea video da quasi tutto

Google lancia Gemini Omni, un modello capace di creare video da testo, immagini, audio e clip modificabili via chat.

Pubblicato

20/05/2026

Google ha spostato un pezzo pesante nella corsa dell’intelligenza artificiale generativa. Gemini Omni non è l’ennesima funzione simpatica per produrre immagini curiose, né un filtro con ambizioni futuriste appiccicato sopra un’app già nota. È la nuova famiglia di modelli con cui Google vuole unire ragionamento, creazione ed editing audiovisivo dentro un unico sistema. La prima versione, Gemini Omni Flash, parte dal video e permette di generare clip a partire da testo, immagini, filmati e riferimenti audio, con una promessa abbastanza chiara: creare e modificare scene parlando con l’IA come si farebbe con un montatore seduto accanto.

La novità conta perché Google non presenta Omni come un semplice generatore di video, ma come un modello multimodale di creazione. In parole meno da laboratorio: può ricevere materiali diversi, capirli insieme e produrre una scena audiovisiva coerente. Un disegno, una fotografia, un video domestico, una richiesta scritta e un riferimento sonoro possono finire nella stessa cucina. Da lì esce una clip. Poi quella clip può essere ritoccata con il linguaggio naturale: cambiare l’angolo della camera, trasformare un oggetto, aggiungere un’azione, modificare la luce, correggere lo stile o mantenere un personaggio lungo più istruzioni senza far crollare tutto come un set di cartone.

Google vuole far obbedire il video come fosse testo

La promessa di Gemini Omni ha qualcosa di culturale, non solo tecnico. Fino a poco tempo fa, una buona parte della generazione video con IA somigliava al lancio di una moneta in una fontana: si scriveva un prompt, si aspettava il risultato e, con un po’ di fortuna, il sistema restituiva qualcosa di accettabile. Il controllo era limitato. Bello, certo. Impressionante, a tratti. Frustrante, spesso. Google prova a spostare l’esperienza verso un rapporto più conversazionale, dove il video non sia una peça chiusa, ma una materia ancora calda da toccare, correggere e rimodellare.

L’azienda insiste sul fatto che Omni consente di modificare video via conversazione, con istruzioni successive che si sommano senza perdere il filo. Questo è il passaggio delicato. Non si tratta solo di chiedere un astronauta che cammina su Marte al tramonto, ma di partire da una clip e dire poi che la camera deve mettersi dietro al personaggio, che il pavimento deve diventare di vetro, che il cielo deve assumere uno stile retrofuturista o che un oggetto preciso deve trasformarsi senza distruggere tutto il resto. È un editing meno tecnico, più orale. Meno pannelli e cursori, più frase detta al volo: rendilo più scuro, però non cambiarmi la stanza.

Sembra facile perché il linguaggio naturale sembra sempre facile, finché una macchina non deve capirlo davvero. Lì comincia la salita. Un video non è un’immagine ferma, ma una sequenza di tempo, movimento, continuità, luce, fisica, suono e aspettativa umana. Se una palla cade verso l’alto, se una mano attraversa un bicchiere senza motivo, se il volto di un personaggio cambia al terzo secondo, lo spettatore se ne accorge. Magari non sa spiegare il difetto, ma lo sente. L’occhio umano è spietato con l’impostura. E molto democratico: nota ciò che stona prima ancora di chiedere permesso.

Google vende Omni proprio come un avanzamento in quella zona fangosa: la coerenza del mondo. Il modello prova a mantenere riconoscibili i personaggi, a conservare una fisica plausibile, a far ricordare alla scena ciò che è appena accaduto. Negli esempi mostrati dall’azienda compaiono trasformazioni di materiali, cambi di ambiente, oggetti che reagiscono alla musica, azioni reimmaginate e spiegazioni visive complesse. Tutto molto brillante, sì, ma il dettaglio di fondo è un altro: Google vuole che l’IA non disegni solo un’apparenza, ma capisca una situazione.

Da Veo a Omni: meno pulsante magico, più montaggio parlato

Gemini Omni arriva in un ecosistema in cui Google aveva già Veo, la sua tecnologia di generazione video, oltre a modelli per immagini come Nano Banana. La differenza che Omni prova a segnare sta nella miscela: più input, più contesto, più editing per passaggi successivi e un rapporto più stretto con la conoscenza generale di Gemini. Detto in modo più diretto, Veo generava video; Omni vuole comportarsi come uno strumento creativo capace di capire riferimenti e conservare continuità.

Questo cambio è importante per creatori, insegnanti, comunicatori, musicisti, aziende, divulgatori e utenti comuni che non vogliono imparare un software di montaggio con più pannelli di una cabina di pilotaggio. La barriera d’ingresso si abbassa. Un docente potrebbe chiedere un’animazione sul ripiegamento delle proteine in stile plastilina; un marchio potrebbe trasformare uno schizzo in una scena realistica; un musicista potrebbe sincronizzare elementi visivi con una traccia; un utente qualunque potrebbe convertire una registrazione domestica in una scena di fantascienza senza sapere che cosa sia un keyframe. La parola keyframe, del resto, può continuare a vivere felice nei manuali. Non tutti ne sentiranno la mancanza.

Anche l’editing conversazionale cambia il ritmo del lavoro. Prima, creare una peça audiovisiva significava progettare, girare, montare, sistemare il suono, correggere il colore ed esportare. Con l’IA generativa, una parte di quel percorso si comprime. Non spariscono il criterio, il gusto, la revisione. Sparisce, o almeno si riduce, una parte dell’attrito tecnico. L’utente guadagna velocità, ma incontra anche un problema nuovo: quando creare diventa così semplice, distinguere ciò che vale da ciò che luccica soltanto diventa più difficile. Internet era già piena di rumore. Ora il rumore può arrivare con illuminazione cinematografica.

Google ha presentato Gemini Omni Flash come il primo tassello di una famiglia più ampia. Questo significa che il lancio non va letto come un punto d’arrivo, ma come la vetrina iniziale di una strategia. L’azienda parla di una partenza centrata sul video, con la possibilità di ampliare in futuro le modalità di uscita, incluse immagine e audio. La parola Omni non è timida. Ha quella modestia tipica della Silicon Valley: chiamare qualcosa come se dovesse contenere l’universo prima ancora che l’utente sia riuscito a esportare una clip senza artefatti strani.

Che cosa può fare adesso e che cosa promette dopo

In questa prima fase, Gemini Omni Flash genera video e permette di modificarli con istruzioni naturali. Può lavorare con testo, immagini, clip e riferimenti audio, anche se il supporto sonoro parte con limiti, soprattutto quando entrano in gioco riferimenti vocali. Il sistema viene integrato nell’app Gemini, in Google Flow e in YouTube Shorts: una scelta che dice molto. Google non vuole tenerlo chiuso nei laboratori o negli studi professionali, ma portarlo nei luoghi in cui la creazione quotidiana già avviene.

La parte più interessante è la possibilità di usare riferimenti reali. Un’immagine può fissare l’aspetto di un personaggio o di un ambiente; un video può dare movimento, composizione o azione; una richiesta scritta può guidare il cambiamento; un riferimento sonoro può orientare il ritmo. Nel migliore dei casi, l’utente smette di descrivere tutto da zero e comincia a lavorare con materiali esistenti. La differenza pesa. Chiunque abbia provato a generare una scena complessa soltanto con testo sa che il prompt finisce per sembrare un atto notarile con la febbre: piano medio, luce laterale, stile documentario, niente deformazioni, mantieni il volto, non cambiare le mani, non inventare scritte, non aggiungere dita, per favore comportati bene.

Omni cerca di ridurre quella lotta. Non la elimina. L’intelligenza artificiale continua a sbagliare, e nessuna presentazione tecnologica cancella di colpo problemi di coerenza, diritti, bias, uso improprio o allucinazioni visive. Però il movimento è chiaro: i modelli non competono più soltanto per generare un’immagine spettacolare, ma per offrire controllo. Controllo sull’identità dei personaggi, sulla fisica della scena, sullo stile, sulla continuità narrativa e sulla possibilità di correggere senza ricominciare ogni volta da capo.

L’altra faccia: avatar, filigrane e video troppo credibili

Ogni passo avanti nel video generativo porta un’ombra attaccata ai talloni. Più il risultato diventa realistico, più il suo uso si fa delicato. Google lo sa, e per questo accompagna Gemini Omni con strumenti di trasparenza come SynthID, una filigrana digitale invisibile, e credenziali C2PA per indicare come un contenuto è stato creato o modificato. L’azienda parla anche di valutazioni, controlli di sicurezza e test interni per ridurre i rischi. Bene. Necessario. Non sufficiente da solo, come quasi tutto in questa materia.

Il problema non è soltanto tecnico. È anche sociale. Una filigrana digitale aiuta quando esiste uno strumento capace di leggerla, quando la piattaforma la conserva e quando l’utente si prende la briga di verificarla. La disinformazione, invece, circola spesso attraverso screenshot, ritagli, ricondivisioni e versioni degradate. La verità viaggia con la valigia; la bufala con uno zainetto leggero. Per questo la trasparenza tecnologica è una parte dell’argine, non l’argine intero.

Uno dei punti più sensibili riguarda gli avatar personali. Google immagina la possibilità di creare versioni digitali di se stessi per apparire in video generati, con controlli collegati all’account e a registrazioni proprie di volto e voce. Sulla carta è una funzione utile: presentazioni, clip personali, progetti educativi, contenuti per social. Nella pratica, apre un territorio scomodo. Che cosa accade quando il pubblico si abitua a vedere repliche sintetiche di persone reali? Quanto tempo passerà prima che qualsiasi video compromettente venga messo in dubbio? E quanto prima che i furbi usino il dubbio come alibi?

È il vecchio trucco, rinnovato con il silicio: se tutto può essere falso, anche il vero resta sotto sospetto. L’IA non produce solo immagini, produce incertezza. E questa incertezza ha valore politico, economico e giudiziario. Conviene dirlo senza isteria, ma anche senza l’ingenuità da fiera tecnologica. Gemini Omni può servire a creare ottimi video educativi, opere visive sorprendenti o strumenti di editing molto utili. Può anche spingere un po’ più avanti la frontiera del manipolabile. Le due cose sono vere insieme. La tecnologia raramente entra da una porta sola.

YouTube Shorts, il laboratorio perfetto e pericoloso

Il fatto che Gemini Omni arrivi su YouTube Shorts non è un dettaglio marginale. Shorts è il territorio naturale del video rapido, della clip breve, del remix, dell’imitazione, del gesto virale e del montaggio senza solennità. Inserire lì un modello capace di reimmaginare scene, trasformare stili o aggiungere elementi nuovi significa trasformare la piattaforma in un enorme laboratorio di creazione sintetica. Un laboratorio con milioni di utenti, certo. Niente camici bianchi. Piuttosto schermi verticali, auricolari e pollici veloci.

L’integrazione con Shorts può democratizzare strumenti che prima erano riservati ai professionisti. Un piccolo creator potrà fare cose visivamente ambiziose senza troupe. Un divulgatore potrà trasformare una spiegazione asciutta in una scena animata. Un musicista potrà accompagnare una canzone con immagini generate. Il video breve guadagnerà plasticità, e questo probabilmente moltiplicherà formati, prove, stranezze. Alcune saranno brillanti. Molte saranno insopportabili. È già successo con filtri, effetti, sottotitoli automatici e tutte le mode visive che hanno promesso creatività infinita prima di produrre, per settimane, la stessa battuta ripetuta da mezzo pianeta.

C’è anche una questione di autorialità. Se un utente rielabora un video altrui con l’aiuto di Gemini Omni, la piattaforma deve gestire bene attribuzione, permessi e tracciabilità. YouTube lavora da anni con Content ID, reclami, licenze e tensioni tra creatori. L’IA aggiunge un altro strato: non copia necessariamente un frammento in modo letterale, ma può appoggiarsi a un’opera precedente, trasformarne lo stile, conservarne la struttura o inserire qualcuno dentro una scena derivata. Il remix smette di essere solo montaggio e diventa ricreazione generativa.

Per Google, la mossa ha senso strategico. Se la creazione audiovisiva si sposta verso modelli conversazionali, conviene integrarli nei luoghi in cui il video viene già consumato. Gemini nell’app, Flow per i creator e Shorts per la distribuzione formano un triangolo piuttosto evidente. Creare, modificare, pubblicare. Tutto dentro casa. Comodo per l’utente, magnifico per l’ecosistema di Google. La vecchia aspirazione di ogni grande piattaforma: farti entrare per una cosa e farti fare tutto senza uscire.

Che cosa cambia per creator, aziende e utenti comuni

L’arrivo di Gemini Omni accelera una trasformazione già in corso: la produzione audiovisiva si separa sempre di più dalla camera. Per oltre un secolo, filmare ha significato catturare qualcosa che accadeva davanti a un obiettivo. Con l’intelligenza artificiale generativa, filmare può significare descrivere, combinare, modificare, simulare. La camera non sparisce, ma smette di essere l’unica origine legittima dell’immagine in movimento. È un cambiamento enorme, anche se arriva avvolto in demo di pochi secondi e nomi commerciali lucidi come insegne da fiera.

Per aziende e marchi, la tentazione sarà evidente. Prototipi visivi, spot a basso costo, video per social, presentazioni interne, contenuti localizzati per lingua o mercato. La velocità sarà l’argomento principale. Anche il costo. Ma l’abbondanza può giocare contro. Se tutti i marchi producono video con la stessa pelle generativa, il pubblico imparerà a riconoscere quella patina: troppo perfetta, troppo elastica, troppo senza sudore. L’umano, con le sue piccole imperfezioni, può diventare un lusso estetico.

Per il giornalismo e l’informazione, l’uso deve essere molto più prudente. La generazione video può aiutare a spiegare processi, ricostruire concetti astratti o illustrare scenari impossibili da riprendere, purché venga segnalata con chiarezza. Ma non può essere confusa con una prova documentale. Un video generato non dimostra che qualcosa è accaduto. Rappresenta, simula, interpreta. Questa distinzione sarà fondamentale per non trasformare l’informazione in una bella maquette. La credibilità non si renderizza.

Nell’educazione, nella scienza e nella divulgazione si apre invece un campo fertile. Modelli come Gemini Omni possono trasformare spiegazioni difficili in scene visive comprensibili: fisica, biologia, storia, architettura, medicina, tecnologia. Vedere una proteina ripiegarsi, una catena energetica muoversi o una città antica ricostruirsi può aiutare a capire meglio di un paragrafo freddo. L’immagine in movimento ha memoria muscolare: resta in testa perché sembra essere accaduta davanti a noi. Proprio per questo va usata con attenzione.

Il video smette di essere una cosa fissa

Gemini Omni non inaugura da solo un’epoca, perché le epoche non si inaugurano con una nota aziendale, per quanto alle grandi tecnologiche piaccia pensarlo. Segna però un passo importante: Google vuole che il video sia modificabile come una conversazione, combinabile come un collage intelligente e generabile da materiali molto diversi. L’ambizione è grande. Lo sono anche le domande.

La notizia non è che un’IA produca video realistici. Quello cominciava già a far parte del paesaggio. La notizia è che Google prova a unire creazione, editing, contesto e distribuzione dentro il proprio ecosistema, da Gemini a YouTube Shorts. Gemini Omni è meno uno strumento isolato che una dichiarazione di direzione: l’immagine sintetica sarà più accessibile, più conversazionale e più difficile da distinguere a occhio nudo.

Resta da vedere come reagiranno i creator, quali limiti imporranno le piattaforme, quanto controllo reale avrà l’utente e fino a che punto le filigrane resisteranno al fango di internet. Ma il movimento è fatto. Il video, quel vecchio oggetto che sembrava avere bisogno di camere, luci e pazienza, comincia a comportarsi come una frase: si scrive, si corregge, si riscrive. E a volte, naturalmente, mente con un’eleganza inquietante.

Alessandro Elia

Grazie per aver letto questo articolo e per essere passato da Domandalo. Con la lente d’ingrandimento in alto puoi cercare altri temi, curiosità e storie da approfondire. E se la lettura ti è piaciuta, condividila: aiuta questo contenuto a viaggiare più lontano e a raggiungere nuovi lettori.