OpenAI ha recentemente presentato il suo ultimo modello, GPT-4o, che integra direttamente la generazione di immagini, segnando un importante progresso nella tecnologia dell’IA. Questo modello può creare immagini basate su prompt testuali, modificare immagini caricate e persino rappresentare con precisione oggetti multipli. Si distingue per la sua migliore rappresentazione del testo nelle immagini, un’area in cui modelli precedenti come DALL-E spesso avevano difficoltà.
Particolarmente degno di nota è che GPT-4o può rendere mani perfette - un problema con cui i precedenti generatori di immagini AI hanno spesso lottato. La capacità di creare mani anatomicamente corrette e realistiche rappresenta una svolta significativa e consente immagini molto più naturali e convincenti.
Innovazioni tecnologiche
GPT-4o utilizza un metodo autoregressivo per la generazione di immagini, che differisce dal metodo di diffusione dei modelli precedenti. Permette agli utenti di modificare le immagini attraverso il dialogo e di integrare elementi visivi da immagini caricate in nuove creazioni. Gli esempi vanno da immagini fotorealistiche a rappresentazioni creative nello stile dello Studio Ghibli o di altre estetiche ben note.
Una caratteristica notevole è l’integrazione dei metadati C2PA, che indicano che un’immagine è stata generata dall’IA. Questo serve a creare trasparenza e prevenire abusi. Inoltre, OpenAI ha introdotto misure di sicurezza per bloccare la creazione di contenuti sensibili o inappropriati.
Sebbene l’interfaccia web di ChatGPT fornisca già accesso alla generazione di immagini, l’API per gli sviluppatori non è ancora disponibile. Tuttavia, OpenAI ha annunciato che l’API sarà rilasciata nelle prossime settimane, dando agli sviluppatori l’opportunità di integrare questa tecnologia nelle proprie applicazioni.
Reazioni globali
Il rilascio del modello ha suscitato sensazione in tutto il mondo. Entro un’ora dalla sua introduzione, ChatGPT ha guadagnato oltre un milione di nuovi utenti, in particolare per la possibilità di creare immagini nello stile dello Studio Ghibli. Questa funzione è stata inizialmente offerta solo agli utenti paganti prima di essere resa disponibile per l’uso gratuito - seppur con restrizioni come un limite di tre immagini al giorno.
Tuttavia, la popolarità ha portato anche a controversie. I critici hanno espresso preoccupazioni sull’impatto su artisti e designer, nonché questioni legali sull’imitazione di stili noti. OpenAI ha risposto con linee guida di moderazione adattate che, tra le altre cose, consentono la creazione di immagini di personaggi pubblici purché non violino le linee guida.
Controversie e sfide
Una tendenza virale con immagini dello Studio Ghibli ha acceso discussioni legali, poiché le repliche di stile esistono in una zona grigia legale. Sebbene OpenAI abbia sottolineato che gli stili degli artisti individuali non dovrebbero essere imitati, il dibattito sulla protezione della proprietà intellettuale rimane. Allo stesso tempo, ci sono preoccupazioni circa il potenziale impatto sui posti di lavoro nelle industrie creative.
Prospettive
Con GPT-4o, OpenAI ha stabilito un nuovo standard per i modelli di IA multimodali. La capacità di combinare perfettamente testo e immagini apre numerose applicazioni - dai social media alle applicazioni aziendali. Particolarmente impressionante è la capacità del modello di segmentare ed estrarre immagini, rendendolo uno strumento prezioso per designer e creatori di media.
Gli utenti interessati possono già accedere a ChatGPT per creare immagini, mentre Sora.com offre un’interfaccia alternativa di OpenAI specificamente ottimizzata per la creazione di immagini e video.
Tuttavia, resta da vedere come si evolveranno le sfide legali ed etiche e come altre aziende risponderanno a questo progresso tecnologico, specialmente con l’espansione della disponibilità delle API nelle prossime settimane.