Il nuovo FLUX 1 è meglio di MidJourney (ed è open-source)
Una nuova AI text-to-image è arrivata in città: FLUX.1 di Black Forest Labs. Questo modello di generazione di immagini AI è open-source sembra poter competere con Midjourney e DALL-E. Ma cosa rende FLUX.1 così speciale?
La nascita di Black Forest Labs
Black Forest Labs non è una startup qualsiasi: è stata fondata da Robin Rombach, Patrick Esser e Andreas Blattmann, tre delle menti che hanno creato Stable Diffusion, oltre che pionieri della diffusione latente. L'azienda ha sede in Germania ed è stata presentata al pubblico il primo agosto (su x e sul blog), dopo aver ottenuto un impressionante finanziamento da 31 milioni di dollari. Il round di investimento è stato guidato da Andreessen Horowitz (a16z) e ha visto la partecipazione di figure di spicco (tra cui Brendan Iribe, Michael Ovitz e Garry Tan).
Questo team di esperti non è nuovo alle sfide dell'AI. La loro esperienza con Stable Diffusion ha gettato le basi per FLUX.1. Il lancio di Black Forest Labs segna un evento cruciale per l'AI open-source, settore che si trova in un momento delicato a causa delle difficoltà di Stability AI (l'azienda di Stable Diffusion). Quest'ultima, infatti, si è rivelata tutt'altro che stabile, ed è sull'orlo del collasso a causa di grossi problemi finanziari e legali (ma non è ancora spacciata).
FLUX.1: tris d'assi open-source
FLUX.1 non è un singolo modello, bensì una suite di tre varianti, ciascuna con le proprie caratteristiche e destinazione d'uso. FLUX.1 [pro] è la versione di punta, chiusa e accessibile via API, ideale per applicazioni commerciali di alto livello. FLUX.1 [dev] è un modello open-weight pensato per uso non commerciale, perfetto per ricercatori e sviluppatori che desiderano esplorare e sperimentare con la tecnologia. Infine, FLUX.1 [schnell] (che in tedesco significa "veloce") è una versione più rapida, rilasciata sotto licenza Apache 2.0, ottimizzata per lo sviluppo personale e locale.
Tutti e tre i modelli vantano una notevole architettura da 12 miliardi di parametri, con una struttura ibrida di blocchi trasformer multimodali e di diffusione parallela. Tale potenza computazionale si traduce in prestazioni eccezionali e in una flessibilità senza precedenti.
FLUX.1: prestazioni e innovazioni tecniche
FLUX.1 introduce diverse innovazioni tecniche che lo distinguono dalla concorrenza. Il cosiddetto flow matching è un metodo che generalizza i modelli di diffusione, migliorando la qualità e la coerenza delle immagini; gli embeddings posizionali rotatori migliorano la capacità del modello di comprensione e generazione di strutture spaziali complesse. Infine, i layer di attenzione parallela ottimizzano l'efficienza hardware e le prestazioni del modello.
Queste caratteristiche si traducono in risultati superiori in termini di qualità visiva, aderenza ai prompt e diversità degli output. Il modello eccelle nella comprensione e nell'esecuzione accurata dei prompt, riducendo la necessità di aggiustamenti manuali ed offre una vasta gamma di opzioni creative sulla base di prompt simili, aspetto che stimola la creatività degli utenti. Inoltre, le immagini di FLUX.1 dispongono di un fotorealismo paragonabile a quello di Midjourney.
Le prime dimostrazioni suggeriscono che la qualità degli output di FLUX.1 sia alla pari, se non superiore, a quella dei modelli chiusi più gettonati, come Midjourney v6.0 e DALL-E 3. Ciò rende FLUX.1 un protagonista nel campo della generazione di immagini AI e una valida alternativa aperta alle scatole chiuse. Ad esempio, FLUX non sembra avere problemi nella riproduzione di mani umane, impresa storicamente piuttosto ardua per i generatori di immagini.
Bindu Reddy, figura prominente nell'AI, ha definito il rilascio di FLUX.1 come "una notizia davvero incredibile per l'AI multimodale" ed un passo in avanti nella marcia verso un'AGI open-source.
I dati di addestramento
Non è chiaro da dove la startup tedesca abbia pescato le immagini di addestramento per FLUX.1. Tuttavia, secondo Ars Technica, dal momento che il modello produce immagini raffiguranti soggetti protetti da copyright, è possibile che siano state utilizzate grandi quantità di immagini non autorizzate estratte da internet e forse raccolte da LAION, un'organizzazione che ha già raccolto i set di dati che hanno addestrato Stable Diffusion. Ma per ora è soltanto speculazione.
Il futuro di Black Forest Labs
Black Forest Labs non si ferma qui. L'azienda ha già annunciato i suoi piani per lo sviluppo di sistemi text-to-video all'avanguardia. In particolare, l'obiettivo è quello di sfruttare FLUX.1 come fondamenta per costruire un generatore di video di alto livello, capace di competere con Sora di OpenAI, Gen-3 Alpha di Runway e Kling di Kuaishou. Questo prossimo passo potrebbe consolidare ulteriormente la posizione dell'azienda come leader nella tecnologia dei media generativi.