OpenAI o3 e o4-mini: i primi modelli di ragionamento visuale

I nuovi modelli di OpenAI combinano il ragionamento avanzato con l'elaborazione delle immagini e l'uso integrato di strumenti. Ma attenzione alle allucinazioni.
Arriva il pensiero visuale
Rilasciati il 16 aprile, o3 e o4-mini di OpenAI non si limitano a "visualizzare" un'immagine, ma integrano il contenuto visivo direttamente nel loro processo di ragionamento. Tutto ciò si traduce nella capacità di manipolare le immagini durante l'elaborazione delle risposte: possono zoomare, ruotare, ritagliare e trasformare le immagini. Se, per esempio, caricate la foto di un quaderno con una frase scritta, scattata da lontano e con il quaderno capovolto, l'AI effettuerà automaticamente lo zoom, ritaglierà la parte rilevante e ruoterà l'immagine per leggere correttamente il testo.

o3 e o4-mini: qual è la differenza?
In occasione del lancio di o3-mini e o3-mini-high , OpenAI aveva preannunciato anche o3, inizialmente previsto per febbraio 2025. Nonostante il ritardo, o3 è arrivato insieme a o4-mini ed è adesso il nuovo modello di punta dell'azienda. Eccelle in compiti di programmazione, matematica avanzata e analisi scientifiche. Secondo i test interni di OpenAI, o3 ha registrato un miglioramento del 25% rispetto al suo predecessore o1 nei test visivi.
OpenAI o4-mini è invece la versione ottimizzata per velocità ed efficienza. Offre prestazioni notevoli considerando le sue dimensioni ridotte ed è particolarmente efficace per attività quotidiane che richiedono risposte rapide. Disponibile anche nella variante "o4-mini-high" per un po' più di potenza di elaborazione.
La scelta tra i due dipende dalle vostre esigenze: o3 per problemi complessi che richiedono ragionamento approfondito, o4-mini per risposte veloci e a basso costo.


L'uso integrato degli strumenti
Entrambi i modelli possono utilizzare autonomamente tutti gli strumenti disponibili in ChatGPT:
- Ricerca web: possono cercare informazioni aggiornate oltre la loro conoscenza di base
- Analisi di file: elaborazione di documenti caricati dagli utenti
- Interprete Python: per analisi dati e calcoli complessi
- Generazione di immagini: creazione di contenuti visivi
Questi modelli sono stati addestrati non solo a usare gli strumenti, ma anche a ragionare su quando utilizzarli. Possono concatenare più chiamate agli strumenti in modo strategico per risolvere problemi complessi.
Attenzione alle allucinazioni
Nonostante i progressi, c'è anche un passo indietro: secondo test interni di OpenAI e verifiche di laboratori indipendenti come Transluce, i nuovi modelli presentano un tasso di allucinazioni più elevato rispetto ai predecessori.
o3 ha mostrato allucinazioni nel 33% delle domande su PersonQA, il benchmark interno di OpenAI per misurare l'accuratezza delle conoscenze sulle persone - circa il doppio rispetto a o1 (16%) e o3-mini (14,8%). o4-mini ha fatto anche peggio, allucinando dati nel 48% delle risposte.
Neil Chowdhury di Transluce, ex dipendente di OpenAI, suggerisce che il tipo di apprendimento per rinforzo utilizzato per i modelli della serie "o" potrebbe amplificare problemi solitamente mitigati nelle fasi di post-addestramento.
Una possibile soluzione per questo problema è l'integrazione con la ricerca online, che su GPT-4o ha portato a un'accuratezza del 90% su SimpleQA, altro benchmark di OpenAI.
Limitazioni da considerare
Prima di affidarvi completamente a questi modelli, tenete a mente alcune limitazioni:
- Immagini specialistiche: potrebbero avere difficoltà con immagini altamente tecniche come un ECG o una micrografia elettronica
- Immagini di bassa qualità: foto estremamente sfocate o pixelate possono risultare problematiche anche per questi modelli
- Rischi di bias: le foto usate per l'addestramento possono contenere bias umani
- Privacy: fate attenzione a non includere involontariamente informazioni sensibili nelle immagini caricate
Chi può accedere a o3 e o4-mini?
Gli utenti di ChatGPT Plus, Pro e Team vedranno o3, o4-mini e o4-mini-high nel menù dei modelli, al posto di o1, o3-mini e o3-mini-high. Gli utenti Enterprise ed Edu vi avranno accesso tra una settimana, mentre gli utenti gratuiti potranno provare o4-mini selezionando la funzione "Think". OpenAI prevede di rilasciare o3-pro con supporto completo agli strumenti nelle prossime settimane, ed entrambi i modelli o3 e o4-mini sono ora disponibili per gli sviluppatori tramite API.
Il futuro del ragionamento visuale
OpenAI ha indicato che, sebbene GPT-5 sia in arrivo, i modelli o3 e o4-mini continueranno a ricevere miglioramenti in sicurezza e precisione. Tra questi:
- Stringhe di codice migliori con visibilità più profonda in ogni passaggio del ragionamento
- Incrementi di velocità per o4-mini senza cambi di nome
- "Pensionamento" di o1 con migrazione degli utenti a o3 per sfruttare le capacità visive
Grazie per il tuo tempo. Buona Pasqua dallo staff di Intellygenza 💡