La potenza, l'intelligenza e la creatività di o1 (120 QI)

A meno di una settimana dal lancio di o1 – per gli amici Strawberry – il nuovo arrivato in casa OpenAI ha già dato ampie dimostrazioni di intelligenza, creatività e precisione, conquistando il primo posto nella classifica del QI dei chatbot, con un netto distacco rispetto a Claude 3.5.

Le 12 fatiche di o1

In soli 5 giorni, numerosi utenti X appassionati di AI hanno dato libero sfogo alla loro creatività, sperimentando in lungo e in largo le capacità di o1. Ecco le sfide che il modello di punta di OpenAI è stato in grado di superare:

Sistema solare animato

Con soli 5 prompt forniti dall'utente DreamStarter, o1 è riuscito a generare un sistema solare animato:

DreamStarter on X, o1's generation of a Solar System

Secondo l'utente, a differenza di altri modelli – che hanno tentato di rappresentare le distanze astronomiche reali tra i pianeti – o1 ha scelto autonomamente di scalare le distanze per creare una visualizzazione più pratica del sistema solare. Inoltre, il modello ha incluso alcuni dettagli non esplicitamente richiesti nel prompt e assenti negli output degli altri LLM: gli anelli di Saturno e l'orbita della Luna attorno alla Terra.

Poesia difficile

Come riportato da un altro utente X, Mehran Jalali, o1 è stato in grado di comporre una poesia seguendo regole alquanto rigide, impresa che nessun altro modello è stato finora in grado di compiere.

Soluzione di enigmi complessi e test d'intelligenza

O1 sembra brillare anche nella risoluzione di cruciverba e test d'intelligenza particolarmente ardui. Un utente X (Matt Clifford) ha chiesto a GPT 4o di risolvere un cruciverba:

Matt Clifford on x, crossword puzzle and o1

GPT 4o non è riuscito a rispondere correttamente. o1, invece, si, in 11 secondi:

Anche un altro utente x (Daniel Jeffreis) ha sfidato o1 con diversi test d'intelligenza: l'AI ha dato prova di ottime capacità analitiche

Arte frattale

o1 ha creato opere d'arte frattale combinando JavaScript e Adobe Firefly (utente x: Kris Kashtanova)

$Kris Kashtanova on x, fractal art with o1$

Analisi complesse

Secondo le ricerche di FutureSearch, o1 ha performato meglio degli altri modelli nella risoluzione di compiti complessi – i cosiddetti "white collar tasks" – tra cui la stima di quanti cinesi hanno un reddito disponibile annuo superiore a 100.000 yuan.

Fonte: Future Search. AI

120 di QI

Infine, o1 ha superato ogni altro LLM nel test del QI Mensa norvegese, raggiungendo un QI di circa 120.

Fonte: Maximumtruth

O1 e lo Sviluppo di Giochi

Una delle aree in cui O1 è stato più testato dagli utenti X è la creazione di minigiochi. Per esempio, o1 è stato in grado di generare:

Un clone di Pocket Tanks
AIsteriods
Uno spaceshooter
Un clone di Flappy Bird
Un gioco "Factorio-style"
Una versione giocabile di 2048 (attenzione: può creare dipendenza!)

haider on x, o1 created floppy birds clone

Nonostante queste notevoli prestazioni, gli esperti sottolineano che l'incremento di intelligenza di O1 rispetto al suo predecessore è paragonabile alla differenza tra uno studente universitario "completamente incompetente" ed uno "mediocre, ma non completamente incompetente". Secono Ethan Mollick, esperto di AI – ne abbiamo parlato qui – per valutare veramente la superiorità di o1 rispetto ad altri chatbot, saranno necessarie analisi approfondite da parte di esperti in aree che richiedono competenze specifiche.

Infine, è importante notare che o1 non è adatto ad ogni compito. o1 è progettato per compiti complessi e potrebbe "pensare troppo" per rispondere a domande semplici, per le quali sono più adatti i modelli che conosciamo già. Inoltre, è meglio non chiedere a o1 qual è il senso della vita: