Salta al contenuto principale

La potenza, l'intelligenza e la creatività di o1 (120 QI)

meaning of life according to o1

A meno di una settimana dal lancio di o1 – per gli amici Strawberry –  il nuovo arrivato in casa OpenAI ha già dato ampie dimostrazioni di intelligenza, creatività e precisione, conquistando il primo posto nella classifica del QI dei chatbot, con un netto distacco rispetto a Claude 3.5


Le 12 fatiche di o1

In soli 5 giorni, numerosi utenti X appassionati di AI hanno dato libero sfogo alla loro creatività, sperimentando in lungo e in largo le capacità di o1. Ecco le sfide che il modello di punta di OpenAI è stato in grado di superare:

Sistema solare animato

Con soli 5 prompt forniti dall'utente DreamStarter, o1 è riuscito a generare un sistema solare animato:

DreamStarter on X, o1's generation of a Solar System

Secondo l'utente, a differenza di altri modelli – che hanno tentato di rappresentare le distanze astronomiche reali tra i pianeti – o1 ha scelto autonomamente di scalare le distanze per creare una visualizzazione più pratica del sistema solare. Inoltre, il modello ha incluso alcuni dettagli non esplicitamente richiesti nel prompt e assenti negli output degli altri LLM: gli anelli di Saturno e l'orbita della Luna attorno alla Terra.

Poesia difficile

Come riportato da un altro utente X, Mehran Jalali, o1 è stato in grado di comporre una poesia seguendo regole alquanto rigide, impresa che nessun altro modello è stato finora in grado di compiere.

Mehran Jalali on x, o1's strict poem

Soluzione di enigmi complessi e test d'intelligenza

O1 sembra brillare anche nella risoluzione di cruciverba e test d'intelligenza particolarmente ardui. Un utente X (Matt Clifford) ha chiesto a GPT 4o di risolvere un cruciverba:
 

Matt Clifford on x, crossword puzzle and o1

GPT 4o non è riuscito a rispondere correttamente. o1, invece, si, in 11 secondi:

Matt Clifford on x, crossword puzzle and o1

Anche un altro utente x (Daniel Jeffreis) ha sfidato o1 con diversi test d'intelligenza: l'AI ha dato prova di ottime capacità analitiche

Arte frattale

o1 ha creato opere d'arte frattale combinando JavaScript e Adobe Firefly (utente x: Kris Kashtanova)

Kris Kashtanova on x, fractal art with o1

Analisi complesse

Secondo le ricerche di FutureSearch, o1 ha performato meglio degli altri modelli nella risoluzione di compiti complessi – i cosiddetti "white collar tasks" – tra cui la stima di quanti cinesi hanno un reddito disponibile annuo superiore a 100.000 yuan.

FutureSearch ai benchmark Fonte: Future Search. AI
120 di QI

Infine, o1 ha superato ogni altro LLM nel test del QI Mensa norvegese, raggiungendo un QI di circa 120.

maximumtruth ladder Fonte: Maximumtruth

O1 e lo Sviluppo di Giochi

Una delle aree in cui O1 è stato più testato dagli utenti X è la creazione di minigiochi. Per esempio, o1 è stato in grado di generare:

haider on x, o1 created floppy birds clone

Nonostante queste notevoli prestazioni, gli esperti sottolineano che l'incremento di intelligenza di O1 rispetto al suo predecessore è paragonabile alla differenza tra uno studente universitario "completamente incompetente" ed uno "mediocre, ma non completamente incompetente". Secono Ethan Mollick, esperto di AI – ne abbiamo parlato qui – per valutare veramente la superiorità di o1 rispetto ad altri chatbot, saranno necessarie analisi approfondite da parte di esperti in aree che richiedono competenze specifiche.


Infine, è importante notare che o1 non è adatto ad ogni compito. o1 è progettato per compiti complessi e potrebbe "pensare troppo" per rispondere a domande semplici, per le quali sono più adatti i modelli che conosciamo già. Inoltre, è meglio non chiedere a o1 qual è il senso della vita:

meaning of life according to o1

Fonte: The Neuron