La potenza, l'intelligenza e la creatività di o1 (120 QI)
A meno di una settimana dal lancio di o1 – per gli amici Strawberry – il nuovo arrivato in casa OpenAI ha già dato ampie dimostrazioni di intelligenza, creatività e precisione, conquistando il primo posto nella classifica del QI dei chatbot, con un netto distacco rispetto a Claude 3.5.
Le 12 fatiche di o1
In soli 5 giorni, numerosi utenti X appassionati di AI hanno dato libero sfogo alla loro creatività, sperimentando in lungo e in largo le capacità di o1. Ecco le sfide che il modello di punta di OpenAI è stato in grado di superare:
Sistema solare animato
Con soli 5 prompt forniti dall'utente DreamStarter, o1 è riuscito a generare un sistema solare animato:
Secondo l'utente, a differenza di altri modelli – che hanno tentato di rappresentare le distanze astronomiche reali tra i pianeti – o1 ha scelto autonomamente di scalare le distanze per creare una visualizzazione più pratica del sistema solare. Inoltre, il modello ha incluso alcuni dettagli non esplicitamente richiesti nel prompt e assenti negli output degli altri LLM: gli anelli di Saturno e l'orbita della Luna attorno alla Terra.
Poesia difficile
Come riportato da un altro utente X, Mehran Jalali, o1 è stato in grado di comporre una poesia seguendo regole alquanto rigide, impresa che nessun altro modello è stato finora in grado di compiere.
Soluzione di enigmi complessi e test d'intelligenza
O1 sembra brillare anche nella risoluzione di cruciverba e test d'intelligenza particolarmente ardui. Un utente X (Matt Clifford) ha chiesto a GPT 4o di risolvere un cruciverba:
GPT 4o non è riuscito a rispondere correttamente. o1, invece, si, in 11 secondi:
Anche un altro utente x (Daniel Jeffreis) ha sfidato o1 con diversi test d'intelligenza: l'AI ha dato prova di ottime capacità analitiche
Arte frattale
o1 ha creato opere d'arte frattale combinando JavaScript e Adobe Firefly (utente x: Kris Kashtanova)
Analisi complesse
Secondo le ricerche di FutureSearch, o1 ha performato meglio degli altri modelli nella risoluzione di compiti complessi – i cosiddetti "white collar tasks" – tra cui la stima di quanti cinesi hanno un reddito disponibile annuo superiore a 100.000 yuan.
Fonte: Future Search. AI120 di QI
Infine, o1 ha superato ogni altro LLM nel test del QI Mensa norvegese, raggiungendo un QI di circa 120.
Fonte: MaximumtruthO1 e lo Sviluppo di Giochi
Una delle aree in cui O1 è stato più testato dagli utenti X è la creazione di minigiochi. Per esempio, o1 è stato in grado di generare:
- Un clone di Pocket Tanks
- AIsteriods
- Uno spaceshooter
- Un clone di Flappy Bird
- Un gioco "Factorio-style"
- Una versione giocabile di 2048 (attenzione: può creare dipendenza!)
Nonostante queste notevoli prestazioni, gli esperti sottolineano che l'incremento di intelligenza di O1 rispetto al suo predecessore è paragonabile alla differenza tra uno studente universitario "completamente incompetente" ed uno "mediocre, ma non completamente incompetente". Secono Ethan Mollick, esperto di AI – ne abbiamo parlato qui – per valutare veramente la superiorità di o1 rispetto ad altri chatbot, saranno necessarie analisi approfondite da parte di esperti in aree che richiedono competenze specifiche.
Infine, è importante notare che o1 non è adatto ad ogni compito. o1 è progettato per compiti complessi e potrebbe "pensare troppo" per rispondere a domande semplici, per le quali sono più adatti i modelli che conosciamo già. Inoltre, è meglio non chiedere a o1 qual è il senso della vita:
Fonte: The Neuron