Salta al contenuto principale

Claude 3.7 è qui e sa giocare a Pokémon

claude 3.7

Anthropic ha rilasciato Claude 3.7 Sonnet, il primo modello AI con ragionamento ibrido. Più intelligente, più veloce e in grado di programmare come mai prima d’ora. Ecco tutti i dettagli.


Un salto evolutivo per l’AI: ecco Claude 3.7 Sonnet

Lunedì 24 febbraio Anthropic ha annunciato Claude 3.7 Sonnet, la nuova punta di diamante dell’azienda e il primo modello al mondo con "ragionamento ibrido"​.

Claude 3.7 permette agli utenti di scegliere tra due modalità:

  • Risposte istantanee, ottimizzate per rapidità e fluidità
  • Pensiero "esteso" (extended thinking), che consente a Claude di riflettere più a lungo, migliorando accuratezza e complessità delle risposte

👉 Claude 3.7 Sonnet è il primo modello che integra entrambe le modalità in un unico modello, eliminando la necessità di scegliere tra un modello veloce e uno più potente​. L'azienda ritiene che il ragionamento debba essere una capacità integrata nei modelli piuttosto che una facoltà appartenente ad un modello completamente separato. L'idea è quella di simulare il cervello umano, adatto sia a risposte immediate che a riflessioni profonde. Come spiega Anthropic: 

"Alcune cose ci vengono in mente quasi istantaneamente: 'che giorno è oggi?' Altre richiedono molta più energia mentale, come risolvere un cruciverba criptico o fare debug di un codice complesso. Possiamo scegliere di applicare più o meno sforzo cognitivo a seconda del compito da svolgere. Ora, Claude ha la stessa flessibilità."


Come funziona il ragionamento ibrido?

La grande novità di Claude 3.7 Sonnet è il Visible Scratchpad, una finestra che mostra agli utenti il processo di ragionamento passo dopo passo. Questa trasparenza è utile per:

✔️ Verificare il pensiero dell’AI, aumentando la fiducia nel modello
✔️ Evitare risposte opache o "black box", un problema diffuso nei LLM
✔️ Ottimizzare le interazioni, permettendo agli utenti di correggere o indirizzare il ragionamento​

Gli utenti API possono anche impostare un "thinking budget", ovvero decidere esattamente quanto tempo e potenza computazionale allocare a ciascuna risposta.


Claude 3.7 Sonnet domina i benchmark 

Claude 3.7 Sonnet supera i principali modelli AI in molti benchmark.

Confronto delle prestazioni di Claude 3.7 Sonnet con altri modelli AI su benchmark chiaveAnthropic

 

Confronto delle prestazioni di Claude 3.7 Sonnet con altri modelli AI su benchmark chiaveAnthropic

Claude 3.7 Sonnet è il modello AI con il più alto punteggio mai registrato in SWE-bench Verified (che misura la capacità di risolvere problemi di sviluppo sowtfare) e TAU-bench​​ (che testa gli agenti AI su compiti complessi del mondo reale utilizzando diversi strumenti e interagendo con gli utenti).

Claude 3.7 Sonnet gioca a Pokémon Rosso (e vince)

Uno dei test più interessanti condotti da Anthropic per valutare le capacità "agentiche" di Claude 3.7 Sonnet è stato l’utilizzo del modello per giocare a Pokémon Rosso. Per farlo, Claude è stato dotato di una memoria di base, un sistema di input che analizza i pixel dello schermo e la capacità di premere pulsanti e muoversi nell'ambiente di gioco.

🕹️ I risultati del test:
✔️ Claude 3.0 Sonnet non è riuscito nemmeno a lasciare Biancavilla (inizio del gioco).
✔️ Claude 3.7 Sonnet, invece, è riuscito a battere tre capipalestra, ottenendo le rispettive Medaglie.

claude_models_pokemonAnthropic

🔹 Perché è importante?
Questo esperimento dimostra che Claude 3.7 Sonnet può apprendere strategie, adattarsi agli imprevisti e migliorare le proprie decisioni nel tempo, proprio come farebbe un giocatore umano​.

Ecco quanto dichiarato da Anthropic a tal proposito: 

"Pokémon è un modo divertente per apprezzare le capacità di Claude 3.7 Sonnet, ma ci aspettiamo che queste capacità abbiano un impatto sul mondo reale che vada ben oltre il gioco. La capacità del modello di mantenere la concentrazione e di raggiungere obiettivi aiuterà gli sviluppatori a costruire una vasta gamma di agenti AI all'avanguardia."


Claude Code: un'eccellenza nello sviluppo software

Uno dei punti di forza di Claude 3.7 Sonnet è la programmazione. In più test e collaborazioni con aziende come Cursor, Cognition, Vercel, Replit e Canva, il modello ha dimostrato notevoli capacità di pianificazione, debugging e creazione di codice pronto per la produzione.

Insieme a Claude 3.7, Anthropic ha presentato anche Claude Code, un "assistente di programmazione" (qui il link alla presentazione). Disponibile in anteprima con alcune limitazioni, Claude Code è descritto come un "collaboratore attivo" in grado di:

  • Cercare e leggere codice
  • Modificare file
  • Scrivere ed eseguire test
  • Gestire commit e push su GitHub
  • Utilizzare strumenti a riga di comando

📈 Impatto sullo sviluppo software:
✅ Claude Code ha ridotto il tempo di sviluppo del 45% rispetto ai metodi tradizionali​
✅ In test su progetti reali, ha completato in un solo passaggio compiti che avrebbero richiesto oltre 45 minuti di lavoro umano


Quanto costa e dove si può usare?

💰 Prezzi di Claude 3.7 Sonnet (invariati rispetto a Claude 3.5):

  • $3 per milione di token input (circa 750.000 parole)
  • $15 per milione di token output (inclusi i token del ragionamento)

📌 Disponibilità:
Claude 3.7 Sonnet è disponibile su tutti i piani di Anthropic (Free, Pro, Team, Enterprise), oltre che tramite API Anthropic, Amazon Bedrock e Google Cloud Vertex AI. La modalità "extended thinking" è esclusa solo dal piano Free.


Perché Claude 3.7 Sonnet è un game-changer?

✅ Primo modello AI con ragionamento ibrido
✅ Miglior benchmark di sempre su SWE-bench e TAU-bench
✅ Claude Code per un coding assistito di livello enterprise

💡Claude è finalmente un modello di ragionamento!

🔗 Vuoi provarlo? Scopri di più su Claude.ai.


Fonti:
Anthropic: Claude’s extended thinking
Anthropic: Claude 3.7 Sonnet and Claude Code