DeepSeek, la migliore AI open source cinese

DeepSeek R1 non è l'ennesimo ulteriore modello linguistico che "promette di rivoluzionare il campo dell'AI". DeepSeek sembra essere il degno rivale open-source di Chat GPT.

Necessità fa virtù: le origini di DeepSeek

Fondata nel luglio 2023 da Liang Wenfeng, DeepSeek è nata nel contesto delle restrizioni statunitensi sull'esportazione di chip avanzati. Prima delle sanzioni, l'azienda è riuscita comunque ad accumulare migliaia di chip Nvidia A100. Inoltre, per sopperire alla mancanza di chip, DeepSeek e altre aziende cinesi hanno escogitato tecniche per ridurre il consumo di memoria, velocizzare i calcoli e "distillare" le capacità di ragionamento dell'AI in modelli più piccoli. La creatività delle aziende cinesi è stata notata da esperti come Matt Sheehan, ricercatore presso Carnegie Endowment:

"Le sanzioni hanno sostanzialmente costretto le aziende cinesi in un angolo, spingendole a essere molto più efficienti con risorse computazionali limitate"

Caratteristiche distintive di DeepSeek R1

Il modello base, DeepSeek-R1-Zero, vanta 671 miliardi di parametri e si distingue per un approccio di apprendimento chiamato reinforcement learning (traducibile con "apprendimento per rinforzo") su larga scala. Il reinforcement learning funziona come un sistema di ricompense e punizioni: il modello riceve un punteggio positivo quando risolve correttamente un problema e un punteggio negativo quando sbaglia. Ciò gli permette di apprendere e migliorare le proprie strategie. Grazie a questo metodo, il modello ha sviluppato capacità di ragionamento sorprendentemente avanzate, fino a mostrare un fenomeno degno di nota: il cosiddetto "momento aha" (così lo chiamano i ricercatori di DeepSeek). Questo momento si verifica quando il modello - in maniera del tutto spontanea e non programmata - "impara ad allocare più tempo al processo di pensiero per risolvere un problema, rivalutando il suo approccio iniziale". Questo significa che R1 non si limita a elaborare le informazioni in modo lineare, ma acquisisce una sorta di meta-capacità di riflessione: può rendersi conto che la sua prima strategia per risolvere un problema potrebbe non essere ottimale e quindi modificare autonomamente il proprio approccio.

Esempio di "momento aha"

Inoltre, a differenza dei modelli classici, DeepSeek R1 è stato sviluppato senza alcun addestramento preliminare supervisionato. Questo gli conferisce una flessibilità e una capacità di ragionamento quasi spontanea, paragonabile e in alcuni casi persino superiore a OpenAI-o1-1217.

Prestazioni e innovazione tecnica

Le prestazioni di DeepSeek R1 sono straordinarie. Nei benchmark matematici come AIME 2024 e MATH-500, ha raggiunto risultati rispettivamente del 79.8% e 97.3% nel test Pass@1. Nel campo della programmazione, ha toccato il 96.3° percentile su Codeforces, dimostrando competenze che vanno ben oltre la semplice elaborazione del linguaggio.

Fonte: DeepSeek

Un'altra caratteristica chiave è la cosiddetta "distillazione della conoscenza", che consiste in un trasferimento delle capacità di ragionamento di un modello di grandi dimensioni (DeepSeek-R1) a modelli più piccoli, rendendoli più efficienti e accessibili. Grazie a questo processo, l'azienda cinese ha sviluppato sei modelli più piccoli piccoli, tutti derivati da R1, che hanno ottenuto prestazioni molto vicine a quelle del modello originale. I modelli "mini", che vanno da 1.5 a 70 miliardi di parametri, offrono un'accessibilità molto elevata, dal momento che è persino possibili eseguirli su laptop personali.

Accessibilità e filosofia open source

DeepSeek R1 è stato rilasciato con licenza MIT (Massachusetts Institute of Technology), il che significa che ricercatori, aziende e sviluppatori possono usarlo liberamente, modificarlo e persino venderlo, con pochissimi vincoli.

Considerazioni sulla Privacy e Utilizzo

Come per tutti i servizi di intelligenza artificiale, è importante adottare precauzioni. DeepSeek raccoglie dati come email, testi delle chat e informazioni del dispositivo. Gli esperti consigliano di utilizzare account secondari, leggere attentamente l'informativa sulla privacy e limitare la condivisione di informazioni personali sensibili.

Disponibile tramite chat web, app mobile e API, DeepSeek R1 sta già catturando l'attenzione di ricercatori e sviluppatori di tutto il mondo.

Fonti:
DeepSeek
MIT
Paper su Arxiv