Sulla scia di Google e Amazon, anche Microsoft ritiene che per specifiche esigenze i processori custom possano essere più efficienti e più economici. Non è una vera sfida a NVIDIA i cui chip per AI resteranno all’avanguardia ancora per molti anni.
Mercoledì scorso, durante l’evento Ignite, la conferenza annuale dedicata agli sviluppatori, Microsoft ha presentato l’acceleratore Azure Maia 100 AI, ottimizzato per attività di intelligenza artificiale (AI) e intelligenza artificiale generativa, e la CPU Microsoft Azure Cobalt, un processore basato su tecnologia ARM in grado di eseguire carichi di lavoro di calcolo per scopi generici su Microsoft Cloud.
I chip rappresentano l’ultimo pezzo del puzzle per Microsoft per fornire sistemi infrastrutturali – che includono di tutto, dalle scelte di silicio, software e server ai rack e ai sistemi di raffreddamento – che sono stati progettati da cima a fondo e possono essere ottimizzati tenendo presente i carichi di lavoro interni e dei clienti.
I due chip sono alimentati da una rete da 200 gigabit al secondo, ha affermato Microsoft, e possono fornire 12,5 gigabyte al secondo di throughput di dati.
Microsoft è l’ultimo dei tre grandi fornitori di cloud a offrire silicio personalizzato per cloud e intelligenza artificiale. Google ha aperto la strada alla corsa al silicio personalizzato con la sua Tensor Processing Unit, o TPU, nel 2016. Amazon ha seguito l’esempio con una serie di chip tra cui Graviton, Trainium e Inferentia.
Maia 100, il tanto atteso processore personalizzato per il suo servizio cloud Azure, con 105 miliardi di transistor è il primo di una serie di acceleratori per AI che Microsoft ha in cantiere – è “uno dei chip più grandi con tecnologia di processo a 5 nanometri”, ha dichiarato Microsoft, riferendosi al processo produttivo utilizzato.
I due chip inizieranno a essere distribuiti all’inizio del prossimo anno nei data center di Microsoft e inizialmente alimenteranno i servizi dell’azienda come Microsoft Copilot o Azure OpenAI Service. Si uniranno a una gamma in espansione di prodotti di partner del settore per contribuire a soddisfare la crescente domanda di potenza di elaborazione efficiente, scalabile e sostenibile e le esigenze dei clienti desiderosi di sfruttare le ultime scoperte sul cloud e sull’intelligenza artificiale.
“Microsoft sta costruendo l’infrastruttura per supportare l’innovazione dell’intelligenza artificiale e stiamo reinventando ogni aspetto dei nostri data center per soddisfare le esigenze dei nostri clienti“, ha affermato Scott Guthrie, vicepresidente esecutivo del gruppo Cloud + AI di Microsoft. “Nella scala in cui operiamo, è importante per noi ottimizzare e integrare ogni livello dello stack infrastrutturale per massimizzare le prestazioni, diversificare la nostra catena di fornitura e offrire ai clienti la scelta dell’infrastruttura.”
Ottimizzazione di ogni strato dello stack
I chip sono i cavalli di battaglia del cloud. Comandano miliardi di transistor che elaborano i vasti flussi di uno e zero che fluiscono attraverso i data center. Questo lavoro in definitiva consente di fare praticamente tutto sullo schermo, dall’invio di un’e-mail alla generazione di un’immagine in Bing con una semplice frase.
Proprio come costruire una casa consente di controllare ogni scelta e dettaglio di progettazione, Microsoft vede l’aggiunta di chip fatti in casa come un modo per garantire che ogni elemento sia adattato ai carichi di lavoro Microsoft cloud e AI.
I chip verranno inseriti su schede server personalizzate, posizionate all’interno di rack su misura che si adatteranno facilmente ai data center Microsoft esistenti. L’hardware lavorerà di pari passo con il software, progettato insieme per sbloccare nuove funzionalità e opportunità.
“L’obiettivo finale è un sistema hardware Azure che offra la massima flessibilità e possa anche essere ottimizzato in termini di potenza, prestazioni, sostenibilità o costi”, ha affermato Rani Borkar, vicepresidente aziendale per Azure Hardware Systems and Infrastructure (AHSI).
“Il software è il nostro punto di forza, ma francamente siamo un’azienda di sistemi. In Microsoft stiamo co-progettando e ottimizzando insieme hardware e software in modo che uno più uno sia maggiore di due“, ha affermato Borkar. “Abbiamo visibilità sull’intero stack e il silicio è solo uno degli ingredienti”.
Gli altri annunci
Durante Microsoft Ignite, la società ha anche annunciato la disponibilità generale di un altro di questi ingredienti chiave: Azure Boost, un sistema che rende più veloci l’archiviazione e la rete trasferendo tali processi dai server host a hardware e software appositamente realizzati.
Per integrare i propri sforzi nel settore del silicio personalizzato, Microsoft ha inoltre annunciato che sta espandendo le partnership industriali per fornire più opzioni infrastrutturali ai clienti. Microsoft ha lanciato un’anteprima della nuova serie di macchine virtuali NC H100 v5 realizzata per le GPU NVIDIA H100 Tensor Core, che offre maggiori prestazioni, affidabilità ed efficienza per l’addestramento AI di fascia media e l’inferenza AI generativa. Microsoft aggiungerà inoltre l’ultima GPU NVIDIA H200 Tensor Core alla sua famiglia il prossimo anno per supportare l’inferenza di modelli più grandi senza aumento della latenza.
La società ha inoltre annunciato che aggiungerà AMD MI300X ad Azure. Le macchine virtuali ND MI300 sono progettate per accelerare l’elaborazione dei carichi di lavoro AI per l’addestramento di modelli AI di fascia alta e l’inferenza generativa e includeranno la più recente GPU di AMD, AMD Instinct MI300X.
Aggiungendo silicio di propria produzione a un ecosistema in crescita di chip e hardware di partner del settore, Microsoft sarà in grado di offrire una maggiore scelta in termini di prezzo e prestazioni ai propri clienti, ha affermato Borkar.
“L’ossessione per il cliente significa che forniamo ciò che è meglio per i nostri clienti, e ciò significa prendere ciò che è disponibile nell’ecosistema e ciò che abbiamo sviluppato”, ha affermato. “Continueremo a lavorare con tutti i nostri partner per fornire al cliente ciò che desidera”.
Hardware e software in stretta evoluzione
Il nuovo Maia 100 AI Accelerator dell’azienda alimenterà alcuni dei più grandi carichi di lavoro Ai interni in esecuzione su Microsoft Azure. Inoltre, OpenAI ha fornito feedback su Azure Maia e gli approfondimenti di Microsoft su come i carichi di lavoro di OpenAI vengono eseguiti su un’infrastruttura su misura per i suoi modelli linguistici di grandi dimensioni aiutando a dare forma ai futuri progetti Microsoft.
“Fin dalla prima collaborazione con Microsoft, abbiamo lavorato per co-progettare l’infrastruttura AI di Azure a ogni livello per i nostri modelli e le esigenze di formazione senza precedenti”, ha affermato Sam Altman, CEO di OpenAI. “Siamo rimasti entusiasti quando Microsoft ha condiviso per la prima volta i progetti per il chip Maia e abbiamo lavorato insieme per perfezionarlo e testarlo con i nostri modelli. L’architettura AI end-to-end di Azure, ora ottimizzata fino al silicio con Maia, apre la strada alla formazione di modelli più capaci e più economici per i nostri clienti”.
Anche l’acceleratore AI Maia 100 è stato progettato specificamente per lo stack hardware di Azure, ha affermato Brian Harry, un manager Microsoft alla guida del team Azure Maia. Tale integrazione verticale – l’allineamento della progettazione dei chip con l’infrastruttura AI più ampia progettata pensando ai carichi di lavoro di Microsoft – può produrre enormi vantaggi in termini di prestazioni ed efficienza.
“Azure Maia è stato progettato specificamente per l’intelligenza artificiale e per ottenere il massimo utilizzo assoluto dell’hardware“, ha affermato.
Nel frattempo, la CPU Cobalt 100 è costruita sull’architettura Arm, un tipo di design ad alta efficienza energetica, e ottimizzata per offrire maggiore efficienza e prestazioni nelle offerte native del cloud, ha affermato Wes McCullough, vicepresidente aziendale per lo sviluppo di prodotti hardware. La scelta della tecnologia Arm è stata un elemento chiave nell’obiettivo di sostenibilità di Microsoft. Mira a ottimizzare le “prestazioni per watt” in tutti i suoi data center, il che significa essenzialmente ottenere più potenza di calcolo per ogni unità di energia consumata.
“L’architettura e l’implementazione sono progettate pensando all’efficienza energetica“, ha affermato. “Stiamo sfruttando nel modo più efficiente il silicio. Moltiplicando questi miglioramenti in termini di efficienza nei server in tutti i nostri data center, si ottiene un numero piuttosto elevato.”
Hardware personalizzato, dal chip al data center
Prima del 2016, la maggior parte dei rack del cloud Microsoft erano prodotti di serie, ha affermato Pat Stemen, responsabile del programma partner del team AHSI. Successivamente Microsoft ha iniziato a costruire server e rack personalizzati, riducendo i costi e offrendo ai clienti un’esperienza più coerente. Nel corso del tempo, il silicio è diventato il principale pezzo mancante.
La capacità di costruire il proprio silicio personalizzato consente a Microsoft di puntare su determinate qualità e garantire che i chip funzionino in modo ottimale sui carichi di lavoro più importanti. Il suo processo di test include la determinazione delle prestazioni di ogni singolo chip in diverse condizioni di frequenza, temperatura e potenza per ottenere le massime prestazioni e, soprattutto, testare ciascun chip nelle stesse condizioni e configurazioni che sperimenterebbe in un data center Microsoft reale.
L’architettura in silicio svelata oggi consente inoltre a Microsoft non solo di migliorare l’efficienza di raffreddamento, ma anche di ottimizzare l’uso delle attuali risorse del data center e di massimizzare la capacità del server entro il suo ingombro esistente.
Ad esempio, non esistevano rack con requisiti specifici per ospitare delle schede server con Maia 100. Quindi Microsoft li ha costruiti da zero. Questi rack sono più larghi di quelli normalmente presenti nei data center dell’azienda. Questo design ampliato offre ampio spazio sia per i cavi di alimentazione che per quelli di rete, essenziali per le esigenze specifiche dei carichi di lavoro AI.
Tali compiti di intelligenza artificiale comportano intense richieste computazionali che consumano più energia. I metodi tradizionali di raffreddamento ad aria non sono all’altezza di questi chip ad alte prestazioni. Di conseguenza, il raffreddamento a liquido – che utilizza fluidi circolanti per dissipare il calore – è emerso come la soluzione preferita a queste sfide termiche, garantendo che funzionino in modo efficiente senza surriscaldarsi.
Ma gli attuali data center di Microsoft non sono stati progettati per grandi refrigeratori di liquidi. L’azienda ha quindi sviluppato un “aiutante” che si trova accanto al rack Maia 100. Questi aiutanti funzionano un po’ come il radiatore di un’auto. Il liquido freddo scorre dal supporto alle piastre fredde fissate sulla superficie dei processori Maia 100. Ciascuna piastra è dotata di canali attraverso i quali circola il liquido per assorbire e trasportare il calore. Questo scorre verso l’”aiutante”, che rimuove il calore dal liquido e lo rimanda al rack per assorbire più calore, e così via.
La progettazione tandem di rack e sidekick sottolinea il valore di un approccio sistemico all’infrastruttura, ha affermato McCullough. Controllando ogni aspetto, dall’etica a basso consumo del chip Cobalt 100 alle complessità del raffreddamento dei data center, Microsoft può orchestrare un’interazione armoniosa tra ciascun componente, garantendo che il tutto sia effettivamente maggiore della somma delle sue parti nella riduzione dell’impatto ambientale.
Microsoft ha condiviso le conoscenze apprese sulla progettazione del suo rack personalizzato con i partner del settore e può utilizzarli indipendentemente dal pezzo di silicio che si trova all’interno, ha affermato Stemen. “Tutte le cose che costruiamo, siano esse infrastrutture, software o firmware, possiamo sfruttarle sia che utilizziamo i nostri chip o quelli dei nostri partner industriali“, ha affermato. “Questa è una scelta che il cliente deve fare e noi stiamo cercando di fornire loro la migliore serie di opzioni, sia che si tratti di prestazioni, costi o qualsiasi altro prodotto a cui tengono.”
Microsoft prevede di espandere questa serie di opzioni in futuro; sta già progettando versioni di seconda generazione della serie Azure Maia AI Accelerator e della serie di CPU Azure Cobalt. La missione dell’azienda rimane chiara, ha affermato Stemen: ottimizzare ogni livello del proprio stack tecnologico, dal nucleo in silicio al servizio finale.
“L’innovazione di Microsoft sta andando sempre più in basso con questo lavoro sul silicio per garantire il futuro dei carichi di lavoro dei nostri clienti su Azure, dando priorità alle prestazioni, all’efficienza energetica e ai costi“, ha affermato. “Abbiamo scelto questa innovazione intenzionalmente in modo che i nostri clienti possano ottenere la migliore esperienza possibile con Azure oggi e in futuro.”