Skymizer HTX301: Una LPU Rivoluzionaria per l'Inferenza LLM Locale

3DMultisystem
12 mag
Tempo di lettura: 2 min

Skymizer ha recentemente annunciato una svolta nel campo dell'accelerazione dell'intelligenza artificiale con la sua nuova soluzione PCIe dedicata all'inferenza LLM locale: l'HTX301. Questa piattaforma promette di ridefinire il rapporto tra prestazioni, consumi e costi infrastrutturali per le aziende interessate a sfruttare appieno il potenziale dei Large Language Model.

La particolarità dell'HTX301 risiede nella sua architettura HyperThought, costruita attorno a una nuova proprietà intellettuale chiamata LPU (Language Processing Unit). A differenza delle GPU general-purpose, spesso sovradimensionate per compiti specifici come l'inferenza LLM, le LPU sono progettate appositamente per gestire questi carichi di lavoro in modo ottimale. L'attenzione è rivolta all'efficienza energetica e a una gestione coordinata, ma separata, delle fasi di prefill e decode, essenziali per un'inferenza fluida e reattiva.

L'HTX301 si presenta come una scheda PCIe standard, ma racchiude una potenza sorprendente. Integra sei chip LPU Octa-Core e una memoria distribuita attorno ai processori. Nonostante l'utilizzo di un processo produttivo a 28 nm, meno avanzato rispetto ai nodi più recenti, Skymizer dichiara prestazioni di rilievo: fino a 30 token al secondo con soli 0,5 TOPS e una banda di 100 GB/s. L'architettura LPU Octa-Core raggiunge inoltre 240 token/s in Llama2 7B prefill, con una scalabilità multi-chip che permette di arrivare fino a 1200 token/s.

Uno degli aspetti più interessanti dell'HTX301 riguarda la gestione della memoria. La scheda può ospitare fino a 384 GB di memoria LPDDR4 e LPDDR5, una scelta che consente di ridurre significativamente i costi rispetto alle tecnologie HBM o GDDR6/7, pur garantendo prestazioni adeguate per l'inferenza locale. Skymizer ha ottimizzato questo rapporto per soddisfare le esigenze delle aziende orientate all'inferenza on-premise.

Oltre all'hardware, Skymizer ha puntato anche sulle tecnologie di compressione per rendere sostenibile l'esecuzione di modelli di grandi dimensioni. La compressione del "Peso" (memoria a lungo termine) supererebbe l'open-source llama.cpp dal 9% al 17,8%, mentre quella della cache KV ridurrebbe la perdita di perplessità tra lo 0,06% e il 3,52%.

Ma il dato che più colpisce è il TDP (Thermal Design Power) dell'HTX301, dichiarato a soli 240W. Questo valore è meno della metà rispetto ai 600W di acceleratori PCIe AI di fascia alta concorrenti, come NVIDIA RTX PRO 6000 Blackwell e AMD Instinct MI350P. Questa notevole efficienza energetica si traduce in costi operativi sensibilmente ridotti per le aziende.

L'HTX301 verrà mostrata in anteprima al Computex, dove Skymizer mostrerà all'opera questo ambizioso progetto. Se le prestazioni dichiarate dovessero trovare conferma, il mercato dell'AI enterprise locale potrebbe accogliere una nuova categoria di acceleratori, in grado di democratizzare l'accesso ai potenti modelli LLM.

Tutto è realizzabile

Skymizer HTX301: Una LPU Rivoluzionaria per l'Inferenza LLM Locale

Post recenti

Contattaci