
News
Contenuti per la community dell'HPC e gli appassionati di innovazione: tutorial, news e press release per utenti, ingegneri e amministratori
- Tutte le news
- Aerospace & Defence
- Artificial Intelligence
- Blog
- Cloud Platform
- HPC
- Kubernetes Cluster
- Press
- Progetti Europei
- Ultime news
- Varie E4
- Video
Ridurre i costi del 75% con le GPU frazionarie per l’Inferenza Deep Learning

In questo post, vedremo come la frazionalizzazione della GPU per i carichi di lavoro di inferenza Deep Learning, con esigenze di calcolo inferiori, può far risparmiare il 50-75% del costo del Deep Learning.
Il nostro partner Run:AI offre la possibilità di eseguire, nello stesso momento, più task di inferenza Deep Learning, utilizzando la stessa GPU, e, dunque, frazionandola, consentendo un utilizzo migliore e più efficace delle risorse, una maggiore velocità, grazie all’esecuzione contemporanea di diversi task da parte di più data scientist, e un risparmio notevole sui costi.
In che modo l’Inferenza Deep Learning differisce dal Training?
Prima di entrare nel valore del frazionamento della GPU, è importante spiegare che, in ogni fase del processo di Deep Learning, i data scientist completano diversi task che riguardano il modo in cui interagiscono con le reti neurali e le GPU. I passaggi possono essere suddivisi in quattro fasi: preparazione dei dati, costruzione dei dati, training e inferenza.
Preparazione dei dati: questa fase include la pulizia, la manipolazione dei dati e la loro comprensione. Questo stadio è molto importante per consentire ai modelli che costruiamo di avere le migliori possibilità di successo. Per il Deep Learning questa fase viene in genere eseguita senza GPU.
Creazione di modelli: è qui che i ricercatori creano modelli di Deep Learning (DL) – questo stadio include la progettazione e la codifica del modello, errori di debug, ecc. In questa fase i ricercatori consumano la potenza della GPU in modo interattivo, a brevi raffiche, lasciando occasionalmente la GPU inattiva.
Training dei modelli: in questa fase ai modelli DL vengono assegnati pesi che mappano meglio gli input e gli output. Questa fase è molto impegnativa in termini di elaborazione e può durare giorni mentre i ricercatori ottimizzano i loro modelli su enormi set di dati. La velocità di training è quindi molto importante.
Inferenza: in questa fase, i modelli DL addestrati inferiscono letteralmente “cose” dai nuovi dati. I carichi di lavoro di inferenza rientrano in due categorie, online e offline.
Qual è la differenza tra inferenza online e offline?
Inferenza offline: in un caso d’uso offline, un modello che è già stato addestrato, viene eseguito su nuovi dati che sono arrivati dal completamento del training precedente. Ad esempio, le foto di Facebook. Milioni di immagini vengono caricate su Facebook ogni giorno: Facebook tagga e organizza quelle immagini. Questo è un classico lavoro di inferenza: utilizza nuovi dati, in questo caso un’immagine, e applica ciò che è stato appreso da un modello già addestrato, per posizionare un tag sull’immagine. In questo caso le metriche come la latenza sono meno importanti e l’inferenza può essere eseguita offline, in orari pianificati o quando sono disponibili risorse di calcolo.
Inferenza online: in uno scenario online, l’inferenza viene eseguita sui dati che devono essere utilizzati ora, in tempo reale. Esempi di questo tipo si trovano in casi d’uso sensibili al fattore tempo come il rilevamento di frodi, in cui una transazione online deve essere approvata o rifiutata.
Per riassumere, il training implica workloads ad alta intensità di calcolo, mentre i carichi di lavoro di inferenza sono “leggeri” e consumano molta meno GPU rispetto al training. Nel ciclo di vita di un progetto, ci sono lunghi periodi di tempo durante i quali sono in esecuzione molti carichi di lavoro di training simultanei (ad esempio durante l’ottimizzazione degli iperparametri) ma anche lunghi periodi di inattività. Il training è molto impegnativo in termini di calcolo, viene eseguito su più GPU e in genere richiede un utilizzo molto elevato di quest’utlima.
Esegui due, quattro o più carichi di lavoro sulla stessa GPU, on premise o in cloud
Per i carichi di lavoro di inferenza, sia online che offline, sono necessarie solo piccole quantità di potenza di elaborazione e memoria, tuttavia una GPU completa viene generalmente allocata a ciascun lavoro di inferenza, lasciando fino all’80% della GPU inattiva. Fino ad ora, non era possibile allocare dinamicamente una frazione di una GPU a un carico di lavoro di inferenza più piccolo. Con la GPU frazionata di Run: AI, invece, più workload di inferenza possono essere eseguiti sulla stessa GPU.
L’orchestrazione proposta da Run:AI ridimensiona automaticamente i carichi di lavoro di inferenza in modo dinamico, per eseguire in modo efficiente su vasta scala e su più nodi e più cluster GPU.

I costi della GPU vengono tagliati in modo significativo
Utilizzando Run: AI, più attività di inferenza possono essere eseguite sulla stessa GPU e il risparmio sui costi per l’infrastruttura GPU locale diventa evidente. Ma i risparmi si aggiungono all’infrastruttura cloud. Ad esempio, supponiamo che quattro servizi di inferenza vengano eseguiti contemporaneamente, ciascuno su una GPU diversa. Pagando al minuto sull’infrastruttura cloud, pagherai il costo di quattro GPU, moltiplicato per la durata del tempo in cui questi servizi sono attivi e funzionanti. Con il software Run: AI puoi allocare questi quattro servizi alla stessa GPU senza compromettere il tempo e le prestazioni di inferenza, spendendo quindi il 75% in meno rispetto a prima.
Condividi le risorse in modo efficiente
Tradizionalmente, i ricercatori possono essere lasciati senza accesso alla GPU, ad aspettare che i carichi di lavoro di inferenza di altri team vengano completati (nonostante quei carichi di lavoro utilizzino solo una frazione di quella GPU).
Grazie alla capacità di frazionamento di Run:AI, questa non è più una limitazione. I ricercatori possono condividere l’accesso alla GPU ed eseguire più carichi di lavoro su una singola GPU. I lavori di data science vengono completati più rapidamente, arrivano più velocemente sul mercato e i ricercatori sono in grado di condividere meglio risorse costose in modo efficace.
Sia in locale che nel cloud, Run:AI può aiutare a ridurre i costi per i workload di inferenza.
Per ottenere una prova gratuita della GPU frazionata di Run:AI GPU contattaci subito!