• Vai alla navigazione primaria
  • Passa al contenuto principale
  • Passa al pié di pagina
E4 Computer Engineering

E4 Computer Engineering

HPC and Enterprise Solutions

  • It
  • En
  • Soluzioni
    • HPC
    • AI
    • Kubernetes
    • Virtualization
    • Cloud
  • Chi siamo
    • Team
    • E4 Analytics
    • E4 Aerospace & Defence
    • Case history
    • Progetti europei
    • Competenze
    • Certificazioni
    • Partner
    • Lavora in E4
  • News
    • Blog
    • Eventi
  • Contatti

Ridurre i costi del 75% con le GPU frazionarie per l’Inferenza Deep Learning

22 Aprile 2021

News

Contenuti per la community dell'HPC e gli appassionati di innovazione: tutorial, news e press release per utenti, ingegneri e amministratori

YouTube Twitter Linkedin

#whenperformancematters

  • Tutte le news
  • Aerospace & Defence
  • Artificial Intelligence
  • Blog
  • Cloud Platform
  • HPC
  • Kubernetes Cluster
  • Press
  • Progetti Europei
  • Varie E4
  • Video

Ridurre i costi del 75% con le GPU frazionarie per l’Inferenza Deep Learning

22 Aprile 2021

Fractional GPU

In questo post, vedremo come la frazionalizzazione della GPU per i carichi di lavoro di inferenza Deep Learning, con esigenze di calcolo inferiori, può far risparmiare il 50-75% del costo del Deep Learning.

Il nostro partner Run:AI offre la possibilità di eseguire, nello stesso momento, più task di inferenza Deep Learning, utilizzando la stessa GPU, e, dunque, frazionandola, consentendo un utilizzo migliore e più efficace delle risorse, una maggiore velocità, grazie all’esecuzione contemporanea di diversi task da parte di più data scientist, e un risparmio notevole sui costi.

In che modo l’Inferenza Deep Learning differisce dal Training?

Prima di entrare nel valore del frazionamento della GPU, è importante spiegare che, in ogni fase del processo di Deep Learning, i data scientist completano diversi task che riguardano il modo in cui interagiscono con le reti neurali e le GPU. I passaggi possono essere suddivisi in quattro fasi: preparazione dei dati, costruzione dei dati, training e inferenza.

Preparazione dei dati: questa fase include la pulizia, la manipolazione dei dati e la loro comprensione. Questo stadio è molto importante per consentire ai modelli che costruiamo di avere le migliori possibilità di successo. Per il Deep Learning questa fase viene in genere eseguita senza GPU.

Creazione di modelli: è qui che i ricercatori creano modelli di Deep Learning (DL) – questo stadio include la progettazione e la codifica del modello, errori di debug, ecc. In questa fase i ricercatori consumano la potenza della GPU in modo interattivo, a brevi raffiche, lasciando occasionalmente la GPU inattiva.

Training dei modelli: in questa fase ai modelli DL vengono assegnati pesi che mappano meglio gli input e gli output. Questa fase è molto impegnativa in termini di elaborazione e può durare giorni mentre i ricercatori ottimizzano i loro modelli su enormi set di dati. La velocità di training è quindi molto importante.

Inferenza: in questa fase, i modelli DL addestrati inferiscono letteralmente “cose” dai nuovi dati. I carichi di lavoro di inferenza rientrano in due categorie, online e offline.

Qual è la differenza tra inferenza online e offline?

Inferenza offline: in un caso d’uso offline, un modello che è già stato addestrato, viene eseguito su nuovi dati che sono arrivati ​​dal completamento del training precedente. Ad esempio, le foto di Facebook. Milioni di immagini vengono caricate su Facebook ogni giorno: Facebook tagga e organizza quelle immagini. Questo è un classico lavoro di inferenza: utilizza nuovi dati, in questo caso un’immagine, e applica ciò che è stato appreso da un modello già addestrato, per posizionare un tag sull’immagine. In questo caso le metriche come la latenza sono meno importanti e l’inferenza può essere eseguita offline, in orari pianificati o quando sono disponibili risorse di calcolo.

Inferenza online: in uno scenario online, l’inferenza viene eseguita sui dati che devono essere utilizzati ora, in tempo reale. Esempi di questo tipo si trovano in casi d’uso sensibili al fattore tempo come il rilevamento di frodi, in cui una transazione online deve essere approvata o rifiutata.

Per riassumere, il training implica workloads ad alta intensità di calcolo, mentre i carichi di lavoro di inferenza sono “leggeri” e consumano molta meno GPU rispetto al training. Nel ciclo di vita di un progetto, ci sono lunghi periodi di tempo durante i quali sono in esecuzione molti carichi di lavoro di training simultanei (ad esempio durante l’ottimizzazione degli iperparametri) ma anche lunghi periodi di inattività. Il training è molto impegnativo in termini di calcolo, viene eseguito su più GPU e in genere richiede un utilizzo molto elevato di quest’utlima.

Esegui due, quattro o più carichi di lavoro sulla stessa GPU, on premise o in cloud

Per i carichi di lavoro di inferenza, sia online che offline, sono necessarie solo piccole quantità di potenza di elaborazione e memoria, tuttavia una GPU completa viene generalmente allocata a ciascun lavoro di inferenza, lasciando fino all’80% della GPU inattiva. Fino ad ora, non era possibile allocare dinamicamente una frazione di una GPU a un carico di lavoro di inferenza più piccolo. Con la GPU frazionata di Run: AI, invece, più workload di inferenza possono essere eseguiti sulla stessa GPU.
L’orchestrazione proposta da Run:AI ridimensiona automaticamente i carichi di lavoro di inferenza in modo dinamico, per eseguire in modo efficiente su vasta scala e su più nodi e più cluster GPU.

GPU deep learning

I costi della GPU vengono tagliati in modo significativo

Utilizzando Run: AI, più attività di inferenza possono essere eseguite sulla stessa GPU e il risparmio sui costi per l’infrastruttura GPU locale diventa evidente. Ma i risparmi si aggiungono all’infrastruttura cloud. Ad esempio, supponiamo che quattro servizi di inferenza vengano eseguiti contemporaneamente, ciascuno su una GPU diversa. Pagando al minuto sull’infrastruttura cloud, pagherai il costo di quattro GPU, moltiplicato per la durata del tempo in cui questi servizi sono attivi e funzionanti. Con il software Run: AI puoi allocare questi quattro servizi alla stessa GPU senza compromettere il tempo e le prestazioni di inferenza, spendendo quindi il 75% in meno rispetto a prima.

Condividi le risorse in modo efficiente

Tradizionalmente, i ricercatori possono essere lasciati senza accesso alla GPU, ad aspettare che i carichi di lavoro di inferenza di altri team vengano completati (nonostante quei carichi di lavoro utilizzino solo una frazione di quella GPU).
Grazie alla capacità di frazionamento di Run:AI, questa non è più una limitazione. I ricercatori possono condividere l’accesso alla GPU ed eseguire più carichi di lavoro su una singola GPU. I lavori di data science vengono completati più rapidamente, arrivano più velocemente sul mercato e i ricercatori sono in grado di condividere meglio risorse costose in modo efficace.

Sia in locale che nel cloud, Run:AI può aiutare a ridurre i costi per i workload di inferenza.

Per ottenere una prova gratuita della GPU frazionata di Run:AI GPU contattaci subito!

Archiviato in: Artificial Intelligence

By E4 News

Articoli recenti

23 Gennaio 2023

Cognitive Signal Classifier: intelligenza artificiale al servizio della conoscenza in tempo reale dello spettro elettromagnetico.

Aerospace & Defence

5 Ottobre 2022

HPC e AI, E4 promuove l’innovazione nel mondo Aerospace e Defence

Aerospace & Defence, Artificial Intelligence, HPC

3 Agosto 2022

Intelligenza Artificiale: livello di percezione e applicazioni di maggior interesse per le aziende italiane

Artificial Intelligence

8 Luglio 2022

E4 Computer Engineering accelera le soluzioni basate su ARM per HPC e AI

Artificial Intelligence, HPC, Press

23 Giugno 2022

Intelligenza Artificiale: come affrontare la mancanza di competenze e risorse in Italia?

Artificial Intelligence

PreviousNext

Footer

Via Martiri della Libertà, 66
42019 Scandiano (RE) – Italy

+39 0522 991811
info@e4company.com

  • Youtube
  • Twitter
  • LinkedIn
  • SOLUZIONI
  • HPC
  • AI
  • Kubernetes
  • Virtualization
  • Cloud
  • CHI SIAMO
  • Team
  • E4 Analytics
  • E4 Aerospace & Defence
  • Case History
  • Competenze
  • Progetti europei
  • Partner
  • Certificazioni
  • Lavora in E4

NEWS

  • Blog
  • Eventi

Iscriviti alla Newsletter

Scarica il Company Profile

© 2002–2023 E4 COMPUTER ENGINEERING S.p.A. - P.IVA/VAT No. IT 02005300351 - R.A.E.E. IT0802 000 000 1117 - CAP. SOC. EURO 150.000,00 I.V. - Privacy policy - Cookie Policy - Manage cookie settings

WebSite by Black Studio