
News
Contenuti per la community dell'HPC e gli appassionati di innovazione: tutorial, news e press release per utenti, ingegneri e amministratori
- Tutte le news
- Aerospace & Defence
- Artificial Intelligence
- Blog
- Cloud Platform
- HPC
- Kubernetes Cluster
- Press
- Progetti Europei
- Ultime news
- Varie E4
- Video
Intelligenza Artificiale: ecco a voi ANDREAS!
Il 1 maggio 2020 si è tenuto il virtual kick-off meeting della proposta TETRAMAX-VALUECHAIN-TTX-3: ANDREAS.
Il progetto ANDREAS ci vede protagonisti, insieme al Politecnico di Milano e all’azienda polacca 7bulls, e si inserisce all’interno di TETRAMAX (un Hub di Innovazione Digitale), che sta portando avanti dal 2017 un progetto Horizon2020, nell’ambito dell’iniziativa Smart Anything Everywhere (SAE), che si occupa di calcolo a basso consumo energetico per i Cyber Physical Systems e l’Internet of Things.
ANDREAS (Artificial intelligence traiNing scheDuler foR disaggrEgAted resource clusterS) mira a soddisfare due esigenze chiave del mercato: efficienza nell’uso delle risorse e riduzione del consumo di energia. Oggi, l’intelligenza artificiale (AI) e il Deep Learning (DL) vengono utilizzati per una vasta gamma di applicazioni e sono supportati da diverse piattaforme hardware e software, basate su GPU. L’utilizzo ampio e sempre più sofisticato dei modelli di intelligenza artificiale crea l’opportunità per miglioramenti nella gestione del footprint energetico, durante le operazioni di training e retraining, e in diversi deployment: dai sistemi on-premises, alle infrastrutture di medie dimensioni (come gli operatori cloud Europei e i grossi centri HPC), ai grandi fornitori di sistemi edge/fog.

I modelli di deep learning e machine learning vengono addestrati su sistemi basati su GPU, che raggiungono costantemente uno speed up di 5-40x rispetto a quelli basati su CPU. La capacità di ottimizzare l’efficienza dell’infrastruttura in base a rigorosi limiti di consumo energetico è fondamentale per cloud providers, data centers e centri HPC che forniscono potenza di calcolo per questi scopi.
Sebbene esistano soluzioni avanzate che consentano di gestire server o container virtuali, la crescente complessità dei modelli di machine learning richiede di limitare il consumo di energia a quote imposte dal SysAdmin, e di ottimizzare allo stesso tempo l’allocazione delle GPU, che sono risorse ad alto valore. In questo contesto la rinuncia alla flessibilità data da soluzioni scalabili è consapevole e preferibile.
ANDREAS ha l’obiettivo di sviluppare soluzioni di scheduling avanzate, che permettano l’ottimizzazione delle prestazioni di run-time nei processi di training di deep learning e di ridurre al minimo il consumo energetico della fase di training nei cluster GPU aggregati e disaggregati.
L’architettura pensata per il progetto ANDREAS è composta da: un pool di server basati su CPU, un pool di GPU a cui si accede tramite uno switch, il gestore di code SLURM e dei moduli intelligenti che interagiscono con lo scheduler dei jobs, al fine di eseguire previsioni per le prestazioni e per il consumo dell’applicazione.
ANDREAS è un progetto della durata di 10 mesi e il team prevede di costruire i primi prototipi della soluzione entro l’autunno 2020.