
Medooza: l’infrastruttura per il Calcolo Parallelo
Il Cluster ideale per l’HPC
Medooza è il cluster HPC appositamente progettato in base alle richieste specifiche del cliente, caratterizzato da una forte ottimizzazione ingegneristica tra hardware e software, con configurazioni personalizzate e “standardizzate” per X86/64, GPU, storage e interconnessioni ad alta velocità.
Per gestire flessibilità e ridondanza del cluster la soluzione utilizza il set di componenti software OpenStack, che fornisce servizi comuni per la gestione dell’infrastruttura.
La soluzione Medooza include inoltre strumenti integrati e procedure di installazione standardizzate per garantire il rilascio di ambienti operativi stabili e ottimizzati, in grado di assicurare una gestione operativa completamente autonoma da parte del cliente.
Ingegnerizzata, non assemblata
Medooza si basa su una serie di componenti hardware e software opportunamente armonizzati dai nostri ingegneri più esperti e si presta a una continua integrazione di nuovi moduli e funzionalità di ultima generazione.
Per garantire la massima affidabilità, Medooza è sottoposta a stress test di lunga durata in fase di ingegnerizzazione.
Prima della consegna, forniamo ai nostri clienti output test con dati sul collaudo e sulle prestazioni effettive del sistema.
L’approccio Medooza
Medooza offre ai cluster HPC un approccio intuitivo e di facile gestione tipico delle infrastrutture tradizionali ma con la flessibilità e la robustezza dei sistemi di ultima generazione.
Per garantirne prestazioni e caratteristiche sempre allo stato dell’arte, vengono rilasciati periodicamente nuovi moduli e funzionalità perfettamente integrati con l’infrastruttura già in esercizio.
AGNOSTICO
Sia per l’hardware che per il software, Medooza supporta la più ampia gamma possibile di CPU (ARM, x86_64), acceleratori (GPU, FPGA), reti (IB, RoCE) e dischi (NVMe, SSD) ad alte prestazioni oltre che i sistemi operativi più diffusi (Red Hat, Centos Stream).
MODULARE
Gli ambienti eterogenei di sviluppo utilizzati dall’utente sono flessibili e riconfigurabili. La loro gestione avviene tramite environment modules realizzati da E4 in funzione delle specifiche richieste del cliente.
MULTI CLUSTER
Medooza è nativamente multicluster. La stessa infrastruttura può essere utilizzata per servire più cluster all’interno della stessa rete locale.
A PROVA DI FUTURO
E’ possibile espandere il sistema HPC aggiungendo nuovi nodi (scale out), verificare lo stato dell’hardware e ricondizionare vecchi cluster ove opportuno.
Progettata per dare il meglio: sempre
Le applicazioni ingegneristiche richiedono approfondite analisi dei dati, visualizzazioni complesse, creazione di modelli e la loro sofisticata simulazione. Per questo vengono utilizzate componenti altamente performanti quali server accelerator (GPU e FPGA), networking e storage ad alte prestazioni.
Basandosi sulla propria esperienza ventennale in ambito accademico e industriale, E4 ingegnerizza, configura e implementa la propria soluzione cluster HPC utilizzando una suite di componenti opportunamente armonizzati secondo le linee guida del progetto denominato Medooza.
Scopri tutti i vantaggi
Layout della soluzione
La soluzione Medooza 2.0 si compone di due moduli principali:
- l’infrastruttura di calcolo costituita da componenti altamente performanti quali server accelerator (GPU e FPGA), networking e storage ad alte prestazioni
- la piattaforma operativa (E4HPC-PLATFORM) che abilita i servizi e le funzionalità del cluster HPC, permettendone anche una piena ed efficace gestione
Medooza 2.0 – Control node singolo
Medooza contiene tutti i servizi necessari al funzionamento del cluster
- E’ possibile attivare componenti aggiuntivi come Talos, CubeView, ICE4HPC e altri che sono venduti separatamente
- L’HA dei servizi è gestita da OpenStack
- Rete Storage interna ai Control Nodes P2P (no Switch)
- OpenStack si occupa del deploy bare-metal dei nodi di calcolo
- Ideale per HPC Batch che non richiede riconfigurazioni bare-metal nel tempo
STANDARD APPLICATIONS | BATCH WORKFLOWS
Medooza 2.0 – Control node in HA
- Configurazione con n. 3 Control Nodes
- Rete storage CEPH su switch dedicati
- OpenStack si occupa del deploy As-a-Service della infrastruttura, tramite immagini preconfigurate
- Ideale per clienti HPC che richiedono flessibilità per adeguare l’infrastruttura ai cambiamenti
MISSION CRITICAL APPLICATIONS | INTERACTIVE WORKFLOWS
Caratteristiche tecniche
CARATTERISTICHE INFRASTRUTTURALI
GESTITA
HPC resource manager & scheduler configurati per ottenere la massima efficienza dal cluster e avere pieno controllo sull’esecuzione dei workload.
MONITORATA
Monitoraggio e Alerting centralizzato grazie a un unico e intuitivo punto di controllo che consente di verificare lo stato del cluster e ricevere avvisi in caso di anomalie.
STACK SOFTWARE
Lo stack software include i principali strumenti opensource per lo sviluppo e l’esecuzione di applicazioni ad alte prestazioni: compilatori, librerie scientifiche e numeriche, MPI, OpenMP.
COMPONENTI AGGIUNTIVE
Medooza può essere arricchita con una serie di funzionalità aggiuntive seguendo le esigenze specifiche di ogni.
LINEE GUIDA
Medooza può essere arricchita con una serie di funzionalità aggiuntive seguendo le esigenze specifiche di ogni progetto:
- Compilatori e librerie ottimizzati
- Alta affidabilità dei servizi HA
- File system parallelo e/o effimero
VERSIONI CONTROL NODE
BASE | ADVANCED [include BASE] | EXTENDED [include ADVANCED] |
SLURM | HPC resource manager & scheduler, per la massima efficienza dal cluster e il pieno controllo sull’esecuzione dei workloads | Stack software, che include i principali strumenti opensource: compilatori, librerie scientifiche e numeriche, MPI e OpenMP | HPC Workload extended configuration con accounting risorse usate e ottimizzazione dell’allocazione dei job per sfruttare a pieno di tutte le funzionalità offerte. Sistema di monitoraggio delle risorse e degli allarmi. |
IPA | Identity Manager, per la gestione degli utenti e gli accessi alle risorse | Ephemeral file system, per la gestione di workload ad uso intensivo di I/O di Scratch (BeeOnd) | Stack software extended che, in aggiunta alle componenti della versione Advanced, include librerie ottimizzate dai produttori hardware, ambienti di calcolo Python ed applicazioni di calcolo comunemente usate |
NFS | Shared Filesystem NFS, per la condivisione dei dati all’interno del cluster | | |
ZABBIX | Web UI centralizzata che permette di raccogliere, manipolare, analizzare e visualizzare i dati relativi al funzionamento dell’intera infrastruttura di calcolo |
Vantaggi architetturali
COMPLETAMENTE REALIZZATO IN OPEN SOURCE
Il cluster HPC di E4 è realizzato utilizzando tecnologie Open Source ampiamente validate dai nostri laboratori di ricerca e sviluppo e dall’utilizzo pluriennale delle nostre soluzioni con clienti sia in ambito accademico che aziendale.
BASATO SU BUILDING BLOCKS
Il design di Medooza si basa su building block hardware validati nei nostri laboratori, configurati e gestiti con strumenti interni sviluppati in opensource.
ARCHITETTURA SCALE OUT
L’architettura di tipo scale out di Medooza consente di rispondere in modo trasparente e nativo a esigenze crescenti.
FLESSIBILITÀ EFFETTIVA
E’ possibile aggiungere nuovi nodi di diversa tipologia grazie a una opportuna riconfigurazione dell’ambiente, senza dover adattare alcun aspetto dell’architettura di sistema.
Perchè scegliere la soluzione E4
UNICA
Gli ingegneri di E4 iniziano sempre da una fase iniziale di ascolto e acquisizione delle esigenze del cliente in termini di necessità specifiche, requisiti e aspettative, sulla base delle quali andranno a definire una soluzione espressamente progettata.
Questi sono i capisaldi dell’atteggiamento che manteniamo attraverso l’intero processo di progettazione della soluzione per ciascun cliente:
• ASCOLTO: comprendere le esigenze degli utenti finali
• ESPLORAZIONE: collaborare con gli ISV/partner specifici del dominio per ottimizzare ogni singolo aspetto
• SENZA VINCOLI: ricerca e selezione della migliore infrastruttura e dell’implementazione ideale per la soluzione
• VERSATILE: messa a disposizione di soluzioni on-premise e basate su cloud per la produzione, il test e la valutazione
VALIDATA
Tutti i sistemi che comporranno la soluzione, prima della configurazione, devono passare i check firmware, homogeneity, sanity e setup. Dopo di che vengono eseguite dei test di performances generali: HPL (High Performance Linpack) per la misura della potenza di calcolo della singola macchina in termini di FLOPs; STREAM per misurare la banda di accesso alla memoria espressa in MB/s; FIO per misurare la velocità di accesso ai dischi espressa in MB/s e IOPS. Dopo la messa in funzione della soluzione, sono eseguiti ulteriori test in accordo con il cliente per la verifica funzionale del sistema e il rispetto delle prestazioni dichiarate.
COLLAUDATA
I singoli componenti vengono collaudati tramite test di burn in sviluppati in E4 per un periodo fino a 120 ore per garantire un unico sistema perfettamente ingegnerizzato e funzionante abbattendo in questo modo sia il DoA (Dead on Arrival) che la “early failure rate” dei cluster HPC dopo il rilascio. Viene così ottenuto un significativo miglioramento dell’affidabilità complessiva della soluzione HPC marchiata E4.
SERVITA
E4 è fra le poche aziende che attualmente erogano servizi di altissimo livello in grandi infrastrutture sia accademiche che private oltre che in centri di ricerca internazionali di complessità e rilevanza nazionale e internazionale con i quali ha collaborato per la progettazione, configurazione e messa in esercizio di soluzioni con migliaia di nodi per elaborazioni complesse e altamente performanti.
Per questo E4 è in grado di fornire al cliente finale tutti i livelli di supporto e consulenza necessari a garantire il mantenimento dei propri sistemi di calcolo di qualunque ampiezza e complessità, in perfetto stato di efficienza:
• Level 1 & Level 2 Support, onsite service, 24/7 support
• Onsite specialists, infrastructure evolution, on-demand performance tuning
Moduli aggiuntivi | Nuove funzionalità in arrivo
Oltre alle funzionalità presenti nella configurazione base, Medooza può essere arricchito con una serie di funzionalità aggiuntive, alcune integrate nella soluzione ed altre disponibili on demand. Contattaci per le date di rilascio.
OPZIONI AGGIUNTIVE – ON DEMAND
- Slurm advanced: per accounting, billing, QoS, FairShare, etc.
- Backup: implementazione di soluzioni basate su FOG/Bacula
- Disaster recovery: implementazione di soluzioni basate su StorWare
- ICE4HPC: fornisce l’accesso web alle risorse di calcolo da utilizzare in modo interattivo solo tramite i servizi di gestione del carico di lavoro (Slurm), configurati per ottimizzare l’esperienza utente sia per gli utenti interattivi che per coloro che, dalla riga di comando, inviano i propri lavori alle code batch
Per saperne di più clicca qui
MODULI AGGIUNTIVI
CUBEVIEW
Interfaccia web mobile responsive single e multi-cluster centralizzata e adattiva per il management di un data center e dei suoi applicativi software.
TARDIS
Sistema di Storage on demand, un tool per la definizione e creazione automatizzata di ambienti storage (storage parallelo Beegfs, Storage ad oggetti, CEPH, gateway NFS to S3).
TALOS
Interfaccia CLI per la gestione centralizzata dei nodi del Cluster delle attività di configurazione, monitoraggio e diagnostica.
HIGH PERFORMANCE COMPUTING