Soluzioni di intelligenza artificiale e apprendimento automatico

La potenza di elaborazione non dovrebbe rimanere inattiva in attesa dei dati.
Nell’intelligenza artificiale e nell’apprendimento automatico su larga scala, i dati sono il carburante. Sia che si tratti di aggregare dati grezzi su scala PB ai centri di calcolo o di distribuire pesi di modelli addestrati all'edge, FileBolt collega i silos di dati, garantendo che i cluster GPU funzionino alla massima capacità.

1. La sfida: la gravità dei dati

L'addestramento di modelli di grandi dimensioni richiede set di dati enormi. Dai registri di guida autonoma al sequenziamento genomico, i set di dati hanno raggiunto la scala del petabyte. Lo spostamento di questi dati è spesso più lento e più incerto del calcolo stesso.

I team AI si trovano ad affrontare importanti colli di bottiglia nei trasferimenti:

Problemi di migrazione tra DC: I cluster di formazione si trovano spesso in data center remoti con bassi costi energetici, mentre la raccolta dei dati è globale. Il caricamento di grandi quantità di dati tra regioni soffre di un basso utilizzo della larghezza di banda.
Elevato costo di interruzione: Se il trasferimento di un set di dati da 50 TB fallisce a metà senza la possibilità di ripristino, si sprecano giorni di tempo e si lasciano inattive costose risorse GPU.
Privacy e conformità: I dati di addestramento che coinvolgono volti, voce o immagini mediche sono altamente sensibili. Gli strumenti standard spesso non riescono a soddisfare i requisiti di conformità come il GDPR.

2. Velocità: alimentare cluster ad alte prestazioni

FileBolt utilizza l'ottimizzazione basata su UDP per massimizzare l'utilizzo della larghezza di banda fisica, abbinando la velocità di elaborazione alla velocità dei dati:

Linee affittate saturate: Sia su reti da 10 Gbps che da 100 Gbps, la concorrenza multi-thread di FileBolt aumenta l'utilizzo della larghezza di banda a oltre il 98%.
Distribuzione rapida dei modelli: Distribuisci istantaneamente i pesi LLM addestrati ai nodi di inferenza globale utilizzando le reti edge, abbreviando il ciclo di distribuzione del modello.

3. Sicurezza: salvaguardia del patrimonio di dati

I dati sono il nucleo centrale delle aziende di intelligenza artificiale. Forniamo crittografia e controllo full-link per prevenire fughe di dati fondamentali e parametri del modello.

Crittografia end-to-end: I dati vengono crittografati prima di lasciare il punto di raccolta e decrittografati solo quando raggiungono il server di addestramento. I nodi di transito non possono sbirciare il contenuto.
Controllo degli accessi: (Funzione Enterprise) Registri dettagliati di IP, timestamp e volumi di download per ogni accesso al set di dati, garantendo la tracciabilità e rispettando i controlli di conformità.

4. Esperienza: progettata per i data scientist

Semplifica MLOps, consentendo agli ingegneri dei dati di concentrarsi sugli algoritmi anziché sul trasferimento di file:

Supporto per la struttura delle directory: Trasferisci direttamente strutture di cartelle contenenti milioni di file di annotazioni e piccole immagini senza dover zippare e decomprimere, dispendiosamente in termini di tempo.
Integrazione automatizzata: Attiva attività di trasferimento tramite API per ottenere un ciclo chiuso dalla pulizia e trasferimento dei dati all'addestramento del modello.