AI および機械学習ソリューション
コンピューティング能力は、データを待ってアイドル状態にすべきではありません。
AI や大規模な機械学習では、データが燃料となります。 PB スケールの生データをコンピューティング センターに集約する場合でも、トレーニングされたモデルの重みをエッジに配布する場合でも、 FileBolt はデータ サイロを橋渡しし、GPU クラスターがフルキャパシティで実行されるようにします。
1. 課題: データグラビティ
大規模なモデルのトレーニングには大規模なデータセットが必要です。自動運転ログからゲノム配列決定まで、データセットはペタバイト規模に達しています。 このデータの移動は、多くの場合、計算自体よりも時間がかかり、不確実性が高くなります。
AI チームは転送の大きなボトルネックに直面しています。
- DC 間移行の問題: トレーニング クラスターは多くの場合、電力コストの低い遠隔地のデータ センターにありますが、データ収集はグローバルに行われます。リージョン間で大量のデータをアップロードすると、帯域幅の使用率が低下します。
- 中断による高額なコスト: 再開機能がないと 50 TB データセットの転送が途中で失敗すると、数日の時間が無駄になり、高価な GPU リソースがアイドル状態のままになります。
- プライバシーとコンプライアンス: 顔、音声、または医療画像を含むトレーニング データは非常に機密性が高くなります。標準ツールは、GDPR などのコンプライアンス要件を満たしていないことがよくあります。
2. 速度: 高性能クラスターのフィード
FileBolt は UDP ベースの最適化を使用して物理帯域幅の使用量を最大化し、計算速度とデータ速度を一致させます。
- 専用線の飽和: 10Gbps ネットワークでも 100Gbps ネットワークでも、FileBolt のマルチスレッド同時実行により、帯域幅使用率が 98% 以上に向上します。
- 迅速なモデル配布: エッジ ネットワークを使用して、トレーニングされた LLM 重みをグローバル推論ノードに即座に配布し、モデルのデプロイ サイクルを短縮します。
3. セキュリティ: データ資産の保護
AI企業の中核となるのはデータです。フルリンクの暗号化と制御を提供して、コア データセットとモデル パラメーターの漏洩を防ぎます。
- エンドツーエンドの暗号化: データは収集ポイントから送信される前に暗号化され、トレーニング サーバーに到着したときにのみ復号化されます。トランジットノードはコンテンツを覗くことはできません。
- アクセス監査: (エンタープライズ機能) すべてのデータセット アクセスの IP、タイムスタンプ、ダウンロード ボリュームの詳細なログにより、トレーサビリティを確保し、コンプライアンス監査に対応します。
4. エクスペリエンス: データ サイエンティスト向けに設計
MLOps を簡素化し、データ エンジニアがファイル転送ではなくアルゴリズムに集中できるようにします。
- ディレクトリ構造のサポート: 時間のかかる圧縮や解凍を行わずに、何百万もの注釈ファイルや小さな画像を含むフォルダー構造を直接転送します。
- 自動化された統合: API 経由で転送タスクをトリガーし、データ クリーニングからモデル トレーニングへの転送までの閉ループを実現します。