AI 및 머신러닝 솔루션

컴퓨팅 성능은 데이터를 기다리며 유휴 상태로 있어서는 안 됩니다.
AI와 대규모 머신러닝에서는 데이터가 연료입니다. PB 규모의 원시 데이터를 컴퓨팅 센터에 집계하든, 훈련된 모델 가중치를 엣지에 배포하든, FileBolt는 데이터 사일로를 연결하여 GPU 클러스터가 최대 용량으로 실행되도록 합니다.

1. 과제: 데이터 중력

대규모 모델 교육에는 대규모 데이터세트가 필요합니다. 자율 주행 로그부터 게놈 시퀀싱까지 데이터 세트가 페타바이트 규모에 도달했습니다. 이 데이터를 이동하는 것은 계산 자체보다 느리고 불확실한 경우가 많습니다.

AI 팀은 다음과 같은 주요 전송 병목 현상에 직면해 있습니다.

DC 간 마이그레이션 문제: 교육 클러스터는 전력 비용이 낮은 원격 데이터 센터에 있는 경우가 많으며 데이터 수집은 전역적입니다. 여러 지역에 걸쳐 대규모 데이터를 업로드하면 대역폭 활용도가 낮아집니다.
높은 중단 비용: 50TB 데이터 세트 전송이 재개 기능 없이 중간에 실패하면 며칠의 시간이 낭비되고 값비싼 GPU 리소스가 유휴 상태가 됩니다.
개인정보 보호 및 규정 준수: 얼굴, 음성, 의료 영상과 관련된 훈련 데이터는 매우 민감합니다. 표준 도구는 GDPR과 같은 규정 준수 요구 사항을 충족하지 못하는 경우가 많습니다.

2. 속도: 고성능 클러스터 공급

FileBolt는 UDP 기반 최적화를 사용하여 물리적 대역폭 사용량을 최대화하고 컴퓨팅 속도와 데이터 속도를 일치시킵니다.

전용 회선 포화: 10Gbps 또는 100Gbps 네트워크에서 FileBolt의 다중 스레드 동시성은 대역폭 활용도를 98% 이상으로 높입니다.
신속한 모델 배포: 에지 네트워크를 사용하여 학습된 LLM 가중치를 전역 추론 노드에 즉시 배포하여 모델 배포 주기를 단축합니다.

3. 보안: 데이터 자산 보호

데이터는 AI 기업의 핵심 해자이다. 핵심 데이터세트와 모델 매개변수의 유출을 방지하기 위해 풀링크 암호화 및 제어 기능을 제공합니다.

종단 간 암호화: 데이터는 수집 지점을 떠나기 전에 암호화되고 훈련 서버에 도달한 후에만 해독됩니다. 대중교통 노드는 콘텐츠를 엿볼 수 없습니다.
액세스 감사: (엔터프라이즈 기능) 모든 데이터 세트 액세스에 대한 IP, 타임스탬프 및 다운로드 볼륨에 대한 자세한 로그를 제공하여 추적성을 보장하고 규정 준수 감사를 충족합니다.

4. 경험: 데이터 과학자를 위해 설계됨

MLOps를 단순화하여 데이터 엔지니어가 파일 전송이 아닌 알고리즘에 집중할 수 있도록 합니다.

디렉토리 구조 지원: 시간이 많이 걸리는 압축 및 압축 해제 없이 수백만 개의 주석 파일과 작은 이미지가 포함된 폴더 구조를 직접 전송할 수 있습니다.
자동화된 통합: API를 통해 전송 작업을 트리거하여 데이터 정리부터 모델 훈련까지의 폐쇄 루프를 달성합니다.