AI 및 머신 러닝 솔루션
컴퓨팅 파워를 데이터 대기 시간으로 낭비해서는 안 됩니다.
인공지능과 대규모 머신 러닝 분야에서 데이터는 연료입니다. PB급 원시 데이터를 컴퓨팅 센터로 통합하든, 학습된 모델 가중치를 엣지로 배포하든, FileBolt는 데이터 사일로를 연결하여 GPU 클러스터가 항상 풀 가동되도록 보장합니다.
1. 업계 과제: 데이터 중력 (Data Gravity)
거대 모델 학습에는 방대한 데이터셋이 필요합니다. 자율주행 주행 로그부터 유전체 서열 데이터까지, 데이터셋 규모는 페타바이트(PB) 수준에 도달했습니다. 이러한 데이터를 이동시키는 것은 종종 계산 자체보다 더 많은 시간이 소요되며 불확실성으로 가득 차 있습니다.
AI 팀이 직면한 전송 병목 현상:
- 데이터 센터 간 마이그레이션 어려움: 학습 클러스터는 전기료가 저렴한 원격 데이터 센터에 위치하는 반면, 데이터 수집 단말은 전 세계에 분산되어 있습니다. 지역을 넘어 대용량 데이터를 업로드할 때 대역폭 이용률이 매우 낮습니다.
- 높은 전송 중단 비용: 50TB 데이터셋 전송이 도중에 실패하고 이어받기 기능이 없다면, 며칠의 시간을 낭비하게 되고 고가인 GPU 리소스가 유휴 상태가 됩니다.
- 데이터 프라이버시 및 규정 준수: 얼굴, 음성, 의료 영상과 관련된 학습 데이터는 고도의 민감 정보에 속하며, 일반적인 전송 도구로는 GDPR 등 규정 준수 요건을 충족하기 어렵습니다.
2. 속도: 고성능 컴퓨팅 클러스터 충족
FileBolt는 UDP 기반의 하위 레벨 최적화를 채택하여 물리적 대역폭을 최대한 쥐어짜내며, 컴퓨팅 능력과 데이터의 초고속 매칭을 실현합니다:
- 전용선 대역폭 완벽 활용: 10Gbps 환경이든 100Gbps 환경이든, FileBolt의 멀티스레드 병렬 기술은 대역폭 이용률을 98% 이상으로 끌어올립니다.
- 초고속 모델 배포: 학습된 LLM(대규모 언어 모델) 가중치 파일을 전 세계 추론 노드에 배포할 때, 엣지 네트워크를 활용하여 초 단위 동기화를 실현하고 모델 출시 주기를 단축합니다.
3. 보안: 데이터 자산 보호
데이터는 AI 기업의 핵심 장벽입니다. 우리는 전 구간 암호화 및 통제를 제공하여 핵심 데이터셋과 모델 파라미터 유출을 방지합니다.
- 종단간 암호화: 데이터는 수집 단말을 떠나기 전에 암호화되며, 학습 서버에 도착해서야 해독됩니다. 중간 전송 노드는 데이터 내용을 엿볼 수 없습니다.
- 접근 감사: (엔터프라이즈 기능) 각 데이터셋에 대한 접근자 IP, 시간, 다운로드 양을 상세히 기록하여 데이터 유통 과정의 추적 가능성을 확보하고 규정 준수 감사에 대응합니다.
4. 경험: 데이터 과학자를 위한 설계
MLOps 흐름을 단순화하여 데이터 엔지니어가 파일 전송이 아닌 알고리즘 최적화에 집중할 수 있도록 합니다:
- 디렉토리 구조 전송 지원: 수백만 개의 주석 파일이나 작은 이미지가 포함된 폴더 구조를 직접 전송할 수 있으며, 시간이 오래 걸리는 압축 및 해제 과정이 불필요합니다.
- 자동화 통합: API를 통해 데이터 전송 작업을 트리거하여 데이터 클렌징, 전송부터 모델 학습까지의 자동화 루프를 실현합니다.