Soluciones de inteligencia artificial y aprendizaje automático
La potencia informática no debería quedarse inactiva esperando datos.
En la IA y el aprendizaje automático a gran escala, los datos son combustible. Ya sea agregando datos sin procesar a escala PB a centros de cómputo o distribuyendo pesos de modelos entrenados al borde, FileBolt une los silos de datos y garantiza que los clústeres de GPU funcionen a plena capacidad.
1. El desafío: la gravedad de los datos
El entrenamiento de modelos grandes requiere conjuntos de datos masivos. Desde registros de conducción autónoma hasta secuenciación genómica, los conjuntos de datos han alcanzado la escala de petabytes. Mover estos datos suele ser más lento e incierto que el cálculo mismo.
Los equipos de IA se enfrentan a importantes obstáculos en las transferencias:
- Problemas de migración entre DC: Los grupos de capacitación suelen estar en centros de datos remotos con bajos costos de energía, mientras que la recopilación de datos es global. La carga masiva de datos entre regiones se ve afectada por una baja utilización del ancho de banda.
- Alto costo de interrupción: Si una transferencia de un conjunto de datos de 50 TB falla a mitad de camino sin capacidad de reanudación, se pierden días de tiempo y se dejan inactivos costosos recursos de GPU.
- Privacidad y cumplimiento: Los datos de entrenamiento que involucran rostros, voces o imágenes médicas son muy sensibles. Las herramientas estándar a menudo no cumplen con los requisitos de cumplimiento como el RGPD.
2. Velocidad: alimentar clústeres de alto rendimiento
FileBolt utiliza optimización basada en UDP para maximizar el uso del ancho de banda físico, haciendo coincidir la velocidad de procesamiento con la velocidad de datos:
- Saturar Líneas Arrendadas: Ya sea en redes de 10 Gbps o 100 Gbps, la concurrencia multiproceso de FileBolt eleva la utilización del ancho de banda a más del 98 %.
- Distribución rápida del modelo: Distribuya pesos LLM entrenados a nodos de inferencia globales instantáneamente utilizando redes perimetrales, acortando el ciclo de implementación del modelo.
3. Seguridad: salvaguardar los activos de datos
Los datos son el foso central de las empresas de IA. Proporcionamos cifrado y control de enlace completo para evitar fugas de conjuntos de datos centrales y parámetros de modelos.
- Cifrado de extremo a extremo: Los datos se cifran antes de abandonar el punto de recopilación y se descifran solo al llegar al servidor de capacitación. Los nodos de tránsito no pueden ver el contenido.
- Auditoría de acceso: (Función empresarial) Registros detallados de IP, marcas de tiempo y volúmenes de descarga para cada acceso a conjuntos de datos, lo que garantiza la trazabilidad y cumple con las auditorías de cumplimiento.
4. Experiencia: diseñada para científicos de datos
Simplifique MLOps, permitiendo a los ingenieros de datos centrarse en algoritmos en lugar de en la transferencia de archivos:
- Soporte de estructura de directorio: Transfiera directamente estructuras de carpetas que contengan millones de archivos de anotaciones e imágenes pequeñas sin tener que comprimirlas y descomprimirlas, lo que requiere mucho tiempo.
- Integración automatizada: Active tareas de transferencia a través de API para lograr un ciclo cerrado desde la limpieza y transferencia de datos hasta el entrenamiento del modelo.