Gorodenkoff/stock.adobe.com

Plataformas de almacenamiento de IA satisfacen las necesidades de ML y análisis de datos

Conozca qué opciones de almacenamiento para productos de inteligencia artificial deberían considerar las organizaciones, en función de cómo se realizarán las tareas de aprendizaje automático y de IA y cómo se recopilan los datos en sus entornos.

Hay muchas rutas que una organización puede seguir al comprar una plataforma de almacenamiento de inteligencia artificial (IA). Pero un objetivo importante debe ser encontrar un producto que permita a la empresa recopilar datos de manera más efectiva y realizar tareas de aprendizaje automático (machine learning, ML) y de inteligencia artificial.

Algunos de los problemas clave involucrados en la evaluación y selección de productos de almacenamiento de datos de IAI incluyen los siguientes:

  • La plataforma de almacenamiento debe ofrecer alto rendimiento y escalabilidad, y administrar los costos de manera efectiva.
  • El rendimiento debe abarcar tanto el alto rendimiento como la baja latencia.
  • Producir buenos modelos de IA significa recopilar muchos terabytes o petabytes de datos, lo que puede ser costoso. Las organizaciones deben ser conscientes del costo general de administrar una plataforma de aprendizaje automático e IA.

En el aprendizaje profundo, donde los algoritmos de aprendizaje automático pueden operar sin supervisión, el perfil de entrada/salida (E/S) da como resultado un acceso altamente aleatorio, ya que las capas sucesivas de algoritmos de aprendizaje profundo procesan múltiples niveles de análisis de datos. El aprendizaje automático y el entrenamiento de IA generalmente se ejecutan en modo por lotes, donde los científicos de datos crean modelos de IA de aprendizaje automático, los prueban contra datos y refinan los modelos con el tiempo. Este enfoque requiere baja latencia para garantizar una ejecución rápida, ya que un tiempo de prueba de modelo más corto significa más iteraciones y un mejor modelo.

Por lo tanto, el producto de almacenamiento específico que elija una organización debe basarse en el tipo de trabajo que realiza y el aprendizaje automático y la capacitación en inteligencia artificial requeridos. En cualquier caso, la relación costo-rendimiento del almacenamiento presenta algunos compromisos.

Enfoque de múltiples niveles

El costo versus el rendimiento es una consideración clave al comprar cualquier producto de almacenamiento. Dada la opción, la mayoría de las empresas comprarán el almacenamiento más rápido posible. Sin embargo, el rendimiento tiene un precio y, por lo general, los sistemas de alto rendimiento no escalan en el rango de múltiples petabytes. Si agregamos el supuesto de que el conjunto de datos de trabajo que se analiza en cualquier momento será un subconjunto de los activos de datos generales, es fácil ver que el almacenamiento en niveles es una parte necesaria del diseño del aprendizaje automático y el almacenamiento de datos de IA.

¿Qué significa exactamente la división en niveles en el contexto del aprendizaje automático y la IA? Los productos de niveles tradicionales evolucionaron de agrupaciones de almacenamiento fijas a sistemas complejos que optimizaban la colocación de bloques de almacenamiento individuales, según la frecuencia de uso y las capacidades de agrupación disponibles. Pero este enfoque no funciona bien con el aprendizaje automático y los requisitos de IA debido a cómo se procesan los datos.

Los productos de niveles automatizados suponen que los datos pasan por un ciclo de vida de importancia para el negocio. Los nuevos datos son muy importantes y se accederá con frecuencia. Con el tiempo, el valor de los datos disminuye y se puede mover a un almacenamiento de menor costo y menor rendimiento.

Los datos utilizados para el aprendizaje automático y el análisis de inteligencia artificial son diferentes. Conjuntos de datos completos se activan y se utilizan para el análisis, y se requieren todos los datos en cualquier momento. Esto significa que los datos en uso deben ubicarse en un nivel de almacenamiento con un rendimiento constante, ya que cualquier variabilidad en el acceso afectará problemas como la capacitación del modelo.

La naturaleza aleatoria del procesamiento de datos en el aprendizaje automático y el desarrollo del modelo de IA significa que los algoritmos de la plataforma de almacenamiento reactivo que intentan reequilibrar dinámicamente los datos con el tiempo no funcionarán. Estos algoritmos suponen un conjunto de trabajo pequeño y relativamente estático que cambia gradualmente con el tiempo. En el aprendizaje automático y la IA, los perfiles de acceso a datos serán mucho más aleatorios, lo que dificultará la predicción de qué datos almacenar en caché y cómo dimensionar el caché o los niveles más rápidos.

Modelo de almacenamiento de dos niveles

Una forma obvia de implementar el almacenamiento para el aprendizaje automático y las cargas de trabajo de IA es simplemente usar un modelo de dos niveles. El nivel de rendimiento ofrece tanto rendimiento y la latencia más baja posible, mientras se dimensiona para el conjunto de datos máximo que se espera que el sistema procese.

El flash de alto rendimiento es costoso, y a medida que el mercado avanza hacia productos flash de capacidad como la celda de nivel triple y cuádruple, está surgiendo un nuevo mercado en el extremo de alto rendimiento, con productos flash de baja latencia como Samsung Z-NAND y Toshiba XL-Flash. Estos complementan los productos de memoria de clase de almacenamiento que se están desarrollando al ofrecer E/S de baja latencia. Vast Data, por ejemplo, utiliza tecnología de celda cuádruple de nivel e Intel Optane para ofrecer un almacén escalable de alto rendimiento para datos no estructurados, con soporte de API NFS y S3.

Estos productos de nivel 0 utilizan dispositivos NVMe para la conectividad, ya sea internamente o en una red de almacenamiento. NVMe optimiza la pila de E/S o el protocolo de E/S, en comparación con los antiguos SAS y SATA. El resultado es una menor latencia y un mayor rendimiento, pero también una mayor utilización de la plataforma, ya que los procesadores del servidor no esperan tanto tiempo para que se complete la E/S.

Productos como Pure Storage AIRI, IBM Spectrum Storage para AI y NetApp All Flash FAS A800 utilizan NVMe internamente para obtener el mayor rendimiento de medios posible. Dell EMC y DataDirect Networks utilizan productos de sistemas de archivos de escala horizontal de sus líneas de productos para admitir el aprendizaje automático y las arquitecturas de referencia de IA.

El nivel de capacidad debe almacenar de forma segura todos los datos del modelo de inteligencia artificial durante largos períodos de tiempo, generalmente meses o años. Como resultado, las plataformas escalables que ofrecen altos grados de durabilidad son esenciales para administrar los volúmenes de datos necesarios para el aprendizaje automático y la inteligencia artificial. El mercado de almacenamiento de objetos ha evolucionado para producir una gama de productos de almacenamiento de IA que son altamente escalables y duraderos.

¿Qué es exactamente la durabilidad?

En un sistema de almacenamiento típico, los datos se protegen mediante un esquema que genera redundancia en los datos almacenados en el disco. Si falla un componente individual, las copias adicionales de los datos se utilizan para recuperarse de la pérdida y reconstruir los datos una vez que se reemplazan los componentes con fallas. Aunque RAID 5 y RAIDs superiores brindan protección contra fallas en la unidad, se necesitan sistemas adicionales para proteger contra desastres a gran escala, tales como interrupciones del centro de datos. La durabilidad, o la mitigación de la pérdida de datos, es costosa de implementar a medida que los sistemas tradicionales escalan.

La codificación de borrado crea redundancia en los datos, de modo que la pérdida de unidades, servidores, o incluso centros de datos completos, no causa la pérdida de datos. La naturaleza dispersa de los datos codificados por borrado significa que los sistemas de almacenamiento se pueden construir para escalar múltiples petabytes con protección de datos local y geográfica, sin el gasto y la sobrecarga de administrar múltiples sistemas.

Los almacenes de objetos ofrecen escalabilidad y durabilidad para los datos que deben conservarse durante largos períodos, generalmente varios años. Sin embargo, para obtener el beneficio de costos, los productos de almacenamiento de objetos se crean con un almacenamiento económico basado en discos duros con cierta capacidad de almacenamiento en caché. Esto los hace menos adecuados para el procesamiento diario de aprendizaje automático y datos de IA, pero excelentes para la retención a largo plazo.

Un almacén de objetos geodispersados ​​también permite que los datos de múltiples ubicaciones y fuentes sean ingeridos y accedidos desde múltiples ubicaciones y fuentes. Esto puede ser valioso si, por ejemplo, el procesamiento de datos utiliza una combinación de infraestructura de nube local y pública. Geo-dispersal es una característica de la plataforma Scality Ring, que se integra con los productos Hewlett Packard Enterprise y WekaIO Inc. para crear una arquitectura de almacenamiento de dos niveles.

Arquitecturas de almacenamiento híbrido

El desafío para las empresas es cómo implementar una arquitectura híbrida que incluya almacenamiento altamente escalable y de alto rendimiento. Los sistemas de almacenamiento de objetos permiten a las organizaciones almacenar la mayoría de los datos, mientras que algunas ofertas utilizan nodos de rendimiento que almacenan datos activos en servidores con flash de alto rendimiento. La ventaja de este enfoque es que se pueden agregar nodos de capacidad o rendimiento a los productos para escalar en cualquier dirección. Cloudian, por ejemplo, ofrece dispositivos de hardware que proporcionan capacidades de escalabilidad o rendimiento.

Los sistemas que se crean a partir del almacenamiento de alto rendimiento deben estar diseñados para escalar todo el conjunto de datos que se procesa. En estos escenarios, los datos se mueven hacia y desde la plataforma de alto rendimiento, ya que se procesan múltiples conjuntos de datos de inteligencia artificial a lo largo del tiempo.

La arquitectura de almacenamiento debe ser capaz de proporcionar el ancho de banda de red requerido para mover datos hacia y desde el almacenamiento del producto de IA y cumplir con los requisitos de la plataforma de IA. Los productos, como las plataformas Nvidia DGX-1 y DGX-2, pueden consumir decenas de gigabytes de datos por segundo. Como resultado, para mantenerse al día, la conectividad entre el cómputo y el almacenamiento en productos de almacenamiento de datos de inteligencia artificial debe ser InfiniBand de baja latencia o Ethernet de 100 gigabits.

Almacenamiento definido por software para productos de IA

La creación de almacenamiento para el aprendizaje automático y la inteligencia artificial no tiene que significar la implementación de un dispositivo. Están disponibles nuevos productos de almacenamiento de IA de alto rendimiento que son esencialmente almacenamiento definido por software (SDS). Estos productos aprovechan el rendimiento de los nuevos medios, incluidos NVMe y, en algunos casos, memoria persistente o memoria de clase de almacenamiento.

Un beneficio de los productos SDS es su aplicabilidad a la nube pública, ya que pueden ser separados en instancias y escalados dinámicamente a través de la infraestructura de la nube pública. Este modelo de operación puede ser atractivo cuando no se conoce la cantidad de infraestructura o se requiere solo por cortos períodos de tiempo.

WekaIO ofrece su plataforma de almacenamiento escalable basada en software Matrix que se puede implementar en las instalaciones en servidores con unidades NVMe o en la nube pública de AWS con instancias Elastic Compute Cloud habilitadas para NVMe. Excelero NVMesh es otro producto SDS que escala el rendimiento linealmente a través de múltiples servidores y almacenamiento, y generalmente se combina con IBM Spectrum Scale para crear un sistema de archivos escalable.

Movilidad de datos

Combinar los niveles de capacidad y rendimiento en un solo producto requiere procesos manuales o automatizados para mover datos entre los niveles de rendimiento y capacidad, así como los metadatos para rastrear los datos con éxito a medida que se mueven. Algunos productos de almacenamiento de inteligencia artificial pueden integrarse directamente con el almacenamiento de objetos, lo que simplifica este proceso. La nube pública puede ser una opción poderosa para el aprendizaje automático y el desarrollo de IA, ya que los datos movidos entre los servicios internos de la nube no generan cargos de salida de almacenamiento. WekaIO Matrix, por ejemplo, puede replicar datos dentro y fuera de las instalaciones y archivarlos en el almacenamiento de objetos.

Poniéndolo todo junto

Las empresas que desean implementar el almacenamiento local para el aprendizaje automático y las cargas de trabajo de inteligencia artificial deben tener en cuenta la capacidad y el rendimiento. Para el nivel de rendimiento, pueden construir desde cero o implementar un producto empaquetado, infraestructura convergente efectiva para el aprendizaje automático. Con la opción de compilación, las empresas pueden implementar un dispositivo local o usar SDS. SDS permite a las organizaciones implementar el almacenamiento como una capa separada o construir una infraestructura hiperconvergente. Si los datos se retendrán en las instalaciones, la organización puede usar dispositivos o seguir la ruta definida por software para implementar un nivel de capacidad mediante el almacenamiento de objetos.

En cuanto a la nube pública, las organizaciones de TI pueden usar servicios nativos, como el almacenamiento de objetos y el almacenamiento en bloque. Los productos de almacenamiento de archivos aún tienen un largo camino por recorrer en términos de alcanzar las bajas latencias que necesitan las aplicaciones de inteligencia artificial y aprendizaje automático. En cambio, es probable que las organizaciones utilicen el almacenamiento en bloque, especialmente junto con los productos de almacenamiento SDS o de IA que agregan una capa de servicios de archivos a los recursos nativos de bloque.

Investigue más sobre Aplicaciones de negocios

ComputerWeekly.com.br
Close