Los primeros usuarios de DataOps se inspiraron en los principios de DevOps para ayudar a los científicos de datos a crear rápidamente valor comercial a partir de big data; a medida que las aplicaciones de IA generativa se generalizan, esa interacción entre disciplinas de TI está cerrando el círculo.

Al igual que con el desarrollo de software ágil y los métodos DevOps, las operaciones de datos buscaban derribar las barreras organizacionales y fomentar la colaboración entre las partes interesadas del negocio y los equipos de TI. Por lo tanto, ya se ha producido cierto intercambio de técnicas entre disciplinas. Los ingenieros de DevOps y de plataforma llevan años aplicando métodos desarrollados por profesionales de DataOps y operaciones de aprendizaje automático (MLOps) a los flujos de trabajo de AIOps y de observabilidad.

Pero ahora, la IA generativa está impulsando el análisis basado en datos cada vez más hacia el uso general de los usuarios comerciales, colocando la gestión y la gobernanza de datos al frente de las preocupaciones de las operaciones de TI empresariales.

La adopción de IA, incluyendo IAGen, se citó como el principal impulsor del aumento del uso de datos corporativos en un reciente estudio de mercado. De los 318 participantes en una encuesta realizada en junio de 2024 por el Grupo de Estrategia Empresarial de Informa TechTarget, el 56 % consideró la IA como la principal razón para tener más usuarios de datos corporativos en sus organizaciones.

La adopción de IA también genera un mayor escrutinio de la gobernanza y la seguridad, preocupaciones fundamentales para los principios de DataOps: el 83 % de los encuestados añadió nuevas funciones de gobernanza de datos o amplió las existentes –o ambos– durante el último año gracias a la IA.

Como ya han descubierto los primeros en adoptar AIOps y las herramientas de automatización de IA, la calidad y la integridad de los datos pueden ser clave para el éxito o el fracaso de estas iniciativas: el 70 % de los encuestados las clasificaron como de alta o muy alta prioridad para los proyectos de IA. La mayoría de los encuestados (el 51 %) indicó que aún no confía plenamente o desconfía ligeramente de la precisión de los datos utilizados en la toma de decisiones.

Secuencias de datos de IAGen vs. Secuencias de datos de ML

Para una empresa con experiencia en DataOps y MLOps, IAGen ha sido una nueva bestia en lo que respecta a la gestión de la calidad de los datos y la arquitectura de la canalización de datos.

"Prácticamente cualquier modelo interesante [de lenguaje extenso] no se entrenará únicamente con un flujo de datos", afirmó Stephen Manley, director de tecnología de Druva, empresa que comercializa una plataforma SaaS de resiliencia de datos. "Se implementarán múltiples flujos, lo que requiere, en mi opinión, un rigor mucho mayor que el que hemos aplicado en el ámbito del aprendizaje automático, donde solía tratarse de un conjunto más pequeño de datos de mayor intensidad".

Por ejemplo, el flujo de trabajo de aprendizaje automático (ML) de Druva procesa 100.000 millones de operaciones por hora, pero esa cantidad de datos no sería adecuada para los modelos de IAGen, afirmó Manley. Los datos de ML suelen utilizarse para detectar anomalías en una serie de eventos bien definidos; el entrenamiento de los grandes modelos de lenguaje que sustentan el asistente de IA Dru de Druva requirió el ajuste preciso de tres flujos de datos diferentes, con tasas de cambio generalmente más bajas para garantizar la consistencia.

Un flujo de datos de LLM consiste en la documentación de Druva; otro, en información sobre el marco de respuesta a incidentes de Mitre ATT&CK , que cambia con poca frecuencia. El tercer flujo de datos, actualizado con mayor frecuencia, contiene información de clientes utilizada para personalizar las respuestas de IA para cada cliente.

La integración de datos de clientes coloca a IAGen en Druva en una posición diferente a las aplicaciones anteriores de big data y ML, dijo Manley.

“En cuanto al aprendizaje automático, procesábamos metadatos internos, por lo que todo estaba sujeto a nuestra necesidad estándar de seguridad, pero todo era interno y nunca se veía externamente”, explicó. “Dado que la aplicación de IAGen se ve externamente, se necesita un flujo de trabajo de DataOps riguroso en cuanto a privacidad y seguridad”.

Para solucionar esto, los ingenieros de Druva integraron las secuencias de datos de IAGen en la infraestructura principal de seguridad informática de la empresa para funciones como el control de acceso basado en roles y la autenticación. La creación de la secuencia de datos de IAGen también presentó desafíos de escalabilidad, ya que Druva debe soportar 6.000 canales lógicamente separados –uno para cada cliente– dentro de este flujo de datos en constante evolución.

"DataOps y DevOps están separados… pero hay superposiciones. No es que no puedan aprender el uno del otro", dijo Manley. "Así que lo que aprendimos en DevOps es a contenerizarlo todo, a hacerlo prácticamente efímero. Lo vimos de la misma manera en nuestro flujo de datos, así que no estoy implementando infraestructura persistente, porque eso nos arruinaría si intentáramos hacerlo para 6.000 clientes".

Manley predijo que la profundización de las relaciones entre DevOps y DataOps continuará, ya que los datos generados por IA de los LLM de la empresa podrían reincorporarse a los sistemas de análisis y aprendizaje automático para probar los flujos de trabajo de datos. Los flujos de trabajo y los flujos de trabajo de IAGen también se volverán más complejos a medida que Dru actúe sobre los sistemas de los clientes en lugar de generar recomendaciones pasivas.