drx - Fotolia

Cuatro estrategias de monitoreo integrado para mejorar las operaciones de TI

El experto en transformación digital, Isaac Sacolick, ofrece cuatro formas de construir una arquitectura de monitoreo integrada que realmente mejorará las operaciones de TI, no las retrasará.

¿Necesita su organización una estrategia de monitoreo integrado? Considere primero cómo su organización de TI realiza un seguimiento de la confiabilidad y el rendimiento de la red, los sistemas, las aplicaciones y otros elementos de infraestructura en su centro de datos y entornos de nube pública.

Es probable que existan muchas herramientas de monitoreo diferentes, y no integradas.

El arsenal probablemente incluye varias herramientas de monitoreo para alertar sobre el tiempo de actividad, el rendimiento y los incidentes. Cada herramienta proporciona una vista de los problemas subyacentes y entrega eventos, métricas, registros y diagnósticos dentro de un alcance operacional definido. Cada proveedor de nube pública también tiene sus propias herramientas nativas. También puede haber herramientas para monitorear el estado de la aplicación, diagnosticar cuellos de botella en la base de datos, mostrar el estado de las integraciones de datos o proporcionar información sobre el rendimiento de las API.

Además, es casi seguro que la colección está creciendo. Una encuesta de hace unos años sobre las herramientas de monitoreo del rendimiento de las aplicaciones descubrió que el 65% de las compañías poseían más de 10 productos de monitoreo comercial diferentes, el 50% o menos de ellos en uso activo. Con la migración a la nube y el desarrollo acelerado de aplicaciones impulsado por las prácticas de DevOps, ese número está aumentando. De hecho, otros proveedores informan que el cliente típico utiliza entre 30 y 50 herramientas de monitoreo únicas, con múltiples instancias de cada una implementada en una infraestructura en expansión.

El caso de una estrategia de monitoreo integrada

Para muchas organizaciones de TI, estas herramientas de monitoreo en silos, no integradas y no usadas, adquiridas a lo largo de muchos años, no solo utilizan recursos limitados, sino que también causan problemas de rendimiento:

  • La recuperación de incidentes complejos es difícil y toma mucho tiempo debido a la cantidad de personas involucradas y las herramientas utilizadas para diagnosticar la causa raíz. Las organizaciones de TI no pueden medir el tiempo promedio de recuperación (MTTR), o no es muy bueno. Solo lleva demasiado tiempo y requiere demasiada experiencia para diagnosticar problemas.
  • Es necesario cumplir con los indicadores clave de rendimiento sobre el estado de los sistemas de aplicaciones empresariales y las redes, pero es difícil llegar a un valor holístico que represente con precisión la experiencia del usuario final y el estado de los servicios y sistemas subyacentes.
  • El rendimiento de las aplicaciones que están creciendo en uso y volúmenes de datos se debe rastrear para ayudar a pronosticar cuándo es necesario ampliar la infraestructura o cuándo las aplicaciones necesitan actualizaciones para abordar las limitaciones de escalabilidad.
  • Las alertas de enrutamiento a las personas adecuadas se han vuelto más complejas ahora que existen múltiples herramientas de flujo de trabajo de TI y muchos sistemas que emiten alertas. Nadie quiere que las alertas activen cientos o miles de tickets de múltiples herramientas de monitoreo para un solo incidente.

Cuatro estrategias integradas de monitoreo

Las organizaciones que se ven obstaculizadas por demasiadas herramientas de monitoreo y necesitan desarrollar una estrategia de monitoreo integrada básicamente tienen cuatro opciones principales:

1. Un enfoque es reducir el número de herramientas de monitoreo. Una organización que conozco está estandarizada en una sola nube pública que utiliza las herramientas de monitoreo nativas de la nube para cubrir la infraestructura, y utiliza mucho Splunk para informar problemas de archivos de registro de aplicaciones y bases de datos.

  • Este enfoque funciona bien para organizaciones con arquitecturas estandarizadas, estándares de desarrollo de aplicaciones sólidos y requisitos de nivel de servicio menos exigentes. En otras palabras, no para muchas organizaciones. Es menos viable para organizaciones más grandes con entornos más heterogéneos, plataformas heredadas y arquitecturas de aplicaciones complejas.

2. Un segundo enfoque es desarrollar acercamientos de monitoreo directamente vinculados e integrados en la arquitectura de la aplicación. Un panel de control de monitoreo para datos de IoT que usa servicios sin servidor y administrados de AWS es un ejemplo de este enfoque.

  • Este enfoque funciona bien para arquitecturas recientemente desarrolladas donde los requisitos de monitoreo y nivel de servicio se pueden desarrollar desde cero. Es poco probable que sea viable para arquitecturas heredadas o un enfoque viable para empresas con múltiples arquitecturas informáticas.

3. Un tercer enfoque involucra a organizaciones más grandes con entornos más complejos que intentan desarrollar un sistema integrado de monitoreo propio. Esto se puede hacer agregando registros y datos de todas las herramientas de monitoreo en un almacén de datos central. Una vez que los datos están centralizados, se puede desarrollar un conjunto común de paneles de informes, análisis predictivos para pronosticar la capacidad y alertas más inteligentes basadas en entradas de múltiples herramientas de monitoreo. Si su organización ya tiene experiencia en bases de datos en la nube como el Servicio de Base de Datos Relacional de AWS, una herramienta de integración de datos como Talend, experiencia en modelado con Databricks y herramientas de visualización de datos como Tableau, entonces esta podría ser una opción atractiva.

  • Con un enfoque tan elegante como este, también se requiere mucho tiempo y es costoso desarrollarlo y respaldarlo.

4. Una última opción es considerar una plataforma de operaciones autónoma. Plataformas como BigPanda ofrecen integraciones listas para usar con herramientas de monitoreo, almacenamiento de datos y agregación de alertas. Junto con la inteligencia artificial y el aprendizaje automático, estas plataformas crean una arquitectura de supervisión virtual y unificada que permite la gestión inteligente de incidentes.

Crear valor empresarial con monitoreo integrado

La clave para impulsar el valor comercial no es seleccionar herramientas de monitoreo adicionales, sino utilizar la velocidad, los conocimientos y la colaboración que permite una arquitectura de monitoreo integrada o una plataforma de operaciones autónomas.

Un lugar al que los equipos de DevOps deberían dirigirse es usar el aprendizaje automático para impulsar mejoras en la respuesta a incidentes. Una vez que los datos están centralizados, se pueden usar algoritmos de aprendizaje automático para correlacionar alertas, simplificar diagnósticos y mejorar el MTTR a incidentes críticos.

Las estrategias de monitoreo integradas impulsarán la eficiencia. Una vez que los datos se agregan y las alertas se agrupan de manera inteligente a los incidentes, enviarlos a las personas adecuadas ayuda a liberar a otros que no necesitan participar en el diagnóstico o la resolución del incidente. Si un solo incidente dispara varios monitores, pero el sistema reconoce que una base de datos envió la primera alerta, el equipo de operaciones de datos puede ser el primer grupo, y posiblemente el único, alertado sobre este incidente. Esto funciona bien cuando una arquitectura de monitoreo integrada también se integra con herramientas de flujo de trabajo como Jira, ServiceNow, Slack u otras que se usan en la mayoría de las empresas hoy en día. Este enfoque también puede generar mejoras significativas en la experiencia del cliente cuando las comunicaciones sobre incidentes se comparten con los equipos de servicio al cliente.

Sobre el autor
Isaac Sacolick, presidente de StarCIO, es el autor de Driving Digital: The Leader's Guide to Business Transformation through Technology, que abarca muchas prácticas como lo ágil, DevOps y la ciencia de datos que son fundamentales para los programas de transformación digital exitosos. Sacolick es un reconocido CIO social, influenciador de la transformación digital, conferencista de la industria y bloguero en Social, Agile and Transformation.

Investigue más sobre Gestión de centros de datos

ComputerWeekly.com.br
Close