Getty Images

Cómo calcular y reducir su tiempo medio de reparación

El tiempo medio de reparación (MTTR) es una métrica crítica para los profesionales de continuidad del negocio y recuperación ante desastres (BCDR). Aprende cómo calcular y reducir el MTTR con este consejo.

Los profesionales de continuidad del negocio y de recuperación ante desastres necesitan una forma de determinar cuánto tiempo tomará reparar ya sea un proceso empresarial, un sistema TI o un componente de hardware. MTTR es una métrica útil en la que pueden apoyarse.

El tiempo medio de reparación (MTTR, por sus siglas en inglés) es una métrica ampliamente utilizada que estima el tiempo promedio en que un sistema probablemente necesitará para ser reparado antes de poder reanudar su operación normal. También se le conoce, en algunas ocaciones, como tiempo medio de resolución, recuperación o respuesta.

Independientemente de cómo se le llame, mientras más bajo sea el valor del MTTR, más fácil será reparar el elemento. Al gestionar sistemas, tecnologías o procesos, el objetivo es reducir el tiempo promedio que algo necesitará para ser reparado. Si, por ejemplo, el MTTR de un sistema es 0, sus usuarios experimentarán mucho menos tiempo de inactividad que aquellos que utilizan un sistema con un valor positivo de MTTR.

Cuando el objetivo es una operación ininterrumpida, un valor bajo de MTTR significa que el elemento en cuestión –si falla– será relativamente fácil de reparar y requerirá un tiempo mínimo para volver a operar con normalidad. En este artículo, aprenderá cómo reducir el MTTR, por qué es importante mantener esta métrica baja y algunos consejos para calcularlo.

Cómo reducir el MTTR

Un MTTR más bajo significa que un sistema o proceso funciona bien, y esto es especialmente importante para los profesinales de continuidad del negocio y recuperación ante desastres (BCDR, por sus siglas en inglés)

Reducir el MTTR para elementos específicos comienza con establecer un MTTR de referencia que sirva como punto de partida. Los cálculos de MTTR posteriores, comparados con esta referencia, mostrarán a los equipos y a los administradores de BCDR si se ha logrado un progreso en el rendimiento de los sistemas y procesos.

Existen varias acciones que una organización puede tomar para reducir los valores de MTTR en operaciones críticas. A continuación, se presentan 10 formas de rastrear y reducir el MTTR:

  1. Construir y mantener un suministro de repuestos y componentes para el caso de que falle un componente de producción.
  2. Realizar pruebas periódicas y revisiones de rendimiento para asegurarse de que los sistemas funcionen correctamente.
  3. Llevar a cabo un análisis de impacto en el negocio para identificar qué sistemas y procesos son los más críticos, y calcular el MTTR para monitorear su desempeño.
  4. Incluir el MTTR, junto con otras métricas de rendimiento, como el objetivo de tiempo de recuperación (RTO) y el objetivo de punto de recuperación (RPO).
  5. Implementar un plan de respuesta ante incidentes optimizado que proteja los activos críticos y permita una respuesta rápida ante cualquier fallo.
  6. Establecer equipos especiales de respuesta rápida que atiendan interrupciones de sistemas y procesos, además del equipo de respuesta a incidentes.
  7. Instalar sistemas de monitoreo con sensores que puedan emitir alertas cuando los sistemas dejen de funcionar correctamente.
  8. Optimizar los recursos del servicio de asistencia técnica para simplificar el proceso de reporte, incluyendo la detección de problemas y la generación de tiquets.
  9. Capacitar completamente a los equipos de reparación de equipamiento y entrenar al personal para el caso en el que dichos equipos no estén disponibles.
  10. Actualizar el proceso de gestión de cambios de la organización para minimizar la posibilidad de errores.

¿Por qué es importante un MTTR bajo?

El MTTR es un elemento crítico en los planes de continuidad del negocio y recuperación ante desastres (BCDR), y puede convertirse en una métrica esencial para garantizar que los sistemas funcionen sin interrupciones.

Los activos con un MTTR bajo tienen menos probabilidades de fallar y, si lo hacen, su capacidad para recuperarse y reanudar las operaciones normales requerirá un tiempo mínimo. Por el contrario, si los equipos de BCDR descubren que un sistema tiene un MTTR alto, por ejemplo de cuatro a cinco dias, probablemente deberían considerar reemplazarlo.

Las actualizaciones y los componentes más nuevos son otras opciones para reducir el MTTR en un sistema existente. La administración deberá decidir en qué momento un MTTR alto justifica el reemplazo completo o el rediseño del elemento.

Cómo calcular el MTTR

El MTTR es un promedio obtenido a partir del análisis de varios elementos. Durante un período de tiempo específico –como un dia, una semana o un mes–, se suman los tiempos que tomó cada reparación realizada por el equipo de TI. Ese valor, generalmente expresado en horas, se divide entre el número de eventos de reparación no planificados o no programados ocurridos durante el período de análisis; es decir, todos los eventos que requirieron reparación y que no estaban previstos. Los períodos de mantenimiento programado no se incluyen en los cálculos de MTTR.

Utilice esta fórmula para determinar el MTTR.

En la práctica, los equipos de BCDR aplican este cálculo a una serie de eventos que requirieron reparación. Esto les proporciona el MTTR. A partir de ahí, es más fácil tener una idea de cuánto necesitan reducir el MTTR o si los sistemas actuales son suficientes.

Este ejemplo calcula el MTTR de cinco eventos disruptivos.

Aunque este cálculo parece relativamente sencillo, y los equipos de BCDR pueden configurarlo fácilmente en una hoja de cálculo, pueden surgir errores o fallas potenciales. Por ejemplo, la fórmula del MTTR asume que las tareas se realizan de forma secuencial por personal debidamente capacitado. Si se cambia el orden de las tareas, si varias tareas se ejecutan al mismo tiempo o si la persona que las realiza no está adecuadamente entrenada, el cálculo podría ser incorrecto.

MTTR vs. MTBF

El tiempo medio entre fallas (MTBF, por sus siglas en inglés) es a menudo utilizado junto con el MTTR. El MTBF es otra métrica importante del rendimiento y mantenimiento para los equipos de BCDR.

El MTTR se refiere al tiempo promedio necesario para reparar algo, mientras que el MTBF expresa el tiempo promedio entre ocurrencias o fallas en sistemas o procesos. Esta métrica indica la confiabilidad de un sistema o proceso.

Un valor alto de MTBF indica que es menos probable que el sistema o proceso falle, aunque aún podría experimentar interrupciones poco frecuentes. Si un sistema tiene un valor de MTBF de cinco a diez horas, por ejemplo, es mucho más probable que experimente tiempo de inactividad que un sistema cuyo MTBF sea de uno o dos años. Los profesionales de tecnología buscan alcanzar el valor de MTBF más alto posible, pero deben estar preparados para enfrentar fallas más frecuentes.

El MTBF determina la probabilidad de fallas, que pueden variar de alta a baja.

Tanto el MTTR como el MTBF ofrecen mediciones sobre el rendimiento y la confiabilidad de un sistema, proceso u otra actividad. Los valores de cada métrica, como se ha descrito, pueden indicar situaciones en las que se requiere tomar medidas correctivas.

Paul Kirvan, FBCI, CISA, es un consultor independiente y redactor técnico con más de 35 años de experiencia en continuidad del negocio, recuperación ante desastres, resiliencia, ciberseguridad, GRC, telecomunicaciones y redacción técnica.

Investigue más sobre DR y BC