Getty Images

Las 6 dimensiones de la calidad de los datos mejoran el rendimiento de los datos

La baja calidad de los datos puede conducir a errores costosos y a una toma de decisiones deficiente. Las seis dimensiones de la calidad de los datos garantizan que estos sean precisos, completos, consistentes, oportunos, válidos y únicos.

Niveles más altos de calidad de los datos generan mejores resultados, pero determinar dicha calidad representa un desafío para muchas organizaciones. Las seis dimensiones de la calidad de los datos proporcionan mediciones clave que identifican la calidad de un conjunto de datos.

Los datos de alta calidad pueden cumplir mejor su propósito específico, proporcionando mayor valor. Los datos de baja calidad pueden provocar problemas como el ingreso de información incorrecta de clientes en un sistema, pérdida de oportunidades de venta o sanciones regulatorias debido a informes de datos inexactos. Según Gartner, la baja calidad de los datos cuesta a las organizaciones un promedio de 12,9 millones de dólares anuales, ya que conduce a una toma de decisiones deficiente.

Las dimensiones de la calidad de los datos pueden medir qué tan buenos o malos son los datos. Una dimensión es una métrica que evalúa ciertas características de un dato. Por ejemplo, una dimensión puede medir cuán recientes son los datos, lo cual puede ayudar a determinar su relevancia para su uso en el análisis del comportamiento del cliente. Los datos de comportamiento del cliente de hace una década no serán tan reveladores ni precisos como los datos de hace un mes.

Las seis dimensiones de la calidad de los datos

No todas las dimensiones de los datos tienen el mismo peso, y sus características pueden variar en importancia dependiendo de los objetivos empresariales. Las seis dimensiones de la calidad de los datos son las métricas más comunes que muchas organizaciones utilizan. Es importante comprender cada dimensión, cómo medirla y por qué son valiosas.

1. Precisión

La precisión de los datos se refiere al grado en que la información es correcta. Cuanto mejor reflejen los valores de los datos la realidad, más correctos y útiles serán. La precisión es uno de los pilares más críticos de la calidad de los datos. Si los datos no son precisos, son funcionalmente inútiles.

En la práctica, datos precisos significan tener entradas correctas. Por ejemplo, un perfil de cliente con su nombre, número telefónico y otra información relevante debe ser correcto. Si su número tiene un dígito incorrecto, los datos son inexactos. Incluso errores mínimos pueden causar problemas, como no poder contactar a la persona adecuada.

Las inexactitudes pueden surgir por muchas razones. Durante la recolección de información, pueden deberse a errores humanos, como la escritura incorrecta de un nombre. El uso de conjuntos de datos de terceros conlleva el riesgo de información desactualizada.

Las organizaciones deben monitorear, auditar y verificar regularmente los datos para garantizar su precisión. Cuando sea posible, compare los datos con otra fuente confiable para verificar su exactitud. Revise y actualice regularmente los conjuntos de datos para corregir discrepancias y errores.

En industrias altamente reguladas, como las finanzas, la precisión de los datos es fundamental. Un solo dígito incorrecto –por ejemplo, un cero adicional en un monto de pago– puede causar pérdidas financieras, riesgos de seguridad e incluso sanciones regulatorias. Las auditorías son comunes para monitorear errores inexactos.

2. Integridad

La integridad de los datos se refiere a tener toda la información necesaria. Cuantos más datos haya en un conjunto, mejores serán las decisiones, ya que incorporan más variables. La integridad no significa necesariamente que todos los campos estén completos, sino que se cuenten con los elementos requeridos para un propósito específico.

Por ejemplo, en un formulario de compra, los datos obligatorios serían la información de pago y la dirección de envío; y los opcionales, el nombre de la empresa. Sin dirección de envío, el cliente no recibiría el producto. Sin embargo, sí podría recibirlo sin el nombre de la empresa.

Trabajar con conjuntos de datos incompletos o con datos críticos faltantes puede llevar a análisis inexactos y errores que hacen perder tiempo y dinero. Un conjunto de datos integral puede ofrecer una imagen más amplia y precisa de la realidad. Comparta los datos en toda la organización para mantener la coherencia en los registros.

Para garantizar la integridad de los datos, establezca campos obligatorios al recolectarlos, de modo que no se pueda enviar información sin ingresar ciertos datos. Las revisiones y auditorías periódicas pueden identificar información faltante. Las verificaciones de integridad aseguran que los datos estén completamente representados.

En Ventas y Marketing, la integridad puede garantizar que los perfiles de clientes sean completos, lo que podría mejorar la efectividad del contacto, hacer que los mensajes tengan mayor resonancia y facilitar el fortalecimiento de las relaciones.

3. Coherencia

La coherencia de los datos se refiere al grado en que la información es uniforme entre formatos, conjuntos de datos y sistemas. Cuando las taxonomías de datos están alineadas en toda la organización, independientemente de la fuente, los usuarios no tienen que preocuparse por etiquetas, y pueden basar sus decisiones en información fiable.

Por ejemplo, un cliente introduce su nombre formal en una factura, pero utiliza un apodo al hablar con un vendedor. El vendedor luego ingresa ese nombre en la plataforma CRM. Si los nombres no coinciden, los datos son incoherentes, lo que puede generar dudas sobre cuál es la información correcta.

El formato puede causar incoherencias, como usar un formato mes/día/año en un sistema y día/mes/año en otro. Esta diferencia podría hacer que un cliente reciba su pedido en una fecha incorrecta debido a que el formato era distinto entre el sistema de pedidos y el de cumplimiento.

Otro aspecto de la coherencia son los valores de los datos. Estos deben mantenerse dentro de ciertos rangos para identificar incoherencias. Por ejemplo, un empleado recibe $1,000 semanales, pero una semana se le pagan $10,000. Un sistema diseñado para detectar anomalías puede identificar ese error de inmediato.

Para garantizar la coherencia, introduzca estándares para la entrada de datos, compare los datos almacenados en distintos sistemas y sincronícelos regularmente. Las herramientas de observabilidad de datos y los procesos de limpieza pueden proporcionar transparencia en la rotulación, identificar contradicciones y revelar incoherencias.

4. Puntualidad

La puntualidad de los datos se refiere a la actualidad de la información y su disponibilidad para su uso. Los datos actualizados tienden a ser más precisos y están disponibles de inmediato para tomar decisiones más rápidas.

Un método común para medir la puntualidad compara el momento en que se espera la información con el momento en que realmente llega. Reducir esa diferencia es clave para aumentar el valor y la calidad de los datos. La información obsoleta no es tan precisa ni útil como la que se entrega en tiempo real. El acceso inmediato permite actuar más pronto, lo cual puede ser fundamental en ciertas industrias y situaciones.

Por ejemplo, en la cadena de suministro global, los eventos climáticos extremos pueden ocurrir de forma repentina e inesperada, afectando gravemente el transporte y causando retrasos. Si los equipos logísticos reciben actualizaciones meteorológicas en tiempo real, pueden tomar decisiones para evitar demoras.

Para asegurar la puntualidad, use herramientas que simplifiquen la entrada de datos, mejoren la velocidad de recolección y entrega, minimicen la latencia y actualicen automáticamente los datos según parámetros temporales. Según la industria y los objetivos organizacionales, la importancia de la puntualidad puede variar. Evalúe su efectividad con base en las expectativas de la organización.

5. Validez

La validez de los datos identifica si estos cumplen con su sintaxis definida. La sintaxis se refiere al tipo, formato, rango u otro parámetro aplicado a un dato. Por ejemplo, un dato podría representar la hora del día en formato de reloj de 12 horas. La validez evaluaría si el dato cumple con dicha sintaxis. Una hora ingresada como “11:02 PM” es válida, pero “23:02” no lo es, ya que utiliza el formato de 24 horas.

La coherencia es similar en el sentido de que puede establecer un rango habitual para que los datos se mantengan dentro de él, e identificar anomalías. Sin embargo, la validez se enfoca más en establecer límites estrictos: los datos son válidos o no lo son.

Los datos deben ser válidos. Si no lo son, no pueden utilizarse. Más que cualquier otra dimensión, la validez está directamente relacionada con la calidad de los datos. Si los datos no son válidos, no tienen valor. Un conjunto de datos que no posee un 100 % de validez aún puede tener usos, pero la organización debe establecer niveles de validez aceptables.

Para garantizar altos niveles de validez, establezca todas las reglas de validación desde el nivel superior para que el ingreso de datos deba cumplir con ellas. Las reglas de validación pueden fijar un rango mínimo y máximo para los datos, establecer valores permitidos e identificar formatos aceptables.

Las herramientas de depuración de datos pueden identificar datos que no son válidos. Resolver problemas con datos no válidos puede requerir trabajo manual, aunque para errores simples podrían existir opciones automatizadas.

6. Unicidad

La unicidad de los datos significa que estos solo aparecen una vez; la información es única. Cada instancia de datos debe tener un solo registro. Más de una instancia implica que los datos fueron duplicados por error o que los conjuntos de datos se superponen. Los datos duplicados reducen la precisión de los análisis y distorsionan las estadísticas.

Por ejemplo, una clínica crea un expediente para un paciente, y cuando este necesita actualizar su información un año después, el personal crea un nuevo expediente en lugar de actualizar el existente. El médico podría consultar el archivo desactualizado y basarse en información antigua. Un estudio de resultados podría contar al paciente dos veces, distorsionando los hallazgos.

Un alto nivel de unicidad genera confianza en el valor de los datos. También puede ser un indicio de que los datos están organizados, bien estructurados y son confiables.

Para garantizar la unicidad de los datos, compare regularmente los conjuntos de datos o los datos almacenados en diferentes ubicaciones para identificar y eliminar duplicados. Las herramientas de deduplicación pueden fusionar registros duplicados y mantener la unicidad. Solo debe guardarse la información más actualizada y relevante.

Cuanto mayor sea el conjunto de datos, mayor será la probabilidad de duplicados. Las herramientas de coincidencia de datos pueden aplicar un enfoque basado en reglas para eliminar duplicados, mejorando la unicidad y la calidad general de los datos.

Dimensiones adicionales

Existen otras dimensiones de la calidad de los datos más allá de las seis principales. Una organización puede crear sus propias dimensiones para cumplir con sus objetivos específicos. Algunas dimensiones adicionales pueden incluir las siguientes:

  • Representatividad. ¿Qué tan bien reflejan los datos la realidad?
  • Transparencia. ¿Qué tan fácil es rastrear los datos hasta su fuente y propósito original?
  • Flexibilidad. ¿Pueden los datos reutilizarse o adaptarse para otros objetivos?
  • Auditabilidad. ¿Qué tan sencillo es revisar el historial de los datos y rastrear los cambios a lo largo del tiempo?
  • Integridad. ¿Qué tan bien organizados están los datos y qué tan bien se conectan entre sí los distintos conjuntos de datos?

Lograr datos perfectos es una meta casi imposible. A menudo, se trata de priorizar las dimensiones que se ajusten a los objetivos organizacionales específicos o a los indicadores clave de rendimiento. Por ejemplo, una institución de salud podría priorizar la precisión y la coherencia por motivos de seguridad y cumplimiento normativo, mientras que una organización de ventas podría dar prioridad a la unicidad y la puntualidad para aprovechar al máximo las tendencias actuales de los clientes.

Para decidir qué dimensiones priorizar, los líderes de toda la organización deben identificar los objetivos más críticos y alinear las necesidades de calidad de los datos en consecuencia.

Jacob Roundy es un escritor y editor independiente especializado en diversos temas tecnológicos, incluidos los centros de datos y la sostenibilidad.

Investigue más sobre Big data y gestión de la información