Sergey Nivens - Fotolia

Modelado predictivo exitoso requiere conjuntos correctos de datos para analizar

Las aplicaciones de análisis predictivo pueden salirse del camino rápidamente si los científicos de los datos y otros analistas no toman buenas decisiones sobre los conjuntos de datos que están buscando para minar y analizar.

Una de las actividades principales en el proceso de maduración de la ciencia de datos es el uso de la minería de datos y los algoritmos de aprendizaje automático para desarrollar modelos predictivos que apuntan a pronosticar el comportamiento del cliente y otros eventos futuros. Pero incluso los modelos mejor diseñados pueden desviarse si no alimenta en ellos, de antemano, los conjuntos adecuados de datos para la minería de datos.

Un modelo predictivo se basa esencialmente en un conjunto de variables predictoras cuyos valores se espera que influyan en las actividades futuras. El modelado meteorológico es un ejemplo común. Los valores históricos de un conjunto de variables relacionadas con los factores ambientales se analizan para ver qué combinaciones precedieron a determinados tipos de fenómenos meteorológicos como huracanes, tormentas de nieve o días soleados. A continuación, los modelos analíticos se ejecutan contra los datos sobre las condiciones actuales para generar pronósticos.

Los modelos predictivos también se utilizan en muchas aplicaciones empresariales diferentes. Los bancos dependen de modelos que incluyen edad, estado civil, lugar de residencia, historial de crédito y otras variables para evaluar los riesgos asociados con las solicitudes de hipoteca por parte de los clientes potenciales.

Las empresas de servicios financieros, las compañías de telecomunicaciones y otros negocios manejan modelos con datos sobre cosas tales como los patrones históricos de compra y las interacciones de los centros de llamadas para predecir cuándo los clientes podrían estar cerca de cerrar sus cuentas. Los minoristas en línea analizan las compras anteriores y los datos actuales de flujo de clics para recomendar productos y predecir la probabilidad de que los clientes completen las compras para que puedan hacer ofertas promocionales, si es necesario. Y esos son solo algunos ejemplos.

Los modelos predictivos obtienen cierta supervisión

Los modelos predictivos a menudo se desarrollan utilizando un proceso llamado "aprendizaje supervisado", en el que se selecciona un conjunto de resultados predeterminados, se identifican variables que pueden contribuir a predecirlos y se aplican algoritmos de análisis estadístico a un conjunto de datos de prueba para determinar qué variables son los predictores más relevantes y cómo deben ponderarse. La recolección de conjuntos de datos de minería de datos adecuados es un paso clave en ese proceso, que busca encontrar los valores de las variables más relevantes estadísticamente que preceden cada uno de los resultados seleccionados. El resultado final es un conjunto de reglas que mapean las funciones de ponderación aplicadas a los valores de las variables predictoras identificadas para los resultados elegidos.

Utilizando el ejemplo anterior de pronóstico del tiempo, un científico de datos u otro analista puede elegir cinco escenarios climáticos diferentes: tormenta de nieve, tormenta, sol, niebla y viento. A continuación, selecciona una colección de variables tales como temperatura, humedad, cobertura de nubes, velocidad del viento, tiempo de salida del sol, ubicación de sistemas de alta presión y baja presión, y dirección de la corriente de chorro. Los valores de esas variables se recogen y analizan. El análisis completo proporcionará pautas predictivas como las siguientes: "El noventa y cuatro por ciento del tiempo, cuando la temperatura de hoy está por encima de 65 grados, la humedad está por debajo del 20%, hay un 10% de nubosidad y hay un sistema de alta presión moviéndose a través del área, mañana será un día soleado con una probabilidad de nubes que se desarrollan más tarde en el día".

El sesgo de datos ofrece vistas erróneas de modelos

Los equipos de analítica se enfrentan a grandes desafíos en el desarrollo de modelos predictivos precisos con conjuntos de datos particulares. Un reto básico proviene del hecho de que los conjuntos de datos pueden tener un sesgo inherente. Como resultado, un modelo puede encajar muy bien con un conjunto de datos, pero no ser aplicable en general a otros.

Es por eso que los analistas suelen dividir los conjuntos de datos que utilizan en dos grupos: un conjunto de datos de entrenamiento, utilizado para desarrollar un modelo que puede producir la salida deseada, y un conjunto de datos de validación que puede comprobar los sesgos, verificar que el modelo funciona correctamente y ser ajustado como sea necesario para obtener resultados válidos. Algunos científicos de datos incluso van con tres conjuntos de datos, utilizando otros separados para ajustar el modelo y verificar su exactitud.

Para evitar predicciones erróneas, debe tomarse cierto cuidado al elegir los conjuntos de datos de minería de datos para los esfuerzos de modelado predictivo. Primero, asegúrese de que su conjunto de datos contiene suficientes datos para representar correctamente las ocurrencias reales que está intentando modelar y analizar. Además, asegúrese de que sea lo suficientemente grande y diverso para cubrir todos los escenarios para los resultados que está buscando modelar. Finalmente, divídalo para las diferentes etapas del proceso de desarrollo del modelo de una manera que no introduzca o refuerce sesgos potenciales.

Comenzar con los conjuntos de datos adecuados ayudará a mejorar los resultados de su minería de datos y proyectos de análisis predictivo. Usar los equivocados… bueno, es fácil predecir cómo resultará eso.

Próximos pasos

Investigue más sobre Inteligencia artificial y automatización

ComputerWeekly.com.br
Close