No deje que estos mitos de big data descarrilen su proyecto de analítica

Una serie de mitos acerca de big data han proliferado en los últimos años. No deje que estos errores comunes maten su proyecto de analítica.

Conforme la idea de la analítica de big data se vuelve más popular, más proveedores están pregonando sus beneficios y los ejecutivos están buscando sacar provecho de su potencial. Pero en el camino, se han desarrollado una serie de mitos que, si no se controlan, podrían limitar las perspectivas que las empresas pueden derivar de sus datos.

Uno de los mitos más generalizados en esta era de big data es que más datos son siempre mejor. Pero hablando en la Cumbre de Innovación de Big Data, celebrada en Boston en septiembre, Anthony Scriffignano, vicepresidente senior de datos y puntos de vista del proveedor de información Dun & Bradstreet Inc., dijo que ese no es siempre el caso.

Siempre hay un montón de ruido en los datos que puede hacer difícil escuchar la señal. Cuando usted recoge más datos indiscriminadamente, la tasa de ruido aumenta. Scriffignano dijo que es importante entender que el contexto de los datos que está recogiendo tiene un uso específico en mente antes de decidirse a almacenarlos.

"Nuestra respuesta colectiva hasta el momento ha sido construir unidades de disco duro más grandes", dijo, aunque ese enfoque tiene límites. "Pero nuestra respuesta al problema no se ha mantenido. Tenemos que saber lo que realmente está sucediendo para saber qué datos desechar y cuáles son importantes”.

Este es un mito que no va a desaparecer en silencio. A medida que los costos de almacenamiento continúan cayendo, el costo de guardar los datos nunca ha sido menor. Esto ha contribuido a la popularización del concepto de lago de datos, donde las empresas acumulan tesoros de datos sin saber realmente qué son o cómo se van a utilizar. Pero mientras que el gasto directo de añadir espacio de almacenamiento puede ser mínimo, el costo total asociado con los datos superfluos que hacen que el trabajo de análisis sea más difícil puede irse sumando.

Más herramientas no siempre es la respuesta

Otro mito común es que simplemente añadir más herramientas al problema lo resolverá. Este es un mensaje que se ha perpetuado conforme el número de herramientas de big data proliferan y los proveedores compiten por rebanadas del mercado. Pero las herramientas son solo tan buenas como las personas que las utilizan.

"Muy a menudo, como científicos de datos, se espera que llevemos magia a todo lo que estamos haciendo, pero he descubierto que muchas veces funciona mejor con un poco de grasa en el codo", dijo Abe Gong, científico senior en Jawbone, un fabricante de monitores de fitness y otros dispositivos electrónicos.

Por ejemplo, Gong se disponía a hacer un análisis de un gran conjunto de datos que él sabía que iba a tener una gran cantidad de datos incompletos o entradas duplicadas. Él primero pensó en escribir un algoritmo para limpiar el conjunto de datos, pero sabía que aún dejaría algunos datos erróneos. Después de pensar en el problema, decidió simplemente pedir a todos en el departamento de TI pasar un par de minutos limpiando manualmente el conjunto de datos. Muy pronto estaba listo, sin que ninguna persona tuviera que invertir mucho tiempo limpiándolo, y se limpió mejor de lo que habría quedado si un algoritmo lo hubiera hecho.

Tal vez el gran mito de datos más pernicioso es que la verdad es estática y totalmente objetiva. De hecho, puede estar constantemente en movimiento.

Esto fue confirmado por John Hogue, un científico de datos de General Mills Inc., quien habló sobre cómo su equipo ha trabajado para desarrollar un panel de control interno que correlaciona diversas campañas de publicidad con cosas como el uso de cupones, los mensajes positivos en los medios sociales y los datos de ventas.

Los usuarios de este tipo de sistemas, dijo Hogue, deben recordar que los datos que tienen representan solo una breve instantánea en el tiempo. En un mundo que cambia rápidamente, inferir la objetividad de este tipo de datos sería un error.

"Usted tiene que tomar una instantánea de lo que es la verdad hoy", dijo Hogue. "Eso va a ser un reto para muchos de los usuarios de negocios”.

Tenga cuidado con la proliferación de problemas en la calidad de datos

La confianza inapropiada en la objetividad de datos puede tener otros resultados.Es particularmente importante recordar que los modelos analíticos no siempre entregan resultados precisos cuando se utiliza un modelo para alimentar a otro. Y basar decisiones en datos de baja calidad puede no ser más eficaz que ir con el instinto de un ejecutivo o incluso simplemente elegir al azar.

Scott, Hallworth, director de riesgo de modelo en la empresa de servicios financieros Capital One, dijo que ha visto casos en los que un equipo construye un modelo para sus propios fines, pero luego otro equipo ve los nuevos datos que están disponibles y los incorpora en sus propios modelos, sin saber que el primer modelo solo produjo resultados en un nivel de confianza particular. Con cada nuevo modelo, la calidad de la salida de datos que se produce puede bajar.

Para hacer frente a este problema, Hallworth recomienda construir mecanismos de gobernanza en los modelos desde el principio y asegurarse de que cualquier persona que termine usando la salida de un modelo sepa cuán fidedigna es la información.

"Mucha gente se olvida que cuando usted construye un modelo o un informe, está generando datos", dijo Hallworth. "Alguien va a utilizarlo y a transformarlo en otra cosa. Eso es lo que causa  una gran cantidad de problemas”.

Investigue más sobre Big data y gestión de la información

ComputerWeekly.com.br
Close