Tendencias de gestión de datos que observar en 2021

Una serie de esfuerzos incipientes en todo el panorama de datos empresariales se manifestaron en 2020 y es probable que se conviertan en tendencias más importantes en 2021, incluida la casa del lago de datos, Iceberg y Presto.

por

Sean Michael Kerner

Publicado: 07 ene 2021

La gestión de datos es una base de importancia crítica para habilitar aplicaciones, análisis, inteligencia empresarial y aprendizaje automático.

En el transcurso de 2020, surgieron una serie de tendencias clave a medida que los proveedores de gestión de datos y los usuarios se vieron afectados por la pandemia mundial de coronavirus y la necesidad de acelerar la información de datos de manera rentable.

Entre las tendencias claras que han surgido se encuentra la necesidad de que las organizaciones hagan un mejor uso del almacenamiento en la nube para habilitar lagos de datos que son más que simples pantanos de datos. Varios proveedores y proyectos de código abierto asumieron el desafío de optimizar los lagos de datos en 2020, con diferentes motores de lago de datos y tecnologías de consulta.

2021: Casas de lago de datos e Iceberg en el horizonte

Otra tendencia clave en la gestión de datos en 2020 fue el concepto de casa del lago de datos. Una casa de lago de datos (data lakehouse) es una arquitectura técnica que combina los mejores elementos de los modelos de lago de datos y almacén de datos.

El concepto de casa del lago fue estrenada por Databricks en 2019 con el proyecto de código abierto Delta Lake del proveedor. En 2020, el concepto de casa de lago estuvo disponible comercialmente con la tecnología Delta Engine del proveedor con sede en San Francisco, presentada en junio y ampliada en la plataforma unificada de análisis de datos de Databricks lanzada en noviembre.

«Databricks es conocido desde hace mucho tiempo por soportar cargas de trabajo de ciencia de datos, pero en 2020 avanzó en el lado de la inteligencia empresarial y el almacenamiento de datos con su casa de lago», comentó Doug Henschen, analista de Constellation Research.

Henschen agregó que no se trata simplemente de satisfacer las necesidades de misión crítica de la inteligencia empresarial y la analítica a escala. Si bien a Databricks le gusta promocionar las estadísticas de rendimiento de velocidad de consulta, en opinión de Henschen eso es solo la mitad de la historia. Para 2021, espera ver cómo los clientes adoptan la tecnología de Databricks con una alta concurrencia entre los usuarios y las consultas.

Si bien el concepto de casa del lago tiene su conjunto de adeptos, con Databricks y el proyecto delta lake de código abierto, surgió un esfuerzo rival en 2020 que está programado para tener un gran año en 2021. Ese es el proyecto Apache Iceberg de código abierto, desarrollado originalmente en el gigante de los medios de streaming, Netflix.

«Iceberg es en realidad un formato de tabla abierta para grandes conjuntos de datos analíticos», explicó Daniel Weeks, gerente de ingeniería de computación de big data en Netflix, en la conferencia virtual Subsurface en julio. «Es un estándar de comunidad abierta con una especificación para garantizar la compatibilidad entre idiomas e implementaciones».

Más allá de Netflix, tanto Apple como Expedia son los primeros usuarios de Iceberg, que está posicionado para lograr una adopción más amplia en 2021. Hasta este punto, Iceberg ha sido un esfuerzo de la comunidad de código abierto, pero eso cambiará en 2021 a medida que surjan herramientas respaldadas por empresas. Es probable que la primera plataforma con soporte comercial que integrará Iceberg sea de Dremio, un proveedor de motores de lago de datos con sede en Santa Clara, California.

Dremio estuvo ocupado en 2020 construyendo su plataforma que permite a los usuarios consultar lagos de datos en un sistema optimizado para inteligencia empresarial y análisis.

Dremio ha sido un participante activo y colaborador en el proyecto de código abierto Iceberg y es el anfitrión de la conferencia Subsurface. En 2021, la compañía planea integrar Iceberg en su plataforma, lo que proporcionará un enfoque alternativo al enfoque de la casa del lago de Databricks.

Queda por ver si un método basado en Iceberg para permitir una gestión de datos más fácil en un lago de datos será más rápido o más eficiente que un modelo de casa de lago, pero será una tendencia clave a seguir en 2021.

Daniel Weeks, gerente de ingeniería para computación de big data en Netflix, en la conferencia virtual Subsurface en julio pasado.

Spark vs. Presto

Otra tendencia emergente para la gestión de datos en 2021 estará en el sector de consulta de datos.

El motor de consulta Apache Spark de código abierto tuvo un lanzamiento importante en 2020 con su hito 3.0, que estuvo disponible de manera general el 18 de junio pasado. Spark 3.0 introdujo la función Adaptive Query Execution (AQE) para acelerar las consultas de datos.

Desafiando a Spark en 2020 estuvo el proyecto Presto de código abierto que obtuvo el apoyo de múltiples proveedores comerciales que competían por tomar la carga de trabajo compartida de Spark.

Entre los proveedores que surgieron en 2020 con Presto se encuentra Starburst, que recaudó $ 42 millones en fondos el 16 de junio pasado. La plataforma principal de la compañía es Starburst Enterprise Presto, que se actualizó en julio de 2020 con capacidades para admitir consultas de datos en cargas de trabajo de Hadoop y lagos de datos en la nube.

Otro proveedor que surgió en 2020 para llevar Presto a las empresas es Ahana, que recaudó $ 4.8 millones en fondos semilla el 22 de septiembre pasado. Junto con el financiamiento, la compañía presentó su sistema Ahana Cloud for Presto, que brinda un servicio administrado para organizaciones que usan Presto.

Añadiendo más impulso al creciente uso de Presto, el 8 de diciembre la plataforma de datos Varada estuvo disponible para todos. La plataforma de virtualización de datos de Varada incorpora Presto como el motor que ayuda a habilitar las consultas de datos en distintas fuentes de datos.

No es probable que Presto desplace a Spark como el motor de consultas SQL dominante en 2021, pero sin duda atraerá a nuevos usuarios y proveedores a medida que las empresas busquen optimizar las consultas de gestión de datos.

Gestión de datos personales en 2021

Si bien permitir que las organizaciones utilicen los datos de manera más eficaz es una tendencia clave para 2021, también lo es la necesidad de mejorar la gestión de datos personales.

El analista de Enterprise Strategy Group (ESG), Mike Leone, señaló que el mercado de la gestión de datos personales está formado por una colección de proveedores, incluidos nuevos participantes como Dataswift e Inrupt, que se centran en permitir que los usuarios finales controlen sus propios datos personales.

«Creo que, a lo largo de este año, veremos a los usuarios finales exigir más control de sus propios datos y veremos a los órganos rectores intensificar su juego para abordar las preocupaciones sobre la privacidad de los datos del usuario final», dijo Leone.

Tendencias de gestión de datos que observar en 2021

Una serie de esfuerzos incipientes en todo el panorama de datos empresariales se manifestaron en 2020 y es probable que se conviertan en tendencias más importantes en 2021, incluida la casa del lago de datos, Iceberg y Presto.

2021: Casas de lago de datos e Iceberg en el horizonte

Spark vs. Presto

Gestión de datos personales en 2021

Investigue más sobre Gestión y metodologías

¿La apuesta de Databricks en LATAM? Democratizar los datos y acelerar la IA

La inteligencia de datos revoluciona el mercado mexicano

Databricks presentó nueva solución de inteligencia de datos para ciberseguridad

Cómo los datos para la IA están cambiando la plataforma de datos moderna