alphaspirit - Fotolia

Comparación de servicios de big data entre AWS, Azure y Google

Los servicios de grandes volúmenes de datos son un atractivo señuelo a la nube para las empresas. AWS, Azure y Google están luchando por el número uno, ¿pero quién llegará a la cima?

por

Jim O´Reilly

Publicado: 10 may 2016

El mercado de la nube está evolucionando con rapidez, con un conjunto siempre cambiante de los servicios de big data. Si bien esto dificulta las comparaciones de proveedores de nube, vale la pena el intento, debido a que las ofertas de los tres principales proveedores de la nube –Amazon Web Services, Microsoft Azure y Google– no son iguales.

Big data en la nube es un área del mercado en el que la inmensa experiencia en búsquedas de Google tiene sinergias, pero Amazon Web Services (AWS) y Azure están atrayendo a algunas compañías nuevas e interesantes para agregar valor.

El resultado es un espectro vibrante de servicios de datos grandes que es cada vez más atractiva tanto desde una capacidad como desde una perspectiva económica. Los usuarios de la nube en última instancia, ha ganado en la gran competición de datos entre los tres grandes –y parece que eso continuará en los próximos años.

He aquí un vistazo más de cerca a los actuales servicios de big data de AWS vs. Azure vs. Google.

Amazon Web Services (AWS)

AWS tiene un amplio espectro de servicios de big data. Amazon Elastic MapReduce, por ejemplo, corre Hadoop y Spark, mientras que Kinesis Firehose y Kinesis Streams proporcionan una manera de transmitir grandes cantidades de datos en AWS. Los usuarios pueden almacenar datos en Redshift, un almacén de datos de escala petabyte, con compresión de datos para ayudar a reducir los costos. Amazon Elasticsearch es un servicio para implementar la herramienta de código abierto Elasticsearch en AWS para el análisis como click-through y el registro de monitorización. Kinesis Analytics complementa esto mediante el análisis de los flujos de datos.

AWS tiene una mayor cantidad de opciones de almacenamiento de datos en comparación con Google. Además de la granja masiva Simple Storage Service de AWS, tiene DynamoDB, una base de datos NoSQL de baja latencia; DynamoDB para Titan, que proporciona almacenamiento para la base de datos gráfica Titan; ApacheHBase, una base de datos NoSQL de escala petabyte; y bases de datos relacionales.

AWS también tiene un servicio de inteligencia de negocio (BI), QuickSight, que utiliza en paralelo, en el procesamiento de memoria para lograr altas velocidades. Esto se complementa con Amazon Machine Learning y la plataforma de la internet de las cosas (IoT) de AWS, la cual conecta dispositivos a la nube y puede escalar a miles de millones de dispositivos y trillones de mensajes.

Mientras que Google tiene una ventaja con los motores de búsqueda y análisis, AWS tiene un espectro más amplio de servicios, así como BI e instancias de de unidades de procesamiento de gráficos (GPU).

Microsoft Azure

Para la analítica, Azure tiene Data Lake Analytics, que utiliza U-SQL propietario con SQL y C++, así como HDInsight, un servicio basado en Hadoop. También hay un servicio Azure Stream Analytics, un catálogo de datos que identifica los activos de datos que utilizan un sistema mundial de metadatos, y la fábrica de datos (Data Factory), que entrelaza fuentes de datos en las instalaciones y en la nube y gestiona procesos de datos.

El servicio de almacenamiento de big data de Azure es Data Lake Store, un sistema de archivos Hadoop. El proveedor de la nube tiene una amplia gama de ofertas de almacenamiento de propósito general, incluyendo StorSimple, SQL y bases de datos NoSQL y almacenamiento de blobs (grandes objetos binarios).

Azure también tiene Power BI y aprendizaje automático, alineándose con AWS, y cuenta con un concentrador para la internet de las cosas. La plataforma de nube también incluye un motor de búsqueda. La suite Cortana y los servicios cognitivos de Microsoft proporcionan más capacidades de inteligencia avanzada.

Google

El servicio de datos BigQuery de Google utiliza una interfaz similar a SQL que es intuitivo para que la mayoría de los usuarios –incluso los no técnicos– lo aprendan. Es compatible con las bases de datos petabytes y puede realizar flujos de datos de 100.000 filas por segundo como una alternativa a la ejecución de los datos en la nube de almacenamiento. BigQuery también es compatible con la replicación geográfica y los usuarios pueden seleccionar el lugar donde se almacenan sus datos.

BigQuery es un servicio de pago por uso sin una infraestructura dedicada de las instancias, lo que permite a Google usar un gran número de procesadores para mantener los tiempos veloces de consulta. También soporta la integración con Spark, Hadoop, Pig y Hive. Las organizaciones también pueden utilizar Google Analytics y DoubleClick –una herramienta para la industria de la publicidad que reúne estadísticas para alimentar BigQuery– como fuentes de datos. Google Cloud Dataflow permite a los usuarios secuenciar los servicios de datos en la nube.

Otros servicios de big data ofrecidos por Google incluyen Cloud Datastore, una base de datos NoSQL para datos no relacionales; Cloud BigTable, una base de datos NoSQL masivamente escalable; Cloud Machine Learning, una plataforma gestionada por la máquina de aprendizaje; y herramientas auxiliares como traductores y convertidores de voz.

Una oferta notable de la que Google carece para big data es la instancia GPU. Escribir código GPU para el análisis de datos es una técnica de alto valor, dado el increíble impulso al rendimiento que ofrecen las GPU. La falta de una familia de instancias GPU por parte de Google es un tanto desconcertante, sobre todo cuando AWS tiene la característica desde 2011 y Azure la agregó en el año 2015.

AWS vs. Azure vs. Google: Una carrera cerrada en grandes volúmenes de datos

En muchos sentidos, los tres grandes proveedores de la nube van al mismo ritmo en los servicios de big data, aunque hay diferencias bajo el capó en el rendimiento y la facilidad de uso que requieren algunas pruebas prácticas de discernir. Mientras que Google probablemente tiene una ventaja en la búsqueda, va a la zaga en la parte frontal de BI, donde Microsoft tiene una ventaja con Cortana. La falta de instancias de GPU de Google es también una notable diferencia.

Al igual que con cualquier amplio espectro de productos, y debido a que todos estos servicios de big data están en su infancia relativa, habrá diferencias que dependen del caso de uso o de los datos. Puede ser difícil elegir entre AWS vs. Azure vs. Google. Una forma de determinar el mejor servicio en la nube para usted es probarlos en un entorno limitado por un par de semanas para tener una idea de cómo funciona y cuál será el precio.

Investigue más sobre Big data y gestión de la información

E-Handbook: Cómo manejar los grandes volúmenes de datos

Articulo3 de 3

Up Next

Fundamentos para proyectos de big data

Con el veloz incremento en la cantidad de datos que se generan diariamente a través de múltiples dispositivos, las empresas necesitan implementar soluciones que les permitan no solamente almacenar, sino también filtrar, analizar y gestionar dichos volúmenes de datos. Este hendbook ofrece algunos consejos para empezar con los proyectos de big data.

Siete pasos para una implementación exitosa de un lago de datos

Inundar un clúster de Hadoop con datos que no están organizados y administrados correctamente puede obstaculizar los esfuerzos de analítica. Siga estos pasos para ayudar a que su lago de datos sea accesible y utilizable.