vege - stock.adobe.com

Os bancos de dados de série temporal são a chave para lidar com o dilúvio de dados de IoT?

À medida que os dados de série temporal aumentam, também aumenta a consciência da necessidade de sistemas específicos para dados de série temporal.

É bastante óbvio que os dados estão sendo coletados a uma velocidade surpreendente e aumentando rapidamente. Estamos coletando mais dados, em mais sistemas e em mais setores do que antes na história da humanidade. Acompanhar esse fluxo de dados é um dos maiores desafios do setor de TI hoje.

Infelizmente, acredito que o aumento na coleta de dados está apenas começando, e a quantidade e a velocidade da coleta de dados não apenas crescerão, como crescerão a um ritmo mais rápido do que nunca. Estamos em uma avalanche de dados.

Por que tantos dados?

A resposta a essa pergunta é, obviamente, longa, mas se resume ao fato de que estamos implementando mais sistemas e mais "coisas" do que nunca. Da crescente instrumentação de aplicativos e sistemas, o que agora chamamos de DevOps, ao crescimento explosivo da Internet das Coisas (IoT), tudo ao nosso redor está começando a emitir dados. Por enquanto, vou me concentrar no crescimento dos dados de IoT para ilustrar o que nos espera.

Cada analista tem uma previsão de quantos dispositivos IoT eles acham que estarão online em uma determinada data. Em 2017, o Gartner relatou que os dispositivos IoT cresceram 31%, para 8,3 bilhões de dispositivos em relação ao ano anterior, e previu que mais de 20 bilhões de dispositivos estariam online em 2020. Para simplificar, vamos usar esse número de 20 bilhões como um exemplo de referência.

Quantos dados são esses?

Construí muitos dispositivos IoT; na verdade, tenho uma dúzia sentada em minha mesa agora. Alguns desses dispositivos produzem apenas um único fluxo de dados, o que significa que eles produzem apenas um único ponto de dados para cada leitura. Outros produzem mais de uma dúzia de fluxos de dados. Sensores industriais e de consumo, por exemplo, podem monitorar muito mais e produzir dezenas de fluxos de dados por dispositivo.

Para dar um exemplo mais concreto de como esses dados são calculados, suponha que cada dispositivo produza uma média de 10 fluxos de dados e grave dados uma vez por segundo, o que é muito baixo para muitos sensores industriais, para fins de registro. Agora, meu sensor de fluxo exclusivo lê o conteúdo de CO2 e o grava em um banco de dados a cada segundo. Essa leitura, entre 0 e 10.000 partes por milhão de CO2, pode variar de um a cinco bytes. Portanto, para simplificar o cálculo, vamos supor que cada fluxo de dados seja uma leitura de 5 bytes, uma vez por segundo. Agora temos um único dispositivo, que produz 5 bytes por segundo, multiplicados por 10 fluxos de dados, que são 50 bytes por segundo!

Embora isso não pareça muito, se multiplicarmos esse número por 20 bilhões de dispositivos, você obterá cerca de 1 trilhão de bytes por segundo, ou um terabyte de dados de IoT. Cada segundo. Todos os dias. Para todo sempre.

Meu laptop tem uma unidade de 1 TB, então eu o encheria em um único segundo, o que é quase um petabyte de dados em um único ano.

O que vamos fazer com todos esses dados?

Agora, esta é a verdadeira questão.

Todos esses dados devem ser ingeridos em algum tipo de banco de dados de pesquisa em tempo real. As empresas e organizações devem armazenar, manipular, consultar e agir sobre os dados a cada hora, todos os dias, para aproveitar ao máximo os insights de negócios contidos nos dados ricos. Claro, nem tudo vai para o mesmo banco de dados, mas ainda há muitos dados para gerenciar para qualquer organização.

Quando falamos sobre ingestão e armazenamento de dados, devemos também analisar que tipo de dados são, porque nem todos os dados são criados igualmente. Podemos dividir os dados de IoT em vários segmentos. O primeiro são os metadados sobre os sensores e dispositivos que estamos usando para coletar os dados. Isso pode consistir em tudo, desde os números do modelo do sensor até a data do serviço, localização física e qualquer outra informação sobre o próprio sensor. Esses dados geralmente não são atualizados com frequência e provavelmente não mudarão muito com o tempo.

Os dados realmente valiosos são os dados do próprio sensor. Os dados do sensor são normalmente leituras com registro de data e hora de um sensor, enviadas em um fluxo constante do dispositivo para a plataforma de armazenamento. Pode ser uma leitura de CO2, dados ambientais ou dados de monitores de frequência cardíaca, equipamento industrial, etc. Não importa de onde esses dados vêm, eles quase sempre seguem a fórmula básica <ler dados> @ timestamp. Como alguns de vocês podem reconhecer, são dados de série temporal, dados para os quais o tempo é um componente crítico.

Como armazenamos dados de série temporal?

Existem tantas possibilidades para armazenar dados de séries temporais quanto bancos de dados no mundo. Eles podem ser armazenados em um sistema de gerenciamento de banco de dados relacional tradicional (RDBMS), como dados não estruturados em um banco de dados NoSQL, ou mesmo em uma planilha ou arquivo CSV. Mas só porque algo pode ser feito, não significa que deva ser feito.

Os RDBMS tradicionais são projetados para armazenar acessos e atualizar tabelas de dados relacionais, enquanto os bancos de dados não estruturados NoSQL são adequados para armazenar e recuperar dados não estruturados. Os dados da IoT, como vimos, não são nenhuma dessas coisas. São dados de série temporal muito específicos e, para isso, é necessário um banco de dados de série temporal.

Os bancos de dados de série temporal são projetados especificamente para ingerir, armazenar e consultar dados de série temporal porque são diferentes de outros tipos de dados. Eles exigem taxas de ingestão realmente altas e a capacidade de consultar dados ao longo do tempo para entender tendências e percepções de negócios nos dados.

O crescimento dos dados de série temporal como uma categoria

À medida que os dados de série temporal aumentam, também aumenta a consciência da necessidade de sistemas específicos para dados de série temporal. Esse crescente problema de dados e o crescimento dos bancos de dados de séries temporais criaram uma categoria inteiramente nova de provedores de banco de dados. É por isso que, nos últimos 24 meses, os bancos de dados de séries temporais foram o segmento de crescimento mais rápido do mercado de banco de dados.

Com o crescimento dos dados de IoT, é fácil entender por quê.

Saiba mais sobre Bancos de dados

ComputerWeekly.com.br
ComputerWeekly.es
Close