Il gran numero di dispositivi connessi a Internet ha portato a una crescita esponenziale dei dati. La tecnologia IoT (Internet of Things) ha permesso la comunicazione tra esseri umani e dispositivi come elemento fondamentale per prendere decisioni rapide e rivoluzionarie. I dati raccolti da più dispositivi IoT hanno di per sé un valore che risulta essere difficile da estrarre, a causa della loro complessità e natura non standard.
Per recuperare e amplificare il valore aziendale, i dati IoT devono essere combinati con i dati non IoT esistenti. La soluzione ottimale per gestire entrambi, in modo efficiente, è creare un moderno cloud data lake e utilizzare le best practice consolidate per evitare che diventi una “data palude”.
Data Lake in cloud
Lo storage dei data lake nel cloud sta trasformando il modo in cui pensiamo ai data lake. Le soluzioni di storage in cloud, come Amazon S3, hanno introdotto nuove caratteristiche, come la scalabilità infinita, la flessibilità dei costi, la facilità di manutenzione e l’alta disponibilità. Queste caratteristiche hanno cambiato la percezione nei confronti dei data lake, che non vengono più considerati solo uno strumento di backup, ma sono invece il luogo in cui i dati arrivano e vengono organizzati.
Lo storage dei data lake ha cambiato le carte in tavola anche per quanto riguarda l’elaborazione dei dati, perché ora è possibile beneficiare della separazione tra elaborazione e dati. Meno di dieci anni fa, si parlava di portare l’elaborazione ai dati con l’obiettivo di eseguire tutto nello stesso cluster e ottenere di conseguenza prestazioni più veloci. Nel cloud le cose funzionano in modo diverso, non solo perché l’infrastruttura di rete è migliorata, ma anche per la separazione tra elaborazione e archiviazione.
Ciò significa che ora è possibile avere lo storage come servizio e sfruttare separatamente i servizi di pipeline e i motori di calcolo, come Spark e Hive, che possono essere eseguiti direttamente sui dati. Questo è un vantaggio fondamentale per l’infrastruttura dei data lake IoT, perché è possibile scalare i dati e l’elaborazione separatamente, garantendo un controllo granulare su velocità e costi.
Data Lake e IoT
Negli approcci tradizionali al data warehouse, i dati ottenuti dai dispositivi IoT devono essere trasformati, standardizzati e miscelati prima di essere pronti per l’analisi. Questo processo è lento e costoso e può portare ad opportunità di business mancate. Per farlo bene, bisogna imparare a semplificare il processo costruendo un data lake che sia flessibile, veloce, sicuro ed efficiente dal punto di vista dei costi.
Le infrastrutture IoT generano dati di diverse forme e dimensioni e, sebbene i processi di estrazione, trasformazione e caricamento siano ancora necessari per inserire i dati nel “lago”, è possibile evitare di dover implementare processi simili quando si forniscono dati agli utenti finali. Si garantisce così un accesso diretto, senza de-serializzare in modo costoso il recupero dei dati salvati.
Per approfondire i temi riguardanti i data lake, leggi il nostro articolo QUI