Cos'è Apache HBase?

Apache HBase è un archivio di big data distribuito, NoSQL e open source. Consente l'accesso casuale, strettamente coerente e in tempo reale a petabyte di dati. HBase è molto efficace nella gestione di set di dati grandi e di tipo sparse.

HBase si integra perfettamente con Apache Hadoop e l'ecosistema Hadoop e funziona su File System distribuito Hadoop (HDFS) o Amazon S3 utilizzando il file system Amazon Elastic MapReduce (EMR) o EMRFS. HBase funge da input e output diretti per il framework Apache MapReduce per Hadoop e funziona con Apache Phoenix per abilitare query simili a SQL su tabelle HBase. 

Logo HBase

Come funziona HBase?

HBase è un database non relazionale orientato alle colonne. Ciò significa che i dati vengono archiviati in singole colonne e indicizzati da una chiave di riga univoca. Questa architettura consente il recupero rapido di singole righe e colonne e scansioni efficienti su singole colonne all'interno di una tabella. Sia i dati che le richieste sono distribuiti su tutti i server in un cluster HBase, consentendo di effettuare query sui risultati relativi a petabyte di dati in pochi millisecondi. HBase viene utilizzato in modo più efficace per archiviare dati non relazionali, a cui si accede tramite l'API HBase. Apache Phoenix è comunemente usato come livello SQL sopra HBase che consente di utilizzare una sintassi SQL familiare per inserire, eliminare e interrogare i dati archiviati in HBase.

Quali sono i vantaggi di HBase?

Scalabilità

HBase è progettato per gestire la scalabilità su migliaia di server e gestire l'accesso a petabyte di dati. Grazie all'elasticità di Amazon EC2 e alla scalabilità di Amazon S3, HBase è in grado di gestire l'accesso online a enormi set di dati.

Rapidità

HBase fornisce accesso casuale in lettura e scrittura a bassa latenza a petabyte di dati distribuendo le richieste dalle applicazioni su un cluster di host. Ogni host ha accesso ai dati in HDFS e S3 e serve le richieste di lettura e scrittura in millisecondi.

Tolleranza di errore

HBase divide i dati archiviati nelle tabelle su più host del cluster ed è progettato per tollerare gli errori dei singoli host. Poiché i dati sono archiviati su HDFS o S3, gli host integri verranno automaticamente scelti per ospitare i dati una volta serviti dall'host affetto da errore e i dati verranno portati online automaticamente.

Quali sono i casi d'uso di Hbase?

La FINRA (Financial Industry Regulatory Authority) è l'autorità di regolazione indipendente più importante degli Stati Uniti; monitora e regola le pratiche commerciali del settore finanziario. FINRA usa Amazon EMR, eseguendo Apache HBase in Amazon S3 per ottenere accesso casuale a 3.000 miliardi di record (con aumenti su base giornaliera nell'ordine di miliardi di record) e alimentare un'applicazione interattiva che permette la ricerca e la visualizzazione di eventi di mercato. Separando storage ed elaborazione, FINRA può ora memorizzare una singola copia dei dati in Amazon S3, ridimensionando le risorse del cluster in base alla capacità di elaborazione necessaria, mentre prima doveva calibrare il cluster per la memorizzazione dei dati in HDFS con tripla replica. In questo modo ha ottenuto risparmi del 60%, maggiore scalabilità di elaborazione e la riduzione dei tempi per il ripristino di un cluster in una nuova zona di disponibilità di EC2, che prima richiedevano alcuni giorni mentre ora impiegano meno di 30 minuti.

Monster, leader globale nel settore degli annunci di lavoro, utilizza Apache HBase in Amazon EMR per memorizzare i dati di clickstream e delle campagne pubblicitarie per analisi a valle. Grazie a questa soluzione possono monitorare le prestazioni di diversi segmenti di pubblico di una determinata campagna con granularità a livello di singola impressione. Il team di analisi di Monster esplorano le attività delle campagne aggregando il numero di visualizzazioni e di clic per singolo utente. Monster sfrutta inoltre l'integrazione di Apache HBase con l'ecosistema di Apache Hadoop. Esegue infatti Apache Hive su un cluster Amazon EMR separato, che consente di eseguire query su una tabella HBase con SQL, in modo da fornire analisi aggiuntive ed esportare i dati da Apache HBase ad Amazon Redshift.  

In che modo AWS può supportare HBase e Hadoop?

Amazon EMR offre il framework Hadoop gestito più semplice, veloce ed economico, che consente ai clienti di elaborare grandi quantità di dati su un numero dinamico di istanze EC2. I clienti possono anche eseguire altri framework distribuiti come Apache HBase, Hive, Spark, Presto e Flink in EMR. 

Ulteriori informazioni su Amazon EMR

Comincia a sfruttare subito Apache HBase su AWS creando un account AWS gratuito oggi stesso.

Fasi successive su AWS

Registrati per creare un account gratuito

Ottieni accesso istantaneo al Piano gratuito di AWS.

Registrati 
Inizia a lavorare nella console

Inizia subito a creare nella Console di gestione AWS.

Accedi