Domande frequenti su Amazon Redshift

Domande generali

Decine di migliaia di clienti utilizzano Amazon Redshift ogni giorno per eseguire analisi SQL nel cloud, elaborando exabyte di dati per ottenere informazioni aziendali. Se i dati crescenti sono archiviati in archivi di dati operativi, data lake, servizi di streaming di dati o set di dati di terze parti, Amazon Redshift aiuta ad accedere, combinare e condividere i dati in modo sicuro con spostamenti o copie minimi. Amazon Redshift si integra perfettamente nei database AWS e nei servizi di analisi e machine learning per impiegare approcci Zero-ETL o aiutarti ad accedere ai dati per analisi quasi in tempo reale, creare modelli di machine learning in SQL e abilitare le analisi di Apache Spark utilizzando i dati in Redshift. Amazon Redshift Serverless permette a ingegneri, sviluppatori, data scientist e analisti di iniziare a lavorare facilmente e calibrare rapidamente le analisi in un ambiente senza amministrazione. Con il motore e l'architettura di Elaborazione parallela su larga scala (MPP) che separa calcolo e archiviazione per eseguire un dimensionamento efficace, e con le innovazioni per le prestazioni guidate dal machine learning (ad esempio, le viste materializzate automatiche), Amazon Redshift può dimensionare e fornire un rapporto prezzo/prestazioni fino a 5 volte migliore rispetto ad altri data warehouse del cloud.

Migliaia di clienti scelgono Amazon Redshift per accelerare i tempi di ottenimento delle informazioni, poiché si tratta di un sistema di analisi potente che si integra bene con database e servizi di machine learning, è facile da utilizzare e può diventare un servizio centrale in caso di necessità di analisi. Amazon Redshift Serverless esegue il provisioning e dimensiona automaticamente la capacità del data warehouse per fornire prestazioni elevate per carichi di lavoro esigenti e imprevedibili. Amazon Redshift offre un rapporto prezzo/prestazioni unico per carichi di lavoro di analisi diversi, che si tratti di dashboarding, sviluppo di applicazioni, condivisione di dati, attività ETL (Extract, Transform, Load) e non solo. Con centinaia di migliaia di clienti che eseguono analisi su terabyte e petabyte di dati, Amazon Redshift ottimizza le prestazioni dei carichi di lavoro dei clienti del mondo reale in base alla telemetria delle prestazioni del parco istanze, offrendo prestazioni adattate in modo lineare ai carichi di lavoro e mantenendo bassi i costi. Le innovazioni delle prestazioni sono disponibili per i clienti senza costi aggiuntivi. Amazon Redshift ti consente di ottenere informazioni dettagliate dall'esecuzione di analisi dei dati in tempo reale e predittive su tutti i tuoi dati attraverso database operativi, data lake, data warehouse, dati in streaming e set di dati di terze parti. Amazon Redshift supporta misure di sicurezza leader del settore con le funzionalità integrate di federazione e gestione dell'identità per l'autenticazione unica (SSO), autenticazione a più fattori, controllo degli accessi a livello di colonna, sicurezza a livello di riga, controllo degli accessi basato sui ruoli, Amazon Virtual Private Cloud (Amazon VPC) e un ridimensionamento più rapido dei cluster.

Amazon Redshift è completamente gestito da AWS, quindi non dovrai più preoccuparti delle attività di gestione del data warehouse come il provisioning dell'hardware, l'applicazione di patch del software, l'impostazione, la configurazione, il monitoraggio dei nodi e delle unità per il ripristino dai guasti o i backup. AWS gestisce il lavoro necessario per configurare, utilizzare e dimensionare un data warehouse per tuo conto, lasciandoti la libertà di concentrarti sullo sviluppo delle tue applicazioni. Amazon Redshift Serverless esegue il provisioning e dimensiona automaticamente la capacità del data warehouse per fornire prestazioni elevate per carichi di lavoro esigenti e imprevedibili, e paghi solo per le risorse utilizzate. Amazon Redshift dispone anche di funzionalità di ottimizzazione automatica e genera raccomandazioni per gestire il warehouse in Redshift Advisor. Con Redshift Spectrum, Amazon Redshift gestisce l'infrastruttura di elaborazione, il bilanciamento del carico, la pianificazione e l'esecuzione delle query sui dati memorizzati in Amazon S3. Amazon Redshift permette l'analisi su tutti i dati con integrazione completa nei servizi di database con funzionalità come Zero-ETL di Amazon Aurora in Amazon Redshift e le query federate per accedere ai dati in uso dai database operativi come Amazon RDS e dal data lake Amazon S3. Redshift permette l'importazione dei dati ottimizzati con pipeline di dati automatiche e senza codice che acquisiscono dati in streaming o file di Amazon S3 in automatico. Inoltre, Redshift è integrata con Scambio dati AWS e permette quindi agli utenti di individuare, iscriversi ed eseguire query nei set di dati di terze parti e combinarli con i propri dati per ottenere informazioni complete. Con l'integrazione nativa in Amazon SageMaker, i clienti possono rimanere all'interno dei loro data warehouse e creare, addestrare e costruire modelli di machine learning in SQL. Amazon Redshift risponde a tutte le necessità di analisi SQL con un rapporto prezzo/prestazioni fino a 5 volte migliore rispetto ad altri data warehouse del cloud.

Amazon Redshift è un servizio completamente gestito e offre opzioni sia con provisioning che serverless, rendendo più efficaci l'esecuzione e il dimensionamento delle analisi senza dover gestire il data warehouse. Puoi creare un nuovo endpoint Amazon Redshift Serverless per eseguire in automatico il provisioning del data warehouse in pochi secondi o puoi scegliere l'opzione con provisioning per i carichi di lavoro prevedibili.

Per iniziare a eseguire query sui dati, sono necessari pochi passaggi nella Console di gestione AWS. Puoi sfruttare i set di dati campione precaricati, inclusi i set di dati di benchmark TPC-H, TPC-DS e altre query campione per avviare immediatamente le analisi dei dati. Per iniziare a usare Amazon Redshift Serverless, scegli "Prova Amazon Redshift Serverless" e inizia a eseguire query sui dati. Inizia qui.

I risultati del benchmark TPC-DS mostrano che Amazon Redshift offre il miglior rapporto prezzo/prestazioni integrato, anche per un set di dati relativamente piccolo di 3 TB. Amazon Redshift fornisce un rapporto prezzo/prestazioni fino a 5 volte migliore rispetto ad altri data warehouse del cloud. Questo significa che puoi beneficiare del miglior rapporto prezzo/prestazioni di Amazon Redshift fin dall'inizio senza una regolazione manuale. In base alla telemetria delle prestazioni del nostro parco istanze, sappiamo anche che la maggior parte dei carichi di lavoro è composto da carichi con query brevi (carichi di lavoro eseguiti in meno di 1 secondo). Per questi carichi di lavoro, il benchmark più attuale dimostra che Amazon Redshift offre un rapporto prezzo/prestazioni fino a 7 volte superiore per quanto riguarda i carichi di lavoro ad alta concorrenza e bassa latenza rispetto ad altri data warehouse nel cloud. Ulteriori informazioni sono disponibili qui.

Sì, gli specialisti di Amazon Redshift sono disponibili a rispondere a domande e fornire assistenza. Contattaci e ti risponderemo entro un giorno lavorativo per parlare di come AWS può aiutare la tua organizzazione.

L'archiviazione gestita di Amazon Redshift è disponibile con tipi di nodo serverless e RA3 e consente di dimensionare e pagare per i sistemi di calcolo e archiviazione in modo indipendente, così da poter dimensionare il cluster unicamente in base alle esigenze di calcolo. Utilizza automaticamente l'archiviazione in locale basata su SSD ad alte prestazioni come cache di livello 1 e sfrutta le ottimizzazioni come la temperatura del blocco di dati, l'età del blocco di dati e i modelli di carico di lavoro per offrire prestazioni elevate scalando automaticamente l'archiviazione su Amazon S3, laddove necessario, senza richiedere alcuna operazione.

Se stai già usando Amazon Redshift Dense Storage o nodi Dense Compute, puoi usare Elastic Resize per aggiornare i cluster esistenti alla nuova istanza di calcolo RA3. Amazon Redshift Serverless e i cluster che utilizzano l'istanza RA3 utilizzano automaticamente l'archiviazione gestita da Redshift per archiviare i dati. Per utilizzare questa capacità non è richiesta nessuna altra operazione al di fuori dell'utilizzo di istanze Amazon Redshift Serverless o RA3.

Amazon Redshift Spectrum è una caratteristica di Amazon Redshift che permette di eseguire query sul data lake in Amazon S3 senza bisogno di caricare i dati o di ETL. Quando viene inoltrata, la query SQL raggiunge l'endpoint di Amazon Redshift, il quale genera e ottimizza un piano di query. Amazon Redshift determina quindi quali dati si trovano in locale e quali in S3, genera un piano per ridurre al minimo i dati da leggere in Amazon S3 e richiede ai dipendenti di Amazon Redshift Spectrum di un pool di risorse condivise di leggere ed elaborare i dati da Amazon S3.

Considera la scelta dei tipi di nodo RA3 in questi casi:

  • Hai bisogno di flessibilità per dimensionare e pagare il calcolo separatamente dall'archiviazione.
  • Esegui una query su una frazione dei tuoi dati totali.
  • Il tuo volume di dati cresce rapidamente o prevedi che cresca rapidamente.
  • Vuoi flessibilità per dimensionare il cluster solo in base alle tue necessità di prestazioni.

Mentre il livello dei dati continua a crescere, raggiungendo i petabyte, anche la quantità di dati che importi nel tuo data warehouse Amazon Redshift cresce. Potresti essere alla ricerca di modi per analizzare tutti i tuoi dati in modo conveniente.

Con le nuove istanze RA3 di Amazon Redshift con archiviazione gestita, puoi scegliere il numero di nodi in base alle tue esigenze di prestazioni e pagare solo per l'archiviazione gestita che usi. Questo ti offre la flessibilità di dimensionare il tuo cluster RA3 in base alla quantità di dati che elabori quotidianamente senza aumentare i tuoi costi di archiviazione. Basate su AWS Nitro System, le istanze RA3 con archiviazione gestita utilizzano SSD ad alte prestazioni per i dati caldi e Amazon S3 per i dati ad accesso frequente, offrendo facilità d'uso, archiviazione economica e prestazioni di query veloci.

Amazon Redshift Spatial offre un'analisi dei dati basata sulla posizione per ottenere informazioni dettagliate approfondite dei tuoi dati. Integra perfettamente i dati spaziali e aziendali per offrire analisi per il processo decisionale. Amazon Redshift ha lanciato il supporto nativo per l'elaborazione dei dati spaziali a novembre 2019, con un tipo di dati polimorfo GEOMETRY e diverse funzioni spaziali SQL chiave. Ora supportiamo il tipo di dati GEOGRAPHY e la nostra libreria di funzioni spaziali SQL è cresciuta fino a 80. Supportiamo tutti i tipi di dati spaziali comuni e gli standard, inclusi Shapefiles, GeoJSON, WKT, WKB, eWKT ed eWKB. Per saperne di più, visita la pagina della documentazione o la pagina del tutorial di Amazon Redshift Spatial.

Pur essendo entrambi servizi serverless per gli utenti SQL, Amazon Athena e Amazon Redshift serverless rispondono a esigenze e casi d'uso diversi.

Con l'architettura di Elaborazione parallela su larga scala (MPP) che separa archiviazione e calcolo e con le funzionalità di ottimizzazione automatica guidate dal machine learning, un data warehouse come Amazon Redshift, sia serverless che con provisioning, è un'ottima scelta per i clienti che cercano il miglior rapporto prezzo/prestazioni su qualsiasi scala per carichi di lavoro di BI e analisi complessi. I clienti possono utilizzare Amazon Redshift come componente centrale della loro architettura dei dati con integrazioni valide disponibili per accedere ai dati in uso o importare o spostare i dati facilmente nel warehouse per eseguire analisi di alte prestazioni, tramite Zero-ETL e metodi senza codice. I clienti possono accedere ai dati archiviati in Amazon S3, ai database operativi come Aurora e Amazon RDS e ai data warehouse di terze parti tramite l'integrazione con Scambio dati AWS e combinarli con i dati archiviati nel data warehouse di Amazon Redshift per l'analisi. Iniziare a usare il data warehousing e, di conseguenza, lavorare con il machine learning sui dati disponibili è molto semplice.

Amazon Athena è adatto per le analisi interattive e l'esplorazione dei dati nel data lake o in qualsiasi origine dati tramite un framework di connettori estendibile (include oltre 30 connettori pronti all'uso per applicazioni e on-premise o altri sistemi di analisi nel cloud) senza doversi preoccupare dell'acquisizione o dell'elaborazione dei dati. Amazon Athena è creato su motori e framework open source come Spark, Presto e Apache Iceberg e offre ai clienti la flessibilità per utilizzare Python o SQL o lavorare su formati di dati aperti. Per chi vuole realizzare analisi interattive utilizzando framework e formati di dati open source, Amazon Athena è un ottimo punto di partenza.

No, le istanze riservate di Redshift non sono flessibili e si applicano solo all'esatto tipo di nodo riservato.

Serverless

Amazon Redshift Serverless è un'opzione serverless di Amazon Redshift che rende più efficace l'esecuzione e il dimensionamento delle analisi dei dati in pochi secondi senza la necessità di impostare e gestire l'infrastruttura del data warehouse. Con Redshift Serverless, qualsiasi utente, compresi gli analisti di dati, gli sviluppatori, i professionisti aziendali e i data scientist, può ottenere informazioni dettagliate dai dati semplicemente caricando e interrogando i dati nel data warehouse.

Con pochi passaggi nella Console di gestione AWS, puoi scegliere "configure Amazon Redshift Serverless" (configura Amazon Redshift Serverless) e iniziare a eseguire query sui dati. Puoi sfruttare i set di dati campione precaricati, come i dati meteorologici, i dati del censimento e i set di dati di riferimento, insieme alle query campione per avviare immediatamente le analisi. Puoi creare database, schemi, tabelle e caricare i dati da Amazon S3, condivisioni di dati Amazon Redshift, o eseguire ripristini da uno snapshot di cluster esistente con provisioning di Redshift. Puoi anche eseguire direttamente query sui dati in formati aperti (come Parquet oppure ORC) nei data lake Amazon S3, o interrogare i dati in database operativi, come Amazon Aurora, Amazon RDS PostgreSQL e MySQL. Consulta la Guida alle operazioni di base.

Se non hai esperienza nella gestione del data warehouse, non devi preoccuparti di impostare, configurare e gestire i cluster o regolare il warehouse. Puoi concentrarti sul ricavare informazioni dettagliate significative dai tuoi dati o sul fornire i risultati del tuo core business attraverso i dati. Paghi solo ciò che usi, mantenendo i costi gestibili. Continua a beneficiare di tutte le prestazioni di prim'ordine di Amazon Redshift, delle ricche caratteristiche di SQL, dell'integrazione senza soluzione di continuità con i datalake e i data warehouse operativi e delle capacità integrate di analisi predittiva e condivisione dei dati. Se hai bisogno di un controllo granulare del tuo data warehouse, puoi effettuare il provisioning dei cluster Redshift.

Puoi continuare a utilizzare tutte le ricche funzionalità di analisi dei dati di Amazon Redshift, come giunzioni complesse, query dirette ai dati nel data lake Amazon S3 e nei database operativi, viste materializzate, procedure archiviate, supporto di dati semistrutturati e ML, così come alte prestazioni su larga scala. Tutti i servizi correlati con cui Amazon Redshift si integra (come Amazon Kinesis, AWS Lambda, Amazon QuickSight, Amazon SageMaker, Amazon EMR, AWS Lake Formation e AWS Glue) continuano a funzionare con Amazon Redshift Serverless.

Puoi continuare a gestire tutti i casi d'uso di analisi dei dati. Con un semplice flusso di lavoro di attività iniziali, la scalabilità automatica e la possibilità di pagare in base all'uso, l'esperienza Amazon Redshift Serverless ora rende ancora più efficace e più conveniente eseguire ambienti di sviluppo e test che devono essere avviati rapidamente, analisi aziendali ad hoc, carichi di lavoro con esigenze di calcolo variabili e imprevedibili e carichi di lavoro intermittenti o sporadici.

Importazione e caricamento di dati

Puoi caricare i dati in Amazon Redshift da una serie di origini dati fra cui Amazon S3, Amazon RDS, Amazon DynamoDB, Amazon EMR, AWS Glue, Pipeline dei dati AWS e qualunque host compatibile con SSH su Amazon EC2 o on-premise. Amazon Redshift tenta di caricare i tuoi dati in parallelo in ciascun nodo di calcolo, per aumentare al massimo la velocità alla quale puoi inglobare i dati nel tuo cluster di data warehouse. I client possono collegarsi ad Amazon Redshift utilizzando ODBC o JDBC e inviare comandi "insert" di SQL per inserire i dati. Tale metodo, tuttavia, è più lento rispetto all'uso di S3 o DynamoDB, in quanto questi ultimi caricano i dati in parallelo su ciascun nodo di calcolo, mentre le istruzioni Insert di SQL li caricano attraverso l'unico nodo leader. Per maggiori dettagli sul caricamento dei dati in Amazon Redshift, consulta la nostra Guida alle operazioni di base.

La copia automatica di Redshift permette di automatizzare le copie dichiarazione tracciando le cartelle di Amazon S3 e acquisendo nuovi file senza l'intervento del cliente. Senza questa funzionalità, una copia dichiarazione inizia immediatamente il processo di acquisizione dei file per i file esistenti. La copia automatica estende il comando copy e offre la possibilità di: 1) automatizzare il processo di acquisizione dei file monitorando i percorsi Amazon S3 specificati per i nuovi file, 2) riutilizzare le configurazioni delle copie, riducendo la necessità di creare ed eseguire nuove copie dichiarazione per attività di acquisizione ripetitive e 3) tenere traccia dei file caricati per evitare la duplicazione dei dati.

Per iniziare, i clienti devono avere una cartella Amazon S3, a cui si può accedere dall'endpoint cluster/serverless Redshift utilizzando i ruoli IAM associati, e creare una tabella Redshift da utilizzare come destinazione. Quando il percorso di Amazon S3 e la tabella Redshift sono pronti, i clienti possono creare un'attività di copia utilizzando un comando copy. Una volta creata l'attività di copia, Redshift inizia il tracciamento del percorso di Amazon S3 specificato dietro le quinte e avvia le copie dichiarazione definite dall'utente per copiare automaticamente i nuovi file nella tabella di destinazione.

I casi d'uso principali sono: 1) i clienti che utilizzano Amazon EMR e AWS Glue per eseguire attività Apache Spark che accedono ai dati e li caricano in Amazon Redshift come parte delle pipeline di importazione e trasformazione dei dati (batch e streaming), 2) i clienti che utilizzano Amazon SageMaker per eseguire il machine learning utilizzando Apache Spark e devono accedere ai dati archiviati in Amazon Redshift per ingegneria delle funzionalità e trasformazione, 3) i clienti di Amazon Athena che utilizzano Apache Spark per eseguire analisi interattive sui dati in Amazon Redshift.

Baikal offre i seguenti vantaggi:

  • Facilità d'uso per iniziare ed eseguire le applicazioni Apache Spark sui dati in Amazon Redshift senza doversi preoccupare dei passaggi manuali necessari per configurare e gestire versioni non certificate di Spark
  • Comodità dell'utilizzo di Apache Spark da vari servizi AWS come Amazon EMR, AWS Glue, Amazon Athena e Amazon SageMaker con Amazon Redshift con una configurazione minima
  • Prestazioni migliorate durante l'esecuzione delle applicazioni Apache Spark su Amazon Redshift

Zero-ETL di Amazon Aurora in Amazon Redshift permette ai clienti di Amazon Aurora e Amazon Redshift di eseguire analisi e machine learning quasi in tempo reale su petabyte di dati transazionali offrendo una soluzione completamente gestita per rendere i dati transazionali di Amazon Aurora disponibili in Amazon Redshift pochi secondi dopo che sono stati scritti. Con Zero-ETL di Amazon Aurora in Amazon Redshift, i clienti scelgono semplicemente le tabelle di Amazon Aurora che contengono i dati da analizzare con Amazon Redshift e la funzione replica senza sforzo lo schema e i dati in Amazon Redshift. Così, i clienti non sono obbligati a creare e gestire pipeline di dati complesse e possono concentrarsi sul miglioramento delle loro applicazioni. Con Zero-ETL di Amazon Aurora in Amazon Redshift, i clienti possono replicare i dati da più cluster di database Amazon Aurora nella stessa istanza Amazon Redshift per ottenere informazioni complete su più applicazioni, consolidando al contempo gli asset principali di analisi e ottenendo risparmi significativi ed efficienza operativa. Con Zero-ETL di Amazon Aurora in Amazon Redshift, i clienti possono accedere alle funzionalità principali di analisi e machine learning di Amazon Redshift come le viste materializzate, la condivisione dei dati e l'accesso federato a più data store e data lake. Questo permette ai clienti di combinare le analisi principali e quasi in tempo reale per ottenere efficacemente informazioni importanti per le decisioni aziendali. Inoltre, i clienti utilizzano Amazon Aurora per le transazioni e Amazon Redshift per le analisi per non avere risorse di calcolo condivise e ottenere una soluzione performante e stabile a livello operativo.

L'integrazione zero-ETL di Amazon Aurora con Amazon Redshift offre un'integrazione perfetta tra i due servizi per l'analisi transazionale.

I dati in streaming sono diversi dalle tabelle di database tradizionali perché, quando si esegue una query su un flusso, viene catturata l'evoluzione di una relazione variabile nel tempo. Dall'altro lato, le tabelle catturano uno snapshot point-in-time di questa relazione variabile nel tempo. I clienti di Amazon Redshift sono abituati a lavorare su tabelle regolari e a elaborare processi di downstream (come le trasformazioni) di dati utilizzando un modello di batch tradizionale, ad esempio "ELT". Noi forniamo un metodo per utilizzare le viste materializzate di Redshift (MV) in modo che i clienti riescano a materializzare facilmente una vista point-in-time del flusso al momento della query, nel modo più veloce possibile per supportare i flussi di lavoro ELT.

Condivisione dati

I casi d'uso principali sono:

  • Un cluster ETL centrale che condivide i dati con molti cluster di BI/analisi per offrire l'isolamento del carico di lavoro in lettura e la capacità di carico opzionale.
  • Un fornitore di dati che condivide i dati con consumatori esterni.
  • Condivisione di insiemi di dati comuni come clienti e prodotti attraverso diversi gruppi aziendali e collaborazione per un'ampia analisi e data science.
  • Decentralizzazione di un data warehouse per semplificare la gestione.
  • Condivisione di dati tra ambienti di sviluppo, test e produzione.
  • Accesso ai dati Redshift da altri servizi di analisi AWS.

Con le query cross-database, puoi interrogare e unire i dati di qualsiasi database Redshift a cui hai accesso senza soluzione di continuità, indipendentemente dal database a cui hai effettuato il collegamento. Questo può includere database locali sul cluster e anche set di dati condivisi resi disponibili da cluster remoti. Le query cross-database offrono la flessibilità di organizzare i dati come database separati per supportare configurazioni multi-tenant.

Scambio dati su AWS rende più efficace lo scambio e l'utilizzo sicuro di dati di terze parti in AWS per i clienti di AWS. Analisti di dati, product manager, portfolio manager, data scientist, quantistici, tecnici di studi clinici e sviluppatori in quasi tutti i settori vorrebbero avere accesso a più dati per orientare l'analisi, addestrare modelli di ML e prendere decisioni basate sui dati. Ma non esiste un unico posto dove trovare i dati da più fornitori e non vi è coerenza nel modo in cui i fornitori offrono i dati, lasciando questi utenti a gestire un mix di supporti fisici spediti, credenziali FTP e chiamate API su misura. Al contrario, molte organizzazioni vorrebbero rendere i loro dati disponibili per la ricerca o per scopi commerciali, ma è troppo difficile e costoso sviluppare e mantenere la tecnologia di distribuzione, assegnazione dei diritti e fatturazione dei dati, il che riduce ulteriormente l'offerta di dati preziosi.

Scalabilità e concorrenza

Amazon Redshift Serverless esegue automaticamente il provisioning della capacità del data warehouse e dimensiona in modo intelligente le risorse sottostanti. Amazon Redshift Serverless regola la capacità in pochi secondi per offrire prestazioni elevate e operazioni semplificate in modo coerente anche per i carichi di lavoro più complicati e volatili. Con la caratteristica di dimensionamento simultaneo, è possibile supportare un numero illimitato di utenti e query in parallelo con prestazioni rapide e omogenee. Quando il dimensionamento simultaneo è abilitato, Amazon Redshift aggiunge automaticamente capacità al cluster quando il cluster sperimenta un aumento della coda delle query.

Per quanto riguarda il dimensionamento manuale, per migliorare le prestazioni di query o rispondere a un sovraccarico della CPU, della memoria o degli I/O, puoi aumentare il numero dei nodi del tuo cluster di data warehouse utilizzando la funzionalità di Ridimensionamento elastico tramite la Console di gestione AWS o l'API ModifyCluster. Le modifiche richieste del cluster di data warehouse vengono introdotte immediatamente. I parametri relativi all'utilizzo di calcolo, all'impiego dell'archiviazione e al traffico di lettura/scrittura dei cluster di data warehouse Redshift sono disponibili gratuitamente tramite la Console di gestione AWS o le API di Amazon CloudWatch. È inoltre possibile aggiungere parametri definiti dall'utente tramite le funzionalità di personalizzazione dei parametri di Amazon CloudWatch.

Con Amazon Redshift Spectrum, è possibile eseguire diversi cluster Redshift e accedere agli stessi dati in Amazon S3. Diversi casi d'uso possono richiedere cluster differenti. Ad esempio, è possibile utilizzare un cluster per la creazione di report standard e uno per le query di analisi scientifica dei dati. Il team di marketing, inoltre, potrà utilizzare cluster diversi da quelli utilizzati dal team operativo. Redshift Spectrum distribuirà automaticamente le attività di elaborazione della query tra le risorse condivise di un pool per la lettura e l'elaborazione dei dati da Amazon S3 e inoltrerà i risultati nel cluster Redshift per eventuali ulteriori operazioni di elaborazione.

Dipende. Quando utilizzi la funzionalità di dimensionamento della concorrenza, il cluster è completamente disponibile per le operazioni di lettura e scrittura durante il ridimensionamento delle azioni in parallelo. Con la funzionalità di dimensionamento elastico, il cluster non è disponibile per il lasso di tempo in cui il ridimensionamento ha luogo, dai 4 agli 8 minuti. Grazie all'elasticità dell'archiviazione gestita delle istanze RA3 di Redshift, il cluster è completamente disponibile e i dati vengono spostati automaticamente tra l'archiviazione gestita stessa e i nodi di calcolo.

In pochi minuti, il Ridimensionamento elastico aggiunge o rimuove i nodi da un singolo cluster Redshift per gestire la velocità di trasmissione effettiva della query. Ad esempio, il completamento puntuale di un carico di lavoro ETL di determinate ore nell'arco di un giorno o la creazione di un report di fine mese potrebbero richiedere risorse aggiuntive di Amazon Redshift. Il dimensionamento simultaneo procede all'aggiunta di risorse di cluster per aumentare la concorrenza complessiva della query.

No. Il dimensionamento simultaneo è un pool di risorse Amazon Redshift ad elevata scalabilità a cui i clienti non hanno accesso diretto.

Sicurezza

Amazon Redshift supporta misure di sicurezza leader del settore con le funzionalità integrate di federazione e gestione dell'identità per autenticazione unica (SSO), autenticazione a più fattori, controllo degli accessi a livello di colonna, sicurezza a livello di riga, controllo degli accessi basato su ruoli e Amazon Virtual Private Cloud (Amazon VPC). Amazon Redshift esegue la crittografia dei dati in transito e dei dati a riposo. Tutte le funzionalità di sicurezza di Amazon Redshift sono offerte pronte all'uso e senza costi aggiuntivi, per soddisfare i più elevati requisiti in termini di sicurezza, privacy e conformità. Ottieni inoltre il vantaggio che AWS supporta più standard di sicurezza e certificazioni di conformità rispetto a qualsiasi altro fornitore, tra cui ISO 27001, SOC, HIPAA/HITECH e FedRAMP.

Sì, Amazon Redshift offre il supporto per il controllo degli accessi in base al ruolo. Il controllo degli accessi a livello di riga ti consente di assegnare uno o più ruoli a un utente, oltre ad assegnare le autorizzazioni di sistema e di oggetto in base al ruolo. Puoi utilizzare i ruoli di sistema pronti all'uso come utente root, DBA, operatore e amministratore di sicurezza o creare i tuoi.

Le funzioni definite dall'utente (UDF) di AWS Lambda consentono di utilizzare una funzione AWS Lambda come funzione definita dall'utente in Amazon Redshift e di invocarla dalle query SQL Redshift. Questa funzionalità consente di scrivere estensioni personalizzate per la query SQL per ottenere una più stretta integrazione con altri servizi o prodotti di terze parti. Puoi scrivere funzioni definite dall'utente Lambda per abilitare la tokenizzazione esterna, il mascheramento dei dati, l'identificazione o la de-identificazione dei dati mediante l'integrazione con fornitori come Protegrity e proteggere o non proteggere i dati sensibili sulla base delle autorizzazioni e dei gruppi di un utente, in fase di query.

Con il supporto per il mascheramento dinamico dei dati, i clienti possono proteggere facilmente i dati sensibili ed eseguire il controllo granulare degli accessi gestendo le policy di mascheramento dei dati. Supponiamo di avere applicazioni che dispongono di utenti e oggetti multipli con dati sensibili e che non possono essere esposte a tutti gli utenti. In questo caso, ci sono i requisiti per fornire un livello di sicurezza granulare diverso a ogni gruppo di utenti. È possibile configurare il mascheramento dinamico dei dati di Redshift per permettere ai clienti di definire dei valori di dati mascherati coerenti, irreversibili e che preservano il formato. Quando la funzionalità è disponibile per il pubblico, puoi iniziare immediatamente a utilizzarla. Gli amministratori di sicurezza possono creare e applicare delle policy con pochissimi comandi.

Sì. I clienti che desiderano utilizzare i loro provider di identità aziendale come Microsoft Azure Active Directory, Active Directory Federation Services, Okta, Ping Federate o altri provider di identità conformi a SAML possono configurare Amazon Redshift per fornire il single sign-on. Puoi registrarti nel cluster Amazon Redshift con le identità di Microsoft Azure Active Directory (AD). Ciò consente di poterti registrare su Redshift senza duplicarvi le identità Azure Active Directory.

Sì. In fase di autenticazione al cluster Amazon Redshift, puoi utilizzare l'autenticazione a più fattori (MFA) per una sicurezza aggiuntiva.

Disponibilità e durabilità

Amazon Redshift rileva automaticamente la presenza di un nodo guasto nel tuo cluster di data warehouse e lo sostituisce. Sui cluster Dense Compute (DC) e Dense Storage (DS2), i dati sono archiviati sui nodi di calcolo per garantire un'elevata durabilità dei dati. Quando un nodo viene sostituito, i dati vengono aggiornati dalla copia mirror sull'altro nodo. I cluster RA3 e Redshift serverless non sono interessati allo stesso modo, poiché i dati sono archiviati in Amazon S3 e l'unità locale viene utilizzata solo come cache dei dati. Il cluster di data warehouse non è disponibile per query e aggiornamenti fino a quando non è terminato il provisioning del nodo sostitutivo e il medesimo non è stato aggiunto al database. Amazon Redshift mette immediatamente a disposizione il nodo sostitutivo e carica per primi da Amazon S3 i dati con la massima frequenza di accesso, in modo da consentirti di riprendere le attività di query nel più breve tempo possibile. I cluster a nodo singolo non supportano la replica dei dati. In caso di guasto di un'unità, occorre ripristinare il cluster partendo da uno snapshot su S3. Per la produzione si consiglia di utilizzare almeno due nodi.

Se il data warehouse di Amazon Redshift è un'implementazione Single-AZ e la zona di disponibilità del cluster diventa non disponibile, Amazon Redshift sposta automaticamente il cluster in un'altra zona di disponibilità (AZ) AWS senza alcuna perdita di dati o modifiche dell'applicazione. Per attivare questa funzione, è necessario abilitare la funzionalità di riposizionamento nelle impostazioni di configurazione del cluster.

A differenze del caso delle implementazioni Single-AZ, ora i clienti possono migliorare la disponibilità di Redshift eseguendo il data warehouse in un'implementazione multi-AZ. Un'implementazione multi-AZ permette di eseguire il data warehouse in più zone di disponibilità (AZ) AWS contemporaneamente e di continuare a lavorare in caso di guasti imprevedibili. Non sono richieste modifiche dell'applicazione per mantenere la continuità aziendale, dato che l'implementazione multi-AZ è gestita come un singolo data warehouse con un endpoint. Le implementazioni multi-AZ riducono il tempo di ripristino garantendo la capacità di ripristino automatico e sono ideali per i clienti con applicazioni di analisi business-critical che richiedono i livelli più alti di disponibilità e resilienza per i guasti AZ. Inoltre, questo permette ai clienti di implementare una soluzione che sia più compatibile con i suggerimenti del principio di affidabilità del Framework AWS Well-Architected. Per ulteriori informazioni su Multi-AZ di Amazon Redshift, fare riferimento qui.

RPO è l'acronimo di Recovery Point Objective (obiettivo del punto di ripristino) e riguarda la garanzia di reggenza dei dati in caso di guasti. L'RPO è la quantità di tempo massima accettabile dall'ultimo punto di ripristino dei dati. Determina quindi quando una perdita di dati è considerata accettabile tra l'ultimo punto di ripristino e l'interruzione del servizio. Multi-AZ di Redshift supporta RPO = 0, ovvero garantisce che i dati siano attuali e aggiornati in caso di guasti. I nostri test precedenti al lancio hanno rilevato che l'RTO con le implementazioni multi-AZ di Amazon Redshift è inferiore a 60 secondi (o meno) nell'improbabile caso di un guasto della zona di disponibilità.

La funzionalità di rilocazione di Redshift è abilitata di default su tutti i nuovi cluster RA3 e gli endpoint serverless e permette quindi al data warehouse di essere riavviato, senza perdite di dati né costi aggiuntivi, in un'altra zona di disponibilità in caso di guasto su larga scala. L'utilizzo di questa funzione è gratuito, ma ci sono delle limitazioni: ha un approccio semplificato alla disponibilità delle risorse nella zona di disponibilità coperta e l'obiettivo del tempo di ripristino (RTO) può essere danneggiato da altri problemi legati all'avvio di un nuovo cluster. Di conseguenza, i tempi di ripristino possono essere tra i 10 e i 60 minuti. Multi-AZ di Redshift supporta i requisiti di alta disponibilità fornendo un RTO misurato in decimi di secondo e offre una garanzia di continuità delle operazioni, perché non è mai soggetto a limitazioni della capacità o a potenziali problemi derivanti dalla creazione di un nuovo cluster.

Query e analisi dei dati

Sì, Amazon Redshift utilizza SQL standard del settore ed è accessibile utilizzando i normali driver JDBC e ODBC. Puoi scaricare i driver JDBC e ODBC personalizzati per Amazon Redshift dalla scheda Connect Client della nostra Console Redshift. Abbiamo convalidato l'integrazione con vari fornitori di BI ed ETL di uso comune, un certo numero dei quali offre prove gratuite per aiutarti a iniziare a caricare e utilizzare i tuoi dati. Puoi inoltre accedere ad Marketplace AWS per implementare e configurare in pochi minuti soluzioni studiate per lavorare con Amazon Redshift.

Amazon Redshift Spectrum tutti gli strumenti client di Amazon Redshift. Tali strumenti si collegheranno all'endpoint cluster Amazon Redshift tramite connessioni ODBC o JDBC. Non è necessario apportare alcuna modifica.

La sintassi delle query da applicare a tabelle in Redshift Spectrum è la stessa utilizzata per le tabelle nello storage locale del cluster Redshift; lo stesso vale per le funzionalità di query. Il riferimento alle tabelle esterne è contenuto nel nome di schema definito nel comando CREATE EXTERNAL SCHEMA con cui sono state registrate.

Amazon Redshift Spectrum supporta attualmente diversi formati di dati open source, tra cui Avro, CSV, Grok, Amazon Ion, JSON, ORC, Parquet, RCFile, RegexSerDe, Sequence, Text e TSV.<br>Amazon Redshift Spectrum supporta attualmente la compressione Gzip e Snappy.

Analogamente a quanto accade nelle tabelle locali, è possibile utilizzare il nome schema per indicare esattamente la tabella in questione utilizzando schema_name.table_name nella query.

Sì. Il comando CREATE EXTERNAL SCHEMA supporta Hive Metastore. Al momento non sono supportati DDL su Hive Metastore.

Per ottenere questa informazione, inoltra una query alla tabella di sistema SVV_EXTERNAL_TABLES.

Sì, la funzionalità di ML di Amazon Redshift rende facile per gli utenti SQL creare, addestrare e implementare modelli di machine learning (ML) utilizzando i comandi SQL noti. Amazon Redshift ML consente di sfruttare i tuoi dati in Amazon Redshift con Amazon SageMaker, un servizio di ML completamente gestito. Amazon Redshift supporta sia l'apprendimento non supervisionato (K-Means) che l'apprendimento supervisionato (algoritmi Autopilot, XGBoost, MLP). È anche possibile utilizzare i servizi IA di AWS Language per tradurre, redigere e analizzare campi di testo nelle query SQL con funzioni Lambda UDF integrate: consulta l'articolo del blog.

Amazon Redshift offre un'API di dati che puoi usare per accedere senza problemi ai dati da Amazon Redshift con tutti i tipi di applicazioni tradizionali, native per il cloud e containerizzate basate su servizi Web serverless e le applicazioni basate sugli eventi. L'API di dati semplifica l'accesso ad Amazon Redshift perché elimina la necessità di configurare i driver e di gestire le connessioni al database. Invece, è possibile eseguire comandi SQL su un cluster Amazon Redshift in modo semplice richiamando un endpoint API sicuro fornito dall'API di dati. L'API di dati si occupa della gestione delle connessioni al database e del caricamento dei dati. L'API di dati è asincrona, così puoi recuperare i risultati in un secondo momento. I risultati delle query vengono archiviati per 24 ore.

L'API di dati supporta sia le credenziali IAM che l'utilizzo di una chiave segreta di Gestione dei segreti AWS. Le API di dati creano federazioni di credenziali di AWS Identity and Access Management (IAM), così puoi utilizzare fornitori di identità come Okta o Azure Active Directory o le credenziali del database archiviate in Gestione dei segreti senza passare le credenziali del database nelle chiamate API.

Sì, puoi usare l'API di dati di Amazon Redshift da AWS CLI usando la nuova opzione della riga di comando aws redshift-data.

Puoi utilizzare l'API di dati di altri servizi come AWS Lambda, AWS Cloud9, AWS AppSync e Amazon EventBridge.

No, non vengono addebitati costi separati per l'utilizzo dell'API di dati.

Integrazioni Zero-ETL

Amazon Aurora MySQL - edizione compatibile, Amazon Aurora PostgreSQL - edizione compatibile (anteprima), Amazon RDS per MySQL e Amazon DynamoDB (anteprima limitata) supportano le integrazioni Zero-ETL con Amazon Redshift.

Dovresti utilizzare l'integrazione Zero-ETL di Aurora con Amazon Redshift quando hai bisogno di un accesso quasi in tempo reale ai dati transazionali. Utilizzando l'integrazione Zero-ETL, puoi sfruttare Amazon Redshift ML con semplici comandi SQL.

L'integrazione Zero-ETL di Aurora con Amazon Redshift è disponibile nell'edizione compatibile con Aurora MySQL per Aurora MySQL versione 3.05 (compatibile con MySQL 8.0.32) e versioni successive nelle regioni AWS supportate.

L'integrazione Zero-ETL di Aurora con Amazon Redshift è disponibile nell'edizione compatibile con Aurora PostgreSQL per Aurora PostgreSQL 15.4 nella Regione Stati Uniti orientali (Ohio).

L'integrazione Zero-ETL di Aurora con Amazon Redshift elimina la necessità di creare e gestire pipeline di dati complesse. È possibile consolidare i dati da uno o più cluster di database Aurora in un unico cluster di database Amazon Redshift ed eseguire analisi e ML quasi in tempo reale utilizzando Amazon Redshift su petabyte di dati transazionali di Aurora.

L'integrazione Zero-ETL di Aurora con Amazon Redshift è compatibile con Amazon Redshift serverless e Amazon Aurora Serverless v2. Quando si utilizzano sia Aurora Serverless v2 che Amazon Redshift serverless, è possibile generare analisi quasi in tempo reale sui dati transazionali senza dover gestire alcuna infrastruttura per le pipeline di dati.

Puoi iniziare utilizzando la console Amazon RDS per creare l'integrazione Zero-ETL specificando l'origine Aurora e la destinazione Amazon Redshift. Una volta creata l'integrazione, il database Aurora verrà replicato su Amazon Redshift e potrai iniziare a interrogare i dati una volta completato il seeding iniziale. Per ulteriori informazioni, leggi la guida introduttiva per le integrazioni Zero-ETL di Amazon Aurora con Amazon Redshift.

L'integrazione Zero-ETL da Aurora ad Amazon Redshift replica atomicamente le transazioni per garantire la coerenza dei dati tra il database Aurora di origine e il cluster Amazon Redshift di destinazione.
Di seguito sono riportati alcuni punti chiave sull'atomicità delle transazioni con questa integrazione:

  • Solo le transazioni eseguite in Aurora vengono replicate su Amazon Redshift. Le transazioni non eseguite o annullate non vengono applicate.
  • L'integrazione utilizza un processo di esecuzione in due fasi per applicare atomicamente ogni transazione ad Amazon Redshift. Vengono applicate tutte le modifiche ai dati nella transazione oppure, in caso di errore, non ne viene applicata nessuna.
  • La coerenza delle transazioni viene mantenuta tra l'origine e la destinazione. Dopo la replica, i dati per una determinata transazione saranno coerenti sia in Aurora che in Amazon Redshift.
  • Anche le modifiche allo schema tramite DDL o DML vengono applicate atomicamente per mantenere l'integrità.
  • L'applicazione atomica delle transazioni garantisce che non possano verificarsi transazioni parziali o stati di dati incoerenti tra i database.
 

L'integrazione Zero-ETL di Aurora con Amazon Redshift mantiene la piena coerenza transazionale tra il database Aurora di origine e il cluster Amazon Redshift di destinazione.

Ecco alcuni punti chiave su come vengono gestite le modifiche allo schema:

  • Le istruzioni DDL come CREATE TABLE, ALTER TABLE, DROP TABLE e così via vengono replicate automaticamente da Aurora ad Amazon Redshift.
  • L'integrazione effettua i controlli e gli aggiustamenti necessari nelle tabelle Amazon Redshift per le modifiche replicate allo schema. Ad esempio, l'aggiunta di una colonna in Aurora aggiungerà la colonna in Amazon Redshift.
  • La replica e le modifiche dello schema avvengono automaticamente in tempo reale con un ritardo minimo tra i database di origine e di destinazione.
  • La coerenza dello schema viene mantenuta anche se le modifiche DML avvengono parallelamente alle modifiche DDL.

Puoi creare viste materializzate nel tuo database Amazon Redshift locale per trasformare i dati replicati tramite l'integrazione zero-ETL. Connettiti al tuo database locale e utilizza le query tra database per accedere ai database di destinazione. È possibile utilizzare nomi di oggetti completi con notazione in tre parti (destination-database-name.schema-name.table-name) oppure creare uno schema esterno che faccia riferimento al database di destinazione e alla coppia di schemi e utilizzare la notazione in due parti (external-schema-name.table-name).

Le integrazioni Zero-ETL e l'elaborazione continua delle modifiche ai dati sono offerte senza costi aggiuntivi. Paghi per le risorse Amazon RDS e Amazon Redshift esistenti utilizzate per creare ed elaborare i dati di modifica generati come parte di un'integrazione Zero-ETL. Queste risorse possono includere quanto segue:

  • I/O e archiviazione aggiuntivi utilizzati abilitando il binlog avanzato
  • Costi di esportazione degli snapshot per l'esportazione iniziale dei dati per il seeding dei database Amazon Redshift
  • Archiviazione Amazon Redshift aggiuntiva per i dati replicati
  • Costi di trasferimento dati tra zone di disponibilità per lo spostamento dei dati dall'origine alla destinazione

Per ulteriori informazioni, consulta la pagina dei prezzi di Amazon Aurora.

Per visualizzare le domande frequenti sull'integrazione Zero-ETL di Amazon RDS per MySQL con Amazon Redshift, consulta la pagina Domande frequenti su Amazon RDS per MySQL. Per ulteriori informazioni sui prezzi di questa integrazione, consulta la pagina Prezzi di Amazon RDS per MySQL.

Backup e ripristino

I cluster Amazon Redshift RA3 e Amazon Redshift Serverless utilizzano Redshift Managed Storage, che dispone sempre dell'ultima copia dei dati disponibile. I cluster DS2 e DC2 eseguono il mirroring dei dati sul cluster per garantire che l'ultima copia sia disponibile in caso di guasto. I backup vengono creati automaticamente su tutti i tipi di cluster Redshift e conservati per 24 ore e su serverless vengono forniti punti di ripristino per le ultime 24 ore

Puoi anche creare backup che possono essere conservati a tempo indeterminato. Questi backup possono essere creati in qualsiasi momento e i backup automatici di Amazon Redshift o i punti di ripristino di Amazon Redshift Serverless possono essere convertiti in un backup utente per una conservazione più lunga.

Amazon Redshift è anche in grado di replicare gli snapshot o punti di ripristino in modo asincrono su Amazon S3 in una regione differente, a scopo di ripristino di emergenza.

Su un cluster DS2 o DC2, l'archiviazione di backup gratuito è limitata alle dimensioni complessive di archiviazione sui nodi del cluster di data warehouse e si applica soltanto ai cluster di data warehouse attivi.

Per un data warehouse con un'archiviazione totale di 8 TB, forniamo ad esempio fino a 8 TB di archiviazione di backup senza costi aggiuntivi. Per estendere il tempo di conservazione dei backup oltre un giorno è possibile utilizzare la Console di gestione AWS o le API Amazon Redshift. Per ulteriori informazioni sugli snapshot automatici, consulta la Guida alla gestione di Amazon Redshift.

Amazon Redshift esegue il backup soltanto dei dati che sono cambiati, quindi la maggior parte degli snapshot occupa soltanto uno spazio modesto nell'archiviazione di backup gratuita. Quando è necessario ripristinare un backup, è possibile accedere a tutti i backup automatici all'interno della finestra di conservazione del backup. Quando avrai scelto il backup dal quale effettuare il ripristino, provvederemo a effettuare il provisioning di un nuovo cluster di data warehouse e a ripristinare i tuoi dati al suo interno.

È possibile utilizzare la Console di gestione AWS o l'API ModifyCluster per gestire il periodo di conservazione dei backup automatici modificando il parametro RetentionPeriod. Se desideri disattivare i backup automatici, è sufficiente impostare il periodo di conservazione su 0 (opzione non consigliata).

Quando elimini un cluster di data warehouse, puoi specificare se creare uno snapshot finale al momento dell'eliminazione. Tale snapshot permette di ripristinare in un momento successivo il cluster di data warehouse eliminato. Tutti gli snapshot del tuo cluster di data warehouse creati manualmente in precedenza vengono conservati e fatturati alle tariffe standard Amazon S3, a meno che tu non decida di eliminarli.

Monitoraggio e manutenzione

I parametri relativi all'utilizzo del calcolo, all'impiego dell'archiviazione e al traffico di lettura/scrittura dei cluster di data warehouse di Amazon Redshift sono disponibili gratuitamente tramite la Console di gestione AWS o le API di Amazon CloudWatch. È inoltre possibile aggiungere ulteriori parametri definiti dall'utente tramite le funzionalità di personalizzazione dei parametri di Amazon CloudWatch. La Console di gestione AWS fornisce un dashboard di monitoraggio che permette di monitorare lo stato e le prestazioni di tutti i cluster in uso. Amazon Redshift fornisce informazioni sulle prestazioni di query e cluster anche tramite la Console di gestione AWS. Tali informazioni consentono di vedere quali utenti e query assorbono la massima frazione di risorse del sistema per diagnosticare i problemi di prestazioni visualizzando le pianificazioni delle query e le statistiche di esecuzione. È inoltre possibile osservare l'uso delle risorse di ciascun nodo di calcolo per garantire un buon equilibrio di dati e query su tutti i nodi.

Amazon Redshift effettua periodicamente la manutenzione per applicare correzioni, miglioramenti e nuove funzionalità al tuo cluster. Puoi cambiare le finestre di manutenzione programmate modificando il cluster, in modo programmatico o utilizzando la Console Redshift. Durante queste finestre di manutenzione, il cluster Amazon Redshift non è disponibile per le normali operazioni. Per ulteriori informazioni sulle finestre di manutenzione e i programmi per regione, consulta la sezione Finestre di manutenzione nella Guida alla gestione di Amazon Redshift.