【AWS学習記録】勉強メモ Redshiftの設計についてなど

本日勉強したことをメモします。

Redshiftのクラスターについて

Redshiftはクラスターという単位で管理される。
一つのクラスターには複数のコンピュートノートが含まれていて、リーダーノードがそれぞれのコンピュートノードを調整する。

Redshiftのノードスライスについて

コンピュートノードで管理しているストレージはスライスで分割されていて、ノードスライスと呼ばれる。
データはノードスライスに分散して格納されていて、ノードスライス間でデータの共有できない。
それぞれのノードが独立して動くような感じになる。

Redshiftの分散スタイルについて

Redshiftにデータを格納する際、各ノードスライスにデータを分散する。 データの分散方式としてAUTO分散、EVEN分散、キー分散、ALL分散の四通りがある。

docs.aws.amazon.com

Redshiftのタスクノードのインスタンス

タスクノードはスポットインスタンスにしたほうがコスト最適化できる場合が多い。

Athenaのworkgroupについて

docs.aws.amazon.com

Athenaで実行したクエリ結果を他のチームメンバーが見れないようにする場合などにworkgroupが活用できる。

チームごとにworkgroupを作成し、それぞれのチームでクエリ結果を暗号化する。

EMRFSとHDFSについて

docs.aws.amazon.com

EMRクラスターはEMR File System(EMRFS)かHadoop Distributed File System(HDFS)の二つのファイルシステムが使える。

EMRFSはファイルをS3に置くため、データに永続性がある。
HDFSクラスターと紐づいているためクラスターが落ちるとHDFSに保存されているデータも消失する。