本日勉強したことをメモします。
Redshiftのクラスターについて
Redshiftはクラスターという単位で管理される。
一つのクラスターには複数のコンピュートノートが含まれていて、リーダーノードがそれぞれのコンピュートノードを調整する。
Redshiftのノードスライスについて
コンピュートノードで管理しているストレージはスライスで分割されていて、ノードスライスと呼ばれる。
データはノードスライスに分散して格納されていて、ノードスライス間でデータの共有できない。
それぞれのノードが独立して動くような感じになる。
Redshiftの分散スタイルについて
Redshiftにデータを格納する際、各ノードスライスにデータを分散する。 データの分散方式としてAUTO分散、EVEN分散、キー分散、ALL分散の四通りがある。
Redshiftのタスクノードのインスタンス
タスクノードはスポットインスタンスにしたほうがコスト最適化できる場合が多い。
Athenaのworkgroupについて
Athenaで実行したクエリ結果を他のチームメンバーが見れないようにする場合などにworkgroupが活用できる。
チームごとにworkgroupを作成し、それぞれのチームでクエリ結果を暗号化する。
EMRFSとHDFSについて
EMRクラスターはEMR File System(EMRFS)かHadoop Distributed File System(HDFS)の二つのファイルシステムが使える。
EMRFSはファイルをS3に置くため、データに永続性がある。
HDFSはクラスターと紐づいているためクラスターが落ちるとHDFSに保存されているデータも消失する。