本日勉強したことをメモします。
S3でデータを暗号化及びその後データ分析使うための設定
S3に置くデータを暗号化するには、AWS KMS CMKを用いてサーバーサイド暗号化を行う。
その後EMRなどデータ分析用のサービスでデータを使う場合は、EMRにS3へのアクセス権とAWS KMS CMKを使える権限を許可するIAMロールを付与する必要がある。
KMSをEMRに保存するようなことは不可能で、IAMロールでKMSの実行を許可する。
リアルタイムのデータ分析処理を分散する
リアルタイムのデータ分析処理を分散する には、Kinesis Data Firehoseを使ってS3にデータを流し、SparkでEMRにデータを取り込む。
RedshiftでCOPYコマンドを実行してEMRからRedshiftクラスターにデータをロードする。
Kinesisクライアント ライブラリのデータレコードの追跡
Java | Python | Ruby | Node.js | .NET の Amazon Kinesis クライアントライブラリ (KCL) は、各 Amazon Kinesis アプリケーションの Amazon DynamoDB テーブルを自動的に作成し、リシャーディングイベントやシーケンス番号チェックポイントなどの状態情報を追跡および管理します。
DynamoDB テーブルはアプリケーションと同じ名前であるため、アプリケーションの名前が同じリージョン内の同じアカウントにある既存の DynamoDB テーブルと競合していないことを確認する必要があります。
Glue クローラーが resource unavailableエラーを返す時
DBのセキュリティグループで全てのポートのTCP通信を」許可していないとGlue クローラーが resource unavailableエラーを返す場合がある。
セキュリティグループでTCPを制限するには別の対策が必要。