【AWS学習記録】勉強メモ2021/09/27 - プログラミング勉強ノート

本日勉強したことをメモします。

S3でデータを暗号化及びその後データ分析使うための設定

S3に置くデータを暗号化するには、AWS KMS CMKを用いてサーバーサイド暗号化を行う。
その後EMRなどデータ分析用のサービスでデータを使う場合は、EMRにS3へのアクセス権とAWS KMS CMKを使える権限を許可するIAMロールを付与する必要がある。

KMSをEMRに保存するようなことは不可能で、IAMロールでKMSの実行を許可する。

リアルタイムのデータ分析処理を分散する

リアルタイムのデータ分析処理を分散するには、Kinesis Data Firehoseを使ってS3にデータを流し、SparkでEMRにデータを取り込む。
RedshiftでCOPYコマンドを実行してEMRからRedshiftクラスターにデータをロードする。

Kinesisクライアントライブラリのデータレコードの追跡

aws.amazon.com

Java | Python | Ruby | Node.js | .NET の Amazon Kinesis クライアントライブラリ (KCL) は、各 Amazon Kinesis アプリケーションの Amazon DynamoDB テーブルを自動的に作成し、リシャーディングイベントやシーケンス番号チェックポイントなどの状態情報を追跡および管理します。
DynamoDB テーブルはアプリケーションと同じ名前であるため、アプリケーションの名前が同じリージョン内の同じアカウントにある既存の DynamoDB テーブルと競合していないことを確認する必要があります。

Glue クローラーが resource unavailableエラーを返す時

DBのセキュリティグループで全てのポートのTCP通信を」許可していないとGlue クローラーが resource unavailableエラーを返す場合がある。
セキュリティグループでTCPを制限するには別の対策が必要。

S3でデータを暗号化及びその後データ分析使うための設定

リアルタイムのデータ分析処理を分散する

Kinesisクライアント ライブラリのデータレコードの追跡

Glue クローラーが resource unavailableエラーを返す時

Kinesisクライアントライブラリのデータレコードの追跡