本日勉強したことをメモします。
複数のデータソースからデータ分析用にデータを集計する設計
複数のデータソースからデータ分析用にデータを集計するには以下の設計が考えられる。
データソース->DMS->S3->Glue->データレイク用S3->Athena->BIツール
DMSで進行中の更新も集計するタスクを作成し、S3に連携してGlueジョブがデータに対し変換処理を行えるようにする。Glueによって変換した後にデータレイク用S3にデータを置き、QuickSightなどのBiツールでデータを可視化する。
IoTデバイスからデータを集計する設計
IoTデバイスからデータを集計するにはAWS IoTサービスを使う。
その後にKinesis Data Firehoseでデータレイクにデータを送る。
その後にS3DistCpを使ってS3からEMRクラスターにデータを移動させる。
S3DistCpについて
S3DistCpはS3の操作に最適化されたオープンソースのツールとのこと。
ざっと見た感じはデータのソースの場所と送信先の場所を指定しS3上のデータを送ることがやりやすそうな印象。
データのトークン化(Tokenization)
秘匿情報などを扱う際はデータのトークン化を行うことでセキュリティリスクを軽減させる。
AWS Artifactについて
AWS Artifactはコンプライアンス関連情報のレポートをダウンロードできる機能とのこと。
様々なデータをAWS上で扱う際にコンプライアンスの基準に沿ってるか確認するのに重宝しそうな印象。