S3バケットに保存しているデータを分析する方法としてS3 SelectとAmazon AthenaとRed Shift Spectrumがあるということを最近覚えたのですが、それぞれの違いが曖昧だったので勉強しました。
S3 Select
Amazon S3バケット内のオブジェクトのデータを迅速かつ安価に分析できる。
単純なSQLを使用してデータのサブセットを取得可能。
ただし、簡単なデータ抽出に利用される機能のため、複雑なビッグデータ分析には向いていない。
Amazon Athena
SQLを使用してS3のデータを分析できるクエリサービス。
ほとんどの結果は数秒以内に返される。
Redshift Spectrum
S3のエクサバイトの非構造化データに対してSQLクエリを実行できる。
取得されるデータに基づいてクエリの計算能力を自動的にスケーリングするため、データのサイズに関係なくS3へのクエリは高速に実行される。
AWS SAAの試験で「ビッグデータ分析を実行できるサービスを選べ」的な問題があったらAmazon AthenaとRedShift Spectrumがだいたい正解に用意されている印象です。