前回に引き続きSQLとPythonでデータサイエンス100本ノック進めていきます。 github.com S-006: レシート明細テーブル(receipt)から売上日(sales_ymd)、顧客ID(customer_id)、商品コード(product_cd)、売上数量(quantity)、売上金額(amount)の順…
前回に引き続きSQLとPythonでデータサイエンス100本ノック進めていきます。 github.com S-004: レシート明細のテーブル(receipt)から売上日(sales_ymd)、顧客ID(customer_id)、商品コード(product_cd)、売上金額(amount)の順に列を指定し、以下の…
前回の記事までSQLでデータサイエンス100本ノックの問題を解いていこうと考えていたのですが、やっぱり方針変えてPythonも同時進行で進めていきたいと思います。 細かいPandasの文法は現時点では一つもわかりませんが、解答を写経しながら調べていきます。
前回からデータサイエンス100本ノックで勉強し始めています。 github.com Docker環境が用意されていて、docker composeコマンドでJupyter NotebookとPostgresqlのコンテナが立ち上がるのでかなり便利です。
前回の記事までServerless Frameworkで動くものを作ることに取り組んで、簡単な構成は作れたので一旦Serverless Framework以外のことを勉強したいと思います。 Serverless FrameworkでAPIとか作って画面もVue.jsで作れたらアプリケーションっぽいもの作れそ…
今回はS3に関連するイベントを動かしてみたいと思います。 主に公式ドキュメントを読みながらコード書きました。 www.serverless.com デプロイしているserverlessスタックは以下のコマンドで削除することができました。 sls remove --region ap-northeast-1 …
Serverless Frameworkのコードを少しずつ書いていきます。 チュートリアルのコードをそのまま実行する時と違って、様々なエラーが発生しましたが、こういう上手くいかない体験を積み重ねることで理解が深まると思うのでグダグダになろうともやってみたいと思…
いくつかチュートリアルで手を動かしてServerless Frameworkのイメージは掴めたので、今回から自分でコードを書いていって何か動くものを作りたいと思います。 一つ一つの記事でちょっとずつ進めていきます。 とりあえず今回はGitリポジトリだけ作りました。…
何個かServerless Frameworkのチュートリアルをやってみてなんとなくイメージが掴めてきたので、あと一つぐらいチュートリアル試した後は自分で構成を考えてコード書いてデプロイしてみたいなと考えています。 作ってみたい構成のイメージを書き出してみます…
こちらのGitHubリポジトリを内容で自分の端末からデプロイしてみました。 github.com コマンド一発でAWSリソースが無事デプロイできました。
前回の記事でなんとなくserverless frameworkの概要はわかったので、この週末にほかのチュートリアルもやってみようと思います。 ざっとGitHubに上がってるexamplesを見ると以下のリポジトリが面白そうでした。 github.com
programming-gogogogo.hatenablog.com 前回の記事でserverless frameworkの概要を調べたので、今回はチュートリアル動画を見ながら手を動かしました。 こちらの動画を参考にしました。 www.youtube.com
serverless frameworkを少しずつ触っていきます。 そもそもserverless frameworkがなにかまだよくわかっていないので調べることから始めます。
programming-gogogogo.hatenablog.com 前回の記事でProxy経由のSSHはできたので、関連するLinuxコマンドであまり理解できてないものを本記事で調べていきます。
programming-gogogogo.hatenablog.com 前回の記事でProxyサーバーを構築するとこまでできたので、本番用のサーバーだと仮定してEC2を作成し、ProxyサーバーのIPアドレスからのみSSHアクセスできるようにしてSSHできるか検証しました。
proxyサーバーを構築するために参考になりそうな動画がYouTubeにあったので、手順を真似してサーバーを作成しました。 www.youtube.com
proxyサーバーを構築するにあたって、参考になりそうな動画がYouTubeにありました。 www.youtube.com この動画をそのまま真似してみたいと思います。 Proxy経由のSSHということまではやっていなくて、Proxyサーバーを構築するところまでです。
Proxyサーバーを通してEC2にSSHできるよう構築していくメモです。 まず今日はEC2を二つ作成しました。 一つはProxyサーバー、一つはProxyサーバーからのみSSH接続できるサーバー、というイメージです。
現場でよく使われているけど理解が浅い部分を、自分でゼロから実装して知識を整理していきたいと思います。 一つの記事でちょっとずつ進めていきます。
今年やったことや来年の課題などを書き出します。
AWSのAWS Certified Data Analytics Specialty試験に合格しました。 750点以上が合格になるですが、自分のスコアは753点でかなりギリギリでした。 けっこう試験時間を最後まで使って回答見直してよかったと思います。
本日勉強したことをメモします。 Kinesis Data StreamsとKinesis Firehoseの違い Kinesis Data Streamsはproducer/consumer アプリケーションを書く必要があるが、Kinesis Firehoseは必要ない。 Kinesis Produver constructorについて Kinesis Produver cons…
本日勉強したことをメモします。 Kinesis Data StreamsとKinesis Firehoseの違い Kinesis Data Streamsはproducer/consumer アプリケーションを書く必要があるが、Kinesis Firehoseは必要ない。 Kinesis Produver constructorについて Kinesis Produver cons…
本日学習したことをメモします。 Kinesis Data Streamsの制限事項 docs.aws.amazon.com Kinesis Data Streamsのシャードは一秒ごとに1000レコードか1MBの上限がある。
本日勉強したことをメモします。 Kibanaについて KibanaはAmazon Elastic serviceに付属するサービスで、Elasticsearchに入ったデータを可視化することができる。 www.elastic.co
本日勉強したことをメモします。 EMRのConsistent viewについて docs.aws.amazon.com Consistent viewはEMRバージョン3.2.1以降のオプションの機能。 EMRFSとS3を同期させて、書き込み後の読み取りに一貫性を持たせることができる。 Consistent viewを有効に…
本日勉強したことをメモします。 Athenaのクエリパフォーマンスを上げる方法 S3に保存されているデータ容量が増えるにつれ、Athenaのクエリパフォーマンスが落ちる場合は以下のような対策が考えられる。 ・頻繁に使うクエリ内容に応じてパーティションを作成…
本日勉強したことをメモします。 リアルタイムデータ処理を行うためのデータストア Kinesis Firehoseからデータをストリームするリアルタイムデータ処理を行うためのデータストアが必要な場合は、Elasticsearch Serviceなどが活用できる。 Elasticsearch Ser…
本日勉強したことをメモします。 Redshiftのクラスターについて Redshiftはクラスターという単位で管理される。 一つのクラスターには複数のコンピュートノートが含まれていて、リーダーノードがそれぞれのコンピュートノードを調整する。
本日勉強したことをメモします。 S3でデータを暗号化及びその後データ分析使うための設定 S3に置くデータを暗号化するには、AWS KMS CMKを用いてサーバーサイド暗号化を行う。 その後EMRなどデータ分析用のサービスでデータを使う場合は、EMRにS3へのアクセ…