AWS Summit Tokyo 2014: Amazon Kinesis Deep Dive

ソリューションアーキテクトの大谷さんと開発マネージャの堀さんによる、Kinesisの詳説です。 Kinesisの開発マネージャの方が解説してくれたこともあり、とても意義あるものでした。

事例紹介

測定(Metering)サービス　使った分だけ課金されるという特性　オペレーションを測定しないといけない
毎秒数千万レコード
毎時数テラバイト
数十万のデータ・ソース
月末にはオーディターでの100%の正確性
毎時数百万のファイル
スケールの課題
リアルタイムの要望
高い運用コスト
要求の変化毎時か毎日のデータ処理が従来の要求だったが、リアルタイム、早い意思決定、KeepEverything、エラスティックな拡張性、複数の目的に応じて同じデータを並行処理したい、などの新しい要求が出てきた。

用途単位でStreamを作成し、Streamは１つ以上のShardで構成される Shardは入力側秒間１MB 1000TPB 出力側2mB, ５TPSのキャパシティ入力されたデータは複数のAZに２４時間保存 Shardの増減でスケール

HTTPS/POSt SDK Fluentd Flume Log4J etc

ProducerがPut Recordするサンプル AWS CLIでできる

Shardへの分配ロジック：　md5でハッシュ化して該当のShardに分配されるパーティションキーを何にするかは重要

パーティションキーの数 > shardの数カーディナリティーの高いパーティションキーを使う

シーケンス番号を使って何度でも読むことができる何度取得してもシーケンス番号の順番は変わらない:重要

データ取得と処理

API Kinesis Client Library/ConnectorLibrary Storm EMR

これらの煩雑な処理を意識することなく、ビジネスロジックに集中できる

ネットワーク障害や500レベルエラーはリトライをするリカバリやロードバランシングでデータが最後のチェックポイントからリプレイされる

S3, DynamoDB, Redshift 4つのインタフェースを使うと簡単に書ける

1つのデータをいろいろなシステムでプロデューサーの負荷軽減データの一貫性を保ちたい

Kinesisに全てのデータを１回入力する必要に応じて新しいアプリを追加していく Agilityを高める

shardやEC2もキャパシティがある ProvisionedThroughputExceededException

shard１つで14$/month Getトランザクションは無料