急増するデータ活用ニーズに向け、ビッグデータの安定処理・コスト削減を可能とする 基幹技術「Data Processing Conductor」を開発 | 株式会社フロムスクラッチ
2018.07.31 (Tue)
Press

急増するデータ活用ニーズに向け、ビッグデータの安定処理・コスト削減を可能とする 基幹技術「Data Processing Conductor」を開発

株式会社フロムスクラッチが開発・提供する、マーケティングプラットフォーム「b→dash(ビーダッシュ)」に、ビッグデータ処理の際に発生しやすい障害を最小限に抑え、且つコストをかけずに処理し、ビッグデータ分散処理クラスタを安定化させる基幹技術「Data Processing Conductor」を開発いたしましたのでお知らせします。この技術は、Amazon EMR(Amazon Elastic MapReduce ※1)を使用した独自のビッグデータ分散処理基盤管理の仕組みを開発することにより、これまでデータ活用において多くの企業で課題とされてきた「データ処理時の安定性の確保」と「コスト削減」の両立を実現しました。

%e3%82%ad%e3%83%a3%e3%83%97%e3%83%81%e3%83%a3

【基幹技術開発の背景】

ビッグデータの分散処理クラスタは、EMRに限らず、その一部に障害が発生することを前提として構築されており、それ故に安定的なサービス提供に苦労する傾向にあります。フロムスクラッチではこのようなビッグデータの分散処理クラスタの抱える安定性の問題に対し、独自のEMRクラスタ管理システムを構築することで機能の障害を極少化し、マーケティング担当者が毎日安定的に安心してビックデータを活用いただける環境を低コストで実現いたしました。

Amazon EMRを活用した「Data Processing Conductor」には、以下のような機能が含まれています。

【「Data Processing Conductor」の機能詳細】

・導入企業のデータ量に合わせて適切なEMRクラスタを供給する機能
・時刻やキュー(※2)の蓄積状況に応じてEMRクラスタをオートスケールさせる機能
・EMRクラスタがダウンした場合に自動検知・自動復旧する機能
・EMRクラスタがダウンした場合に復旧完了まで自動的にバックアップのEMRクラスタにスイッチする機能

こうした基幹技術を開発することにより、b→dashでは、常時300以上、一日最大1000のノード数のEMRクラスタの安定運用を実現しました。さらに、ビジネスデータ10TB/日、ユーザーオペレーション15,000回/日といった大量のデータを確実で安全に処理すると同時に、柔軟性・自由度の高いデータ活用を実現いたしました。

なお、このEMRクラスタ管理システムは、2018年度の「AWS Summit Tokyo 2018
(URL:https://www.awssummit.tokyo/tokyo/)」で開催された、「Startup Architecture of the year 2018」にてアーキテクチャの斬新さを評価され、最優秀賞を受賞いたしました。

今後もb→dashを通じて「いつでも・ひとつで・誰でも」データ活用経営が実現できるマーケティングソリューションを提供してまいります。

▼Amazon Elastic MapReduce(EMR)概要
URL:https://aws.amazon.com/jp/emr/

(※1) Amazon EMRは、オープンソースソフトウェア(OSS)の分散並列処理プログラミングフレームワーク「Apache Hadoop」をベースにしており、ログ分析やウェブインデックス、データ変換(ETL)、機械学習などを含む様々なビッグデータを確実かつ安全に処理・分析する分散処理サービスです。
(※2) キューとは、コンピュータの基本的なデータ構造の一つで、データを先入れ先出しのリスト構造で保持するもの。データを入力された順番通りに処理する必要がある処理に用いられます。