LogoLightBackgroundTransparent copy

エッセンシアとは…?

Essentiaはビッグデータを効率よく管理し解析するためのプラットフォームです。AWSとAzureのクラウド上でまずは無料でその効果をお試しできます。データ量や解析要件に応じて利用するコンピュータ数を柔軟に拡張できる特徴があります。

ビッグデータ解析の最大の問題は形式がバラバラの非構造化データです。従来はETLツールなどで対応できていましたが、データ量と種類が爆発的に増大し、時間とコストがかかり過ぎる大きな問題になっています。ビッグデータ解析では80%が前処理にかかると言われています。

この問題を解決するために我々はEssentiaを開発しました。クラウドに蓄積されている多様な形式の膨大なファイル群を、そのままの状態で、仮想スキーマを構築し、即解析可能にします。

さらにEssentia独自の並列インメモリーデータ処理エンジンで複雑な解析要件も超高速で解析可能にします。

Essentiaのアーキテクチャー

architecture

使い慣れた言語やツールと簡単に連携

Essentiaは R や Python などの高級言語と簡単に連動させることができます。Essentia は Redshift などの高性能ウエアハウスへデータを読み込ませるためだけの前処理ツールとして利用することもできますが、Essentia 独自の並列インメモリー処理エンジンで複雑なデータ解析まで済ませた結果を、使い慣れている Tableau, Qlikview, Excel などのBIツールに取り込んで表示させるなど柔軟な組み合わせが簡単に実現できます。

Essentia管理画面のデモ

データ保存庫へ接続

EssentiaはAmazon S3かAzure Blobに蓄積されている、多種多様な形式のファイル群を”そのまま”解析可能にします。従って従来のように、ファイルを複製移動させたり、色々なETL処理をしながら多数の中間ファイルを作る必要がありません。

以下はEssentiaの管理画面の例で、S3にある複数のバケットにアクセスキーを設定し接続し、蓄積されているファイル群を表示している例です。

Untitled-3-1024x650
Untitled-81-1024x636

データの仮想化

データ仮想化はEssenita独自の大変便利な機能です。多様な形式のファイル群を、論理的に一つのスキーマ(表形式で構造化されたデータセット)として抽象化します。EssentiaではこれをCategoryと呼んでいます。

以下は複数のCategoryがリスト表示されている画面例と、”climate”と名前をつけCategoryの実態はtar.bz2形式のアーカイブファイルであることを表示している画面例です。

Untitled-5-1024x656
Untitled-7-1024x659

Category(仮想スキーマ)の利点は、圧縮やアーカイブされている膨大な数のファイル群を”そのまま”解析する効率性だけでなく、いつでもオリジナルのファイルに戻り解析をやり直せるため、中間ファイル作成中の間違いや改ざん問題も解決できることにあります。

データの確認や簡単な集計

以下はCategory(仮想スキーマ)の中身を数行サンプリング表示している画面例と、Categoryの中に全体で何件のレコードがあり、それぞれのカラムにどんなタイプのどの程度の大きさのデータが入っているのか、またそれぞれのユニーク数の推定値など概要を表示している画面例です。

Untitled-11-1024x663
Untitled-10-1024x661

さらに各Category(仮想スキーマ)に簡易SQLで直接問い合わせができます。例えば日毎にZIPアーカイプされているWebログ1年分に対して、ドメイン名別に何件のアクセス記録があるかなど簡単な集計ができます。

つまり従来は解析の前に必要であったファイルの転送やETL処理など面倒な前処理が全て不要になり作業効率を飛躍的に向上できます。

高度な解析

Essentiaは使い慣れたData warehouseへデータを読み込ませるための単なる前処理ツールとしてお使い頂くこともできますが、さらに並列インメモリー解析エンジンで複雑で高度な解析も超高速に実現できます。

並列インメモリーとしてはSparkも大変優れたツールです。しかしSparkでは前処理にはHadoopなど別のツールを組み合わせる必要があり全体として複雑なシステムになりますが、Essentiaなら前処理から高度な解析まで一気通貫で効率的に実現できます。

また、大量データを集計キーを動的に変えながら多段でMap-Reduceを繰り返すような複雑な処理は従来の他のシステムでは大変困難でしたが、Essentiaなら簡単に超高速解析できる点も特徴です。

Essentiaのプログラミングはbash shellで行いますが、ビジネスユーザーはshell言語を知らなくても、管理画面から選択し実行ボタンをクリックするだけ複雑な解析プログラムを操作することができます。以下の管理画面例は、利用可能な解析プログラムリストを表示している例です。

Untitled-9-1024x633

Essentia独自の並列インメモリー処理の構造は、非常に柔軟性が高く、機械学習など様々な既存ライブラリーを組み込むなど、いろいろな拡張やカスタマイズも容易に実現できます。

Japan