Streaming Processing for Big Data(2)

Dempsy,Storm
Streaming Processing for Big Data - なぜか数学者にはワイン好きが多い
に続いてEsper,HStreamingのドキュメントを流し読みしてみます.

まずはEsper.
http://esper.codehaus.org/

Event Processing with Esper and NEsper


Esper is a component for complex event processing (CEP), available for Java as Esper, and for .NET as NEsper.


Esper and NEsper enable rapid development of applications that process large volumes of incoming messages or events. Esper and NEsper filter and analyze events in various ways, and respond to conditions of interest in real-time.
Technology Introduction


Complex event processing (CEP) delivers high-speed processing of many events across all the layers of an organization, identifying the most meaningful events within the event cloud, analyzing their impact, and taking subsequent action in real time (source:Wikipedia).


Esper offers a Domain Specific Language (DSL) for processing events. The Event Processing Language (EPL) is a declarative language for dealing with high frequency time-based event data.


Some typical examples of applications are:

  • Business process management and automation (process monitoring, BAM, reporting exceptions, operational intelligence)
  • Finance (algorithmic trading, fraud detection, risk management)
  • Network and application monitoring (intrusion detection, SLA monitoring)
  • Sensor network applications (RFID reading, scheduling and control of fabrication lines, air traffic)

Esper/NEsperによるイベント処理


Esperは複合イベント処理(CEP)のための構成要素で,JavaにはEsperが使え,.NETにはNEsperが使えます.


EsperとNEsperは,大量の入力メッセージを処理するアプリケーションの短期間での開発を可能とします.Esper/NEsperは様々な方法でイベントをフィルタ・解析し,リアルタイムで関心のある状態に対し応答を返します.


技術紹介


複合イベント処理(CEP)は,イベントの山の中から最も意味のあるイベントを識別し,その影響を解析し,リアルタイムに次の活動を始めることで,ある大系のすべてのレイヤを横断する沢山のイベントを高速に処理します(出典:Wikipedia).


Esperはイベント処理のためのドメイン特化言語(DSL)を提供します.イベント処理言語(EPL)は高頻度時間ベースイベントデータのための宣言型言語です.


アプリケーションの典型的な例は,次のようなものです:

  • ビジネスプロセスの運用と自動化(プロセス監視,BAM;ビジネス活動監視,例外報告,オペレーショナル・インテリジェンス)
  • 金融(アルゴリズム取引,詐欺検出,リスクマネージメント)
  • ネットワーク及びアプリケーション監視(侵入検知,サービスレベル保証監視)
  • センサネットワークアプリケーション(RFID情報取得,製造ラインや航空交通状態のスケジューリングとコントロール)

CEPって,何か大企業が使うイメージがあって何だかなぁ...


HStreamingはどうでしょう?
Adello – Mobile audience targeting through deep learning technology and self-improving campaigns

HStreaming Community Edition

HStreaming Community Edition is a real-time data analytics platform to analyze, process, store and archive streaming data on Hadoop. HStreaming Community Edition is compatible with all major Hadoop distributions including Apache Hadoop, Cloudera, MapR, Amazon EMR, Hortonworks, EMC, and IBM.

HStreaming Community Edition is a great way to explore and start working with real time data on Hadoop either using the high-level Pig language or native MapReduce. HStreaming Community Edition does not require any software installation on a Hadoop cluster and thus can be used from any development machine or desktop.
Compatibility

HStreaming Community Edition comes pre-packaged for Ubuntu/Debian and Redhat Linux for Cloudera CDH3 and MapR. HStreaming is also available as a downloadable tar archive.
License

HStreaming Community Edition is free.
Features

HStreaming Community Edition allows to run real-time analytics processes using the native MapReduce API or HStreaming's stream-enhanced version of Apache Pig. Community Edition includes a visualization connector which allows to generate simple web-based visualization from within a Pig query, Jobtracker UI enhancements displaying streaming job parameters, HStreaming command line shell and a variety of stream connectors.

HStreaming Community Edition can run multiple real-time jobs concurrently. The number of attempts per map or reduce task is is limited to 1.

HStreamingコミュニティ版

HStreamingコミュニティ版は,ストリーミングデータをHadoop上で解析,処理,保存,アーカイブするリアルタイムデータ解析プラットフォームです.HStreamingコミュニティ版は,Apache Hadoop,Cloudera,MapR,Amazon EMR,Hortonworks,EMS,そしてIBMなどによる主要なHadoopディストリビューションと互換性があります.

HStreamingコミュニティ版は,ハイレベルなPig言語もしくはネイティブのMapReduceを使ったHadoop上でリアルタイムデータを調査・作業する優れた手法であると言えます.HStreamingコミュニティ版はHadoopクラスタ上に他のソフトウェアのインストールを必要とせず,従ってどんな開発マシンやデスクトップからも使用することができます.

互換性

HStreamingコミュニティ版はCloudera CDH3とMapR用がUbuntu/DebianRedhat Linuxに同包されています,HStreamingはtarアーカイブでもダウンロード可能です.

ライセンス

HStreamingコミュニティ版はフリーです.

特徴

HStreamingコミュニティ版は,ネイティブのMapReduce APIまたはHStreamingのストリーム用に拡張されたバージョンのApache Pigを用いて,リアルタイム解析処理を実行することができます.コミュニティ版は,Pigクエリ,ストリーミングジョブパラメータを表示するためのジョブトラッカーUI拡張,HStreamingコマンドラインシェル及び様々なストリームコネクタから作られる,シンプルなWebベースの可視化を可能とする可視化コネクタを含みます.

HStreamingコミュニティ版は複数のリアルタイムジョブを並行に走らせることができます.

MapまたはReduceタスクごとの試行数は1に制限されます.

あれ,MySQLHadoop自体と違って,無料版は制限があるのか...ダメですやん...