「ソフトバンク・テクノロジー イービジネスサービス ユーザ会」に寄ってみた

ソフトバンク・テクノロジー イービジネスサービス ユーザ会2014
NEXT×Digital Marketing
https://info.softbanktech.jp/public/application/add/540

Googleのセッションだけ見てきました.

Googleの技術でビジネスに革新を〜
Googleにおける大量データ分析基盤とそれを用いた事例について


グーグル株式会社 エンタープライズ本部 
クラウドプラットフォーム セールススペシャリスト
塩入 賢治氏

見方によってはGoogle Cloudの宣伝とも思えるのですが,それでもインパクトは大きかったです.

前半は,Data Democratizationの主張です.
データ民主主義って、知っていますか?~グーグルの壮大な「試行錯誤型」経営 | 三谷流構造的やわらか発想法 | ダイヤモンド・オンライン

 これを提案したグレッグ・リンデンは当時、上司たちから徹底的に否定されました。デモまでつくったのに、テストすら許されませんでした。憤慨したリンデンは、A/Bテストを勝手にやりました。そしてその機能がAmazonにもたらす膨大な利益を明らかにしたうえで、そういった反対意見を一気に葬り去りました。

 オバマの選挙運動を支援したシロカー(*7)は、そういったデータの力による「上下関係の消滅」を「データ民主主義」と呼びます。A/Bテストの結果データの前に、身分や地位の上下はなく、すべての民は平等なのです。

データを直接見ることが出来るエンジニアやデータアナリストだけではなく,社員全てが生のデータを使うことができるべきだという主張でした.


後半はGoogle Cloudの紹介でした.

  • Google内部ではMap Reduceは使われていない,遅すぎるのでスピード感が合わない
  • Dremelを使っている
  • Google Cloud Platformでも,Big Queryとしてサービスをしている
  • Google Analyticsとの連携サービスも始めた

実際に,Amazon Web Services(AWS)ではHadoopのサービスがありますが,
Amazon EMR(Hadoop などのビッグデータフレームワークを簡単に実行)| AWS

Amazon Elastic MapReduceAmazon EMR)は、大量のデータを迅速、容易に、かつコスト効果よく処理するためのウェブサービスです。

Amazon EMR では、Hadoop というオープンソースフレームワークを使用したデータの分散処理を Amazon EC2 インスタンスの拡大縮小可能なクラスターで行うことができます。ログ分析、ウェブインデックス作成、データウェアハウス、機械学習、財務分析、科学シミュレーション、バイオインフォマティクスなど、Amazon EMR の用途は多岐にわたります。毎年数百万の Amazon EMR クラスターがカスタマーによって起動されています

GoogleではHadoopは,非公式にこんなインストールプロジェクトがあるくらいです.AWSと違って,オフィシャルにHadoopを提供するサービスプランはありません.
GitHub - GoogleCloudPlatform/solutions-google-compute-engine-cluster-for-hadoop: This sample app will get up and running quickly with a Hadoop cluster on Google Compute Engine. For more information on running Hadoop on GCE, read the papers at https://cloud.google.com/resources/.

Disclaimer

The application is not an official Google product.

このプロジェクトは,一応,オフィシャルページからリンクが貼られています.
Google Cloud Platform 上の Spark と Hadoop のドキュメント  |  Google Cloud Platform 上の Apache Hadoop  |  Google Cloud

How to Get Started
Use Apache Hadoop
Follow our tutorial to learn how to configure a persistent Hadoop cluster. The sample takes advantage of MapReduce tasks to parallelize the copy of input and output of MapReduce between Google Cloud Storage and HDFS.


むちゃくちゃおざなりです.じゃあGoogleは何を勧めているかというと,BigQueryです.
BigQuery - Analytics Data Warehouse  |  BigQuery  |  Google Cloud

Analyze Big Data in the cloud with BigQuery. Run fast, SQL-like queries against multi-terabyte datasets in seconds. Scalable and easy to use, BigQuery gives you real-time insights about your data.

SQLっぽいクエリでビッグデータを扱えるので,誰でも使えて,Googleクラウド上でクエリが実行されるのでテラバイトだろうが1秒で結果は返ってくる(だろう)とのことです.

かなりデモは衝撃的でした.


「おとうさんノート」などがもらえて(ソフトバンクなので),アンケートを書くとスマフォバッテリーももらえました.

こちらがソフトバンクのおとうさんノート.

こちらはスマフォ用充電バッテリー.