Google距離と,ほんの一言

圧縮を利用した情報量規準的な距離を定義した研究者が,ずいぶん前にGoogle検索エンジンを利用した距離を発表しています.
The Google Similarity Distance

The Google Similarity Distance
Google類似度距離

Words and phrases acquire meaning from the way they are used in society, from their relative semantics to other words and phrases. For computers, the equivalent of "society" is "database," and the equivalent of "use" is "a way to search the database." We present a new theory of similarity between words and phrases based on information distance and Kolmogorov complexity. To fix thoughts, we use the World Wide Web (WWW) as the database, and Google as the search engine.
単語と語句は,使われた状況での他の単語や語句の意味と比較した上でその意味が決まります.
例えばコンピュータにとっては,「社会」は「データベース」であって,「使うこと」と「データベースから検索すること」は同じ意味です.
我々は,情報論的距離とコルモゴロフ計算量に基づいた単語と語句の新しい類似度理論を提案します.
改良するために,WWWをデータベースとし,Google検索エンジンとします.

これ,ある類似度計算法を考案した同僚に私が改良方法の研究を依頼されてある方法を考えた時に,類似の手法をサーベイしていて知ったものでした.
それらも面白かったのですが,Google類似度距離を参考にさらに情報量規準を組み合わせると非常に楽しい結果が出ることが簡易的に証明できたので,
思わず同僚に楽しげに語ってしまったら

んー...それ,おもしろそうだなぁ...

と,ほんの一言,言ってくれました.

なんか,「おもしろそうだなぁ」の一言だけで,私がやりたいことを理解してもらえたような錯覚になって,今のスランプが克服できるような気がしました.
その人は研究者じゃないので私とは職種が違うのですが,興味は近いようで,持つべきものは共感してもらえる同僚だと思いました.

数ヶ月前,複数の類似度距離を巧妙に組み合わせる「混合距離」を考えたので,さらに混合する次元を一つ増やすことができそうです.


さて.数ヶ月ほどのんびりさせてもらったから,復活しましょうかねぇ.
不可能はない,に.
オプテック以来かな.