Mozc r56 手書き入力を試す
Google日本語入力のオープンソース版であるMozcが、つい昨日アップデートされました。手書き入力のツールが追加されたことと、いくつかのバグフィックスが主な更新のようです。手書き入力を中心に、軽く紹介します。手書き入力に関して詳しくないので、性能については何も書けません。
続きを読む論理的な思考能力が発現し、Prologに関心を抱くお年頃
前々から私は「NLPが好きだ、NLPと結婚したい、いや、むしろNLPになりたい!」みたいなことを言っていました。そしてPrologという言語は、NLPを行うために作られた言語らしいです。しかし私にとってPrologとNLPは、今のところ関係ありません。と言いますのも、NLPとは全く別の興味で、Prologをはじめてみました。まだよく理解していない部分も多いのですが、間違いなくおもしろいです。
「手続き型」「ナントカ指向」「関数型」などではなく、「論理型」と呼ばれています。他の言語でバックトラックの機能を持ったものを知らないのですが、少なくともPrologが本家なのでしょう。最初のうちは思いついたアルゴリズムを、再帰を用いたコードにするのが難しいと感じますが、慣れてくると、むしろ自分の思考がPrologに近寄るのだと思います。私はそんな境地にはまだ程遠いけど。
続きを読むRubyで日本語を含むURLを扱う
メモっぽい記事を書くのはあまり好きではないのですが、せっかく調べたので書きます。
Ruby1.9に移行したらどうなるのかはわかりませんけど、日本語の処理に多少の不安を残すRuby1.8にとって、日本語を含むURL、例えばwikipediaなどは扱いにくいです。
Rubyで検索エンジンっぽいものを作っていまして、open-uriというモジュールで日本語を含むURLを開こうとしたらエラーが出てしまいました。
ちなみに私の環境はruby 1.8.7 (2009-06-12 patchlevel 174) [universal-darwin10.0]です。古そうだね。
バイト単位の処理と文字単位の処理を混同してしまうので、文字列処理は難しい。
Google日本語入力で素因数分解をする
Mozcとはなんぞ
Mozc とは Google 社が開発した日本語入力のオープンソース版の名称です。リリース版はGoogle日本語入力として公開されています。Google 社の工藤拓氏、小松弘幸氏の 20%プロジェクトか ら始まって正式プロジェクトに昇格し、昨年末にはとうとうベータ版から正式リリースになりました。しかしオープンソースにできない部分があるためか、Mozc と Google 日本語入力では機能が少し異 なる部分もあるようです。Google 日本語入力の開発版という位置付けでもあるので、ただ使うだ けなら Google 日本語入力のほうがいいかもしれません。あるいは研究のために改造するのもいいと思います。そのためのオープンソースでもありますので。
Google 日本語入力・Mozc ともにウェブ上の膨大なテキストから変換に必要な情報を生成しています。*1ウェ ブ上のテキストにはたくさんの誤字が含まれているため、例えば「危機一発」 などのよくある誤変換が新しい名詞として辞書登録されていたり*2、「雪歩」さんの読みが「ゆきぽ」だったりといった残念な部分もあります。しかし Google 検索の「もしかして」機能を応用して補正をかけているので、そこまで多くの誤字は登録されていません。技術的な面の概要が知りたい場合は、ウェブで公開されている妙な漫画を見ると良いと思いま す。この漫画では Mozc の技術的な概要が一通り説明されています。
http://www.google.co.jp/intl/ja/ime/comic/
*1:追記 2011/03/24 Google日本語入力だけ
*2:もちろん、報告されているものは修正されています。検索結果とは違い、人間が手を加えてもいい情報なので。