Mozc r56 手書き入力を試す

Google日本語入力オープンソース版であるMozcが、つい昨日アップデートされました。手書き入力のツールが追加されたことと、いくつかのバグフィックスが主な更新のようです。手書き入力を中心に、軽く紹介します。手書き入力に関して詳しくないので、性能については何も書けません。

続きを読む

論理的な思考能力が発現し、Prologに関心を抱くお年頃

前々から私は「NLPが好きだ、NLPと結婚したい、いや、むしろNLPになりたい!」みたいなことを言っていました。そしてPrologという言語は、NLPを行うために作られた言語らしいです。しかし私にとってPrologNLPは、今のところ関係ありません。と言いますのも、NLPとは全く別の興味で、Prologをはじめてみました。まだよく理解していない部分も多いのですが、間違いなくおもしろいです。


「手続き型」「ナントカ指向」「関数型」などではなく、「論理型」と呼ばれています。他の言語でバックトラックの機能を持ったものを知らないのですが、少なくともPrologが本家なのでしょう。最初のうちは思いついたアルゴリズムを、再帰を用いたコードにするのが難しいと感じますが、慣れてくると、むしろ自分の思考がPrologに近寄るのだと思います。私はそんな境地にはまだ程遠いけど。

続きを読む

集合論の英単語の一覧のまとめ

集合論の用語の一覧です。別には私は専門家じゃないけど。
出典は以下のURLから。
ただし手作業で抽出したので、その段階で様々な誤り、勘違いが含まれている可能性があることをご承知おきください。
また、文脈によって英語での呼び方が変わることもありますので、せいぜいググる時のヒント程度にご活用ください。

続きを読む

Rubyで日本語を含むURLを扱う

メモっぽい記事を書くのはあまり好きではないのですが、せっかく調べたので書きます。
Ruby1.9に移行したらどうなるのかはわかりませんけど、日本語の処理に多少の不安を残すRuby1.8にとって、日本語を含むURL、例えばwikipediaなどは扱いにくいです。
Ruby検索エンジンっぽいものを作っていまして、open-uriというモジュールで日本語を含むURLを開こうとしたらエラーが出てしまいました。
ちなみに私の環境はruby 1.8.7 (2009-06-12 patchlevel 174) [universal-darwin10.0]です。古そうだね。
バイト単位の処理と文字単位の処理を混同してしまうので、文字列処理は難しい。

続きを読む

内部的にGitでバージョン管理を行うCMSを作ってる

HTML5対応を目指している新しいCMSです。はてな記法で記述します。

もともとSQLiteを使っていたのですが、内部的にGitを使えばバージョン管理が楽そうなので、やってみているところです。
git diff, bralme, revertなど、Gitの強力な機能を利用していく予定です。

開発言語はPerlです。ソースコードgithubで公開されています。
gitを用いた実装はまだ開発版です。gitcmsというブランチで開発しています。
https://github.com/keiya/KeiSpade-CMS/tree/gitcms

回文になっている単語の一覧

概要

辞書を引いて、手作業で一生懸命調べました。

嘘です。

MeCabが使っている、IPAdicを元にした辞書を使って、ちょこちょこっと作りました。
読んでいても面白くないですが、逆から読んでも同じ単語の一覧という資料としての価値があると思ったので。
文字数ごとに分けて載せています。カタカナ表記・平仮名表記などで重複が見られるかもしれませんがご了承ください。また、読みで50音順に並べようと思っているのですが、今のところ順番はごちゃごちゃです。

続きを読む

Google日本語入力で素因数分解をする

Mozcとはなんぞ

Mozc とは Google 社が開発した日本語入力のオープンソース版の名称です。リリース版はGoogle日本語入力として公開されています。Google 社の工藤拓氏、小松弘幸氏の 20%プロジェクトか ら始まって正式プロジェクトに昇格し、昨年末にはとうとうベータ版から正式リリースになりました。しかしオープンソースにできない部分があるためか、Mozc と Google 日本語入力では機能が少し異 なる部分もあるようです。Google 日本語入力の開発版という位置付けでもあるので、ただ使うだ けなら Google 日本語入力のほうがいいかもしれません。あるいは研究のために改造するのもいいと思います。そのためのオープンソースでもありますので。

Google 日本語入力・Mozc ともにウェブ上の膨大なテキストから変換に必要な情報を生成しています。*1ウェ ブ上のテキストにはたくさんの誤字が含まれているため、例えば「危機一発」 などのよくある誤変換が新しい名詞として辞書登録されていたり*2、「雪歩」さんの読みが「ゆき」だったりといった残念な部分もあります。しかし Google 検索の「もしかして」機能を応用して補正をかけているので、そこまで多くの誤字は登録されていません。技術的な面の概要が知りたい場合は、ウェブで公開されている妙な漫画を見ると良いと思いま す。この漫画では Mozc の技術的な概要が一通り説明されています。
http://www.google.co.jp/intl/ja/ime/comic/

*1:追記 2011/03/24 Google日本語入力だけ

*2:もちろん、報告されているものは修正されています。検索結果とは違い、人間が手を加えてもいい情報なので。

続きを読む