67WS Yahoo! Japn テキスト系API

67WS(ロクナナワークショップ)に参加してきた。
http://event.67.org/

いつもは有料のウェブ制作系セミナーを開いているらしいが、今回は無料。

貧乏学生には、まだまだ敷居の高い有料セミナー。

無料の影にはYahoo! Japanの存在があるようだ。

                                                                            • -

講演者は山下達雄さん。

ブログでいろんなことを紹介されている。早速RSS登録。
たつをのChangeLog : http://chalow.net/

たつをさんはYahoo! Japan研究所で形態素解析などを研究されている。
大学の頃からずっと研究されていて、大学⇒企業⇒研究所とすすんでいるので、単なる論理ではない。
実用化まで含めて、スペシャリストだ。

                                                                            • -

形態素解析って何?

おおざっぱにいうと

形態素解析(けいたいそかいせき)とは、日本語や中国語のように、明確な単語の区切りを持たない言語の文字列を解析し、意味的な単語のかたまりに区切っていくための解析手法である。

英語などは単語の区切りにスペース(空白)を用いる。単語がくっつくとしても ' や - を使うことで単語の区切りは非常に明確だ。

一方日本語や中国語は、明確な単語の区切りがない。人間には全く問題がないのだが、コンピューターはこれでは困る。つまりコンピュータにとっての明確な単語の区切りがなければ、人間に対してアウトプットすることが良い感じにできない。

利用例としては、検索エンジンやかな漢字変換。
検索では適当に打ち間違えてもそれらしい検索結果を表示したり、違う検索フレーズを提供したりする。文章で入力したとしてもある程度判断してくれる。

その裏には、辞書ライブラリを参照し、文字列の中から意味的な単語のかたまりを抽出してそれをサービスに利用する、というような処理がされているのだ。

                                                                            • -

Yahoo! Japan APIの紹介・利点

うだうだ言っていてもしょうがないので、Yahoo! Japan APIを紹介しよう。

自分ではまだ何も作れないが、未来の自分のためにまとめておきたい。

Yahoo! Japan テキスト解析API : http://developer.yahoo.co.jp/webapi/jlp/

正直言うと、これで完了だ。あとはたつをさんのブログを参照しながら、制作に励むのが正しい。

ただ、なぜこれを使うのかだけ、理由を1つ上げておこう。

    1. ライブラリの管理は全てYahoo! Japanが行っている。プログラマは、膨大な単語のライブラリを更新したり、管理したりすることを必要としない。

つまり、プログラムに集中できると言うことだ。

アプリケーションIDを取得するなど、手続はあるが、ライブラリの更新と比較したら何でもない。

                                                                            • -

サービスまとめ

あとはセミナー中にたつをさんが紹介していたサービスをまとめて終わろう。

Yahoo!のテキスト解析系APIとウェブ検索APIの使い方についてのプレゼンで出てきたURLのリスト
http://chalow.net/2009-07-10-2.html

「Yahoo! キーフレーズ抽出API」による Ajaxタグクラウドデモ
http://chalow.net/2009-07-09-3.html

YAPIWO をさくらサーバに移動
http://chalow.net/2009-07-05-2.html

すべてたつをさんのブログだが、まとまっているからコレがベスト。


是非ご参照ください。

最後までお読みいただきありがとうございます。