「Yahoo! JAPAN Tech Blog」で紹介された形態素解析APIを「笑うヤカン」で使ってみる

| | コメント(0) | トラックバック(0) この記事をはてなブックマークに追加

 こんにちわ! 地球冷やしてる?
さて牛歩の歩みを続けております(といっても全く公開してないので知ってるのはオレだけという放置プレイ)人工無脳プロジェクト『笑うヤカン』です。
えー、プロトタイプとして辞書型を作ってみるという方針でした。
で形態素解析エンジンMeCab(和布蕪)を使わせていただいて、手持ちのテキストデータとか青空文庫とかからいろいろと学習させてみているんですが、想像していたよりまともな文章を作ってくれる確率が低い。まあ当然ですよね。ずっと研究されてる方もいるんだし簡単に出来ちゃうわけないです。
さしあたって名詞の使い方をなんとかしてやりたい。

 たとえば「ひまわりは夏に咲くよ」という文章を元に覚えてる単語に置き換えさせてみたところ、「予告編はストローに咲くよ」とか言いやがりました。多分映画レビューの文章で覚えた単語から引っ張ってきたんでしょう。ちょっと笑いまいたが、いくらなんでも酷い。完全ランダムではないのに。
 解決方法のひとつとしては一般名詞の用途を絞り込むこと。
この場合は、
ひまわり→植物
夏→季節
とかそういう感じです。これは基本的に手動で登録です。要するに『どこでもいっしょ』ですな。
完璧な辞書を作ってしまうとヘンテコなことを言わなくなってしまうんではないかという懸念はあるんですが、そこはあえて分類を無視したりもできるわけですし、データがあることに越したことはないんですな。
問題は手動登録のデータ量。やりたくないし現実的に無理。ま、同じような効果を狙うための作戦はあるんですけどね。

 人名とか地名とかの固有名詞は優先的に分類を登録したいと考えてます。
そこで Yahoo! の形態素解析API にご登場願いました。こいつとMeCabを並行して使ってみようかなと思ったわけです。
タイムリーなことに Yahoo! JAPAN Tech Blogの現時点での最新のエントリーは「日本語形態素解析APIとマッシュアップ」でした。
Yahoo! のAPIということでレスポンス速度という心配事が増えたり一日のクエリ送信回数制限とかいろいろと問題はありますので、主にクーロンで走らせる学習にしか使用しない予定。つまり公開用のフロントアプリケーションではMeCabのみを使う方針です。
さて、どうなりますことやら。

そんな感じです。
よしなに。

トラックバック(0)

このブログ記事を参照しているブログ一覧: 「Yahoo! JAPAN Tech Blog」で紹介された形態素解析APIを「笑うヤカン」で使ってみる

このブログ記事に対するトラックバックURL: http://www.studio-wiz.com/mt/mt-tb.cgi/88

コメントする

このブログ記事について

このページは、マピロが2008年12月15日 11:26に書いたブログ記事です。

ひとつ前のブログ記事は「今週の『ハンマーセッション!』『極悪がんぼ』」です。

次のブログ記事は「今週の『日本沈没』『バクマン』『喧嘩商売』」です。

最近のコンテンツはインデックスページで見られます。過去に書かれたものはアーカイブのページで見られます。

ウェブページ

Powered by Movable Type 4.14