ChaSen(茶筌)の概要
ChaSen(茶筌)は、奈良先端科学技術大学院大学の松本研究室で開発された、入力文を単語単位に分割し品詞を付与するツールである。JUMANをベースに開発された。JUMANでは、形態素の連接コストを人手で定義していたが、茶筌では統計処理(HMM)によって自動的に連接コストを推定するように改善された。解析ミスデータを蓄積して精度を高める工夫もされている。
■前提プログラム
・iconv ・・・・・ 文字コード変換プログラム
・Darts-031 ・・・ Double-Arrayを構築するための シンプルな C++ Template Library。
Double-Array は Trie を表現するためのデータ構造。ChaSenやMeCabに採用されている。LGPLライセンスのフリーソフト。
■ダウンロード
・chasen ・・・・ 茶筌の本体
・ipadic ・・・・・ 日本語辞書
・UniDic ・・・・ 日本語辞書
■ライセンス
特になし!? 「ソフトウェアの使用,改変,再配布については,特に制限を課すことはしない。2.3.0 より、広告条項がなくなりました。」とあるので、ご自由に!ってことかな。
---------------------------------------
■ITとことんのトップページ
┗■本ページ