ChaSen(茶筌)の概要

 ChaSen(茶筌)は、奈良先端科学技術大学院大学松本研究室で開発された、入力文を単語単位に分割し品詞を付与するツールである。JUMANをベースに開発された。JUMANでは、形態素の連接コストを人手で定義していたが、茶筌では統計処理(HMM)によって自動的に連接コストを推定するように改善された。解析ミスデータを蓄積して精度を高める工夫もされている。 

 

■前提プログラム

・iconv ・・・・・ 文字コード変換プログラム

Darts-031 ・・・ Double-Arrayを構築するための シンプルな C++ Template Library。

Double-Array は Trie を表現するためのデータ構造。ChaSenMeCabに採用されている。LGPLライセンスのフリーソフト

 

■ダウンロード

chasen  ・・・・ 茶筌の本体

・ipadic ・・・・・ 日本語辞書

・UniDic ・・・・ 日本語辞書

 

■ライセンス

 特になし!? 「ソフトウェアの使用,改変,再配布については,特に制限を課すことはしない。2.3.0 より、広告条項がなくなりました。」とあるので、ご自由に!ってことかな。

 

 

 

---------------------------------------
ITとことんのトップページ

 ┗■形態素解析とかのトップページ

   ┗■本ページ