JUMANの概要
JUMANは、京都大学の黒橋・河原研究室で開発された、形態素解析システムだ。
UNIX系や、Windows(試験版。一部機能に制限あり)で動作するC言語で書かれたプログラムだ。2019年4月時点の最新バージョンは7.0だ。
解析に使用する辞書は、基本的な単語については人手で入力した。その後Webをクローリングし自動獲得した単語を追加した。
JUMAN以前の商用形態素解析器は、辞書は固定で単語を増やす事はできなかったが、JUMANは上記のようにあとから追加できる。しかし、連接コストについては人手であらかじめ定義していた。
■スタンドアロンモード
juman と入力すると、標準入力(STDIN)から文章を入力し、形態素に分割し、標準出力(STDOUT)に分割結果を出力する。
■サーバモード
juman -S と入力すると、サーバとして起動する。別のマシンにもJUMANをインストールし、juman -C <サーバのhostname> と入力することで、JUMANサーバに接続される。でも・・・Windows版では同時に1人しか接続できない模様。残念な作りだ! しかも、最初の1人がサーバとの接続を切ると、サーバも一緒に終了してしまう。これまた残念な仕様だ。Windows版は実験版だからかもしれない。 ヘルプには、「ネットワーク環境での複数ユーザ による利用などに適したモードである」と書かれているので、UNIX版ではきっと複数人同時接続、同時利用ができるのかも!?
■Perlモジュールもあるよ
UNIX版にはPerlのモジュールも提供されている。こんな感じで使える。
-----------------------------------------------------------------------
use Juman;
$juman = new Juman;
$result = $juman->analysis( "この文を形態素解析してください." );
print $result->all();
-------------------------------------------------------------------------
■動作例
動作させてみた。「ドラえもん」の解析結果に注目すると「自動獲得」となっている。クローリングによって機械的に集めた語句であると思われる。
---------------------------------------
■ITとことんのトップページ
┗■本ページ