JUMANの概要

 

 JUMANは、京都大学の黒橋・河原研究室で開発された、形態素解析システムだ。

UNIX系や、Windows(試験版。一部機能に制限あり)で動作するC言語で書かれたプログラムだ。2019年4月時点の最新バージョンは7.0だ。

 解析に使用する辞書は、基本的な単語については人手で入力した。その後Webをクローリングし自動獲得した単語を追加した。

 JUMAN以前の商用形態素解析器は、辞書は固定で単語を増やす事はできなかったが、JUMANは上記のようにあとから追加できる。しかし、連接コストについては人手であらかじめ定義していた。

 

スタンドアロンモード

 juman と入力すると、標準入力(STDIN)から文章を入力し、形態素に分割し、標準出力(STDOUT)に分割結果を出力する。

 

■サーバモード

 juman -S と入力すると、サーバとして起動する。別のマシンにもJUMANをインストールし、juman -C <サーバのhostname> と入力することで、JUMANサーバに接続される。でも・・・Windows版では同時に1人しか接続できない模様。残念な作りだ! しかも、最初の1人がサーバとの接続を切ると、サーバも一緒に終了してしまう。これまた残念な仕様だ。Windows版は実験版だからかもしれない。 ヘルプには、「ネットワーク環境での複数ユーザ による利用などに適したモードである」と書かれているので、UNIX版ではきっと複数人同時接続、同時利用ができるのかも!?

 

Perlモジュールもあるよ

 UNIX版にはPerlのモジュールも提供されている。こんな感じで使える。

 -----------------------------------------------------------------------

use Juman;

$juman = new Juman;

$result = $juman->analysis( "この文を形態素解析してください." );

print $result->all();

-------------------------------------------------------------------------

 

 ■動作例

動作させてみた。「ドラえもん」の解析結果に注目すると「自動獲得」となっている。クローリングによって機械的に集めた語句であると思われる。

f:id:ittokoton:20190428023136p:plain

 

 

 

 

---------------------------------------
ITとことんのトップページ

 ┗■形態素解析とかのトップページ

   ┗■本ページ