JUMAN++の概要

 

JUMAN++は、京都大学の黒橋・河原研究室で開発された、形態素解析システムだ。

<デモページ>

JUMANの改良版で、RNNLM(Recurrent Neural Network Language Model)という意味的に汎化された言語モデルを利用する。RNNLMは、単語を意味的に汎化したベクトルとして扱い、品詞等の素性によるスコアと合わせて解析に利用するもの。

Wikipediaなどから集めた単語90万語からなる辞書を持つ。2019年4月時点の最新バージョンは2.0だ。

 

■速度・解析精度

 V1に比べてV2は250倍も高速になったが、MeCabに比べると11分の1と劣っている。しかし、解析精度はMeCabをやや上回っている。

 

■解析例

「感想やご要望」という文字を、JUMANとJUMAN++で解析してみる。

JUMANの場合は、「感想/やご/要望」となった。「やご」はトンボの幼虫である。

-------------------------------------------------------------------------------------------------------

感想やご要望
感想 かんそう 感想 名詞 6 普通名詞 1 * 0 * 0 "代表表記:感想/かんそう カテゴリ:抽象物"
やご やご やご 名詞 6 普通名詞 1 * 0 * 0 "代表表記:やご/やご カテゴリ:動物"
要望 ようぼう 要望 名詞 6 サ変名詞 2 * 0 * 0 "代表表記:要望/ようぼう 補文ト カテゴリ:抽象物"
-------------------------------------------------------------------------------------------------------

 

JUMAN++の場合は、「感想/や/ご/要望」となり、意味的に正しい解析をしている。

-------------------------------------------------------------------------------------------------------

感想 かんそう 感想 名詞 6 普通名詞 1 * 0 * 0 "代表表記:感想/かんそう カテゴリ:抽象物 漢字"
や や や 助詞 9 接続助詞 3 * 0 * 0 NIL
ご ご ご 接頭辞 13 名詞接頭辞 1 * 0 * 0 "代表表記:御/お"
要望 ようぼう 要望 名詞 6 サ変名詞 2 * 0 * 0 "代表表記:要望/ようぼう 補文ト カテゴリ:抽象物 漢字"

-------------------------------------------------------------------------------------------------------

 

■ライセンス

Apache License, Version 2

 

 

 

 

 

 

 

---------------------------------------
ITとことんのトップページ

 ┗■形態素解析とかのトップページ

   ┗■本ページ