JUMAN++の概要
JUMAN++は、京都大学の黒橋・河原研究室で開発された、形態素解析システムだ。
<デモページ>
JUMANの改良版で、RNNLM(Recurrent Neural Network Language Model)という意味的に汎化された言語モデルを利用する。RNNLMは、単語を意味的に汎化したベクトルとして扱い、品詞等の素性によるスコアと合わせて解析に利用するもの。
Wikipediaなどから集めた単語90万語からなる辞書を持つ。2019年4月時点の最新バージョンは2.0だ。
■速度・解析精度
V1に比べてV2は250倍も高速になったが、MeCabに比べると11分の1と劣っている。しかし、解析精度はMeCabをやや上回っている。
■解析例
「感想やご要望」という文字を、JUMANとJUMAN++で解析してみる。
JUMANの場合は、「感想/やご/要望」となった。「やご」はトンボの幼虫である。
-------------------------------------------------------------------------------------------------------
感想やご要望
感想 かんそう 感想 名詞 6 普通名詞 1 * 0 * 0 "代表表記:感想/かんそう カテゴリ:抽象物"
やご やご やご 名詞 6 普通名詞 1 * 0 * 0 "代表表記:やご/やご カテゴリ:動物"
要望 ようぼう 要望 名詞 6 サ変名詞 2 * 0 * 0 "代表表記:要望/ようぼう 補文ト カテゴリ:抽象物"
-------------------------------------------------------------------------------------------------------
JUMAN++の場合は、「感想/や/ご/要望」となり、意味的に正しい解析をしている。
-------------------------------------------------------------------------------------------------------
感想 かんそう 感想 名詞 6 普通名詞 1 * 0 * 0 "代表表記:感想/かんそう カテゴリ:抽象物 漢字"
や や や 助詞 9 接続助詞 3 * 0 * 0 NIL
ご ご ご 接頭辞 13 名詞接頭辞 1 * 0 * 0 "代表表記:御/お"
要望 ようぼう 要望 名詞 6 サ変名詞 2 * 0 * 0 "代表表記:要望/ようぼう 補文ト カテゴリ:抽象物 漢字"
-------------------------------------------------------------------------------------------------------
■ライセンス
Apache License, Version 2
---------------------------------------
■ITとことんのトップページ
┗■本ページ