無料で商用利用可能な形態素解析ツールを調べています
色々調べるとRakutenMAとMeCabというのが良さそうでした
他にもあるので詳細はこちら
どちらがいいかなぁということでpythonでサンプルを作ってみました
はじめにRakutenMAで試してみました
Rakuten MAとは
Rakuten MAとは、楽天技術研究所からリリースされた100%JavaScriptで書かれている日本語・中国語用の形態素解析ツールです。(詳細には違うけど理解しやすくするために形態素解析としている)
JavaScript実装のためブラウザ上での動作が容易です。
学習機能があります。
公式の説明サイト https://github.com/rakuten-nlp/rakutenma/blob/master/README-ja.md
デモページ http://rakuten-nlp.github.io/rakutenma/
インストール
動作確認環境は以下の通り
- windows10 64bit
- python 3.6.3
インストール
pip install rakutenma
サンプル
#!/usr/bin/python
# -*- Coding: utf-8 -*-
from rakutenma import RakutenMA
rma = RakutenMA(phi=1024, c=0.007812)
rma.load("model_ja.json") #学習済みのやつ
rma.hash_func = rma.create_hash_func(15)
print(rma.tokenize("これからAmazonで買い物をします"))
結果
[['これ', 'D'], ['から', 'P-k'], ['A', 'N-pn'], ['mazon', 'J-c'], ['で', 'X'], ['買い
物', 'N-nc'], ['を', 'P-k'], ['し', 'V-dp'], ['ます', 'X']]
正直あまり精度がよくないです
しかしデモページにて同じ文章をやったらうまく単語を抜き出すことができました
pipでインストールした時にデフォルトで入ってくる単語アセットが古いからかなぁと予想しています(未検証)
参考文献
- Rakuten MA, https://github.com/rakuten-nlp/rakutenma/blob/master/README-ja.md
- パソコン工房, https://www.pc-koubou.jp/blog/rakuten_ma.php
- pypi rakutenma, https://pypi.python.org/pypi/rakutenma/