「入門 自然言語処理」第12章を読む上で必要なソフトウェアまとめ
今日(正確には昨日)ようやく「入門 自然言語処理」を読み終えた。
かなり面白い本だったが、冒頭に必要であると明記されたソフトウェア群だけでは章が進むにしたがってだんだん内容をカバーしきれなくなっていて、いろいろとソフトウェアの追加をしなきゃならなかったりしてお茶目だと思った。11章まではそれで通った。
が、12章に入ってから、扱う言語が英語から日本語にシフトしたためにNLTKではカバーできなくなり、形態素解析や構文解析に使うためのソフトウェアを続々追加していかなきゃならなくなった。このソフトウェアたちが曲者で、Arch Linuxの公式レポジトリにない、AURにないの連続で、pacmanないしyaourtを叩いて待ってればオワリというわけにはいかなかった。もちろん今は時代が進んでいるので
./configure make make install
とか
python2 setup.py build sudo python2 setup.py install
などとやれば簡単にインストールはできるのだけれど、困ったことに私は潔癖症の気があるようで、パッケージはpacmanで管理できないと嫌だ、という奴なのだ。半ば自分の潔癖症のせいでブチ切れながらPKGBUILDを書いてmakepkgを叩くということをしながら12章を読んでいたら、本文を読んでいる時間よりもPKGBUILDを書いてる時間のほうが長くなってしまったという悲しい結果に終わってしまった。
さて、このようにブチ切れながらこの大変おもしろい本を読むような悲しい人間をこれ以上出さないために、12章を読む上で要求されるソフトウェア群を以下に列記する。12章を読む前にこれらをインストールして動作する状態におけばストレスを感じることなく本文を読むことができるだろう。
なお、下にあるもので「AURになかった」ものについては私がPKGBUILDを書いてAURに公開しておきましたのでよろしければご利用ください。
形態素解析系
最初に使われる形態素解析エンジン。AURにある(mecab)。
Mecabのpython用インターフェース。AURにある(python2-mecab等)。
次に使われる形態素解析エンジン。AURになかった。
構文解析系
- CaboCha(https://code.google.com/p/cabocha/)
日本語係り受け解析器。AURになかった。
- CaboCha-python(同上)
CaboChaのpython用インターフェース。AURになかった。
日本語構文・格解析器。ファイルサイズがすごく大きい。AURになかった。