テクニカルプア

備忘録と若干の補足

「入門 自然言語処理」第12章を読む上で必要なソフトウェアまとめ

 今日(正確には昨日)ようやく「入門 自然言語処理」を読み終えた。
かなり面白い本だったが、冒頭に必要であると明記されたソフトウェア群だけでは章が進むにしたがってだんだん内容をカバーしきれなくなっていて、いろいろとソフトウェアの追加をしなきゃならなかったりしてお茶目だと思った。11章まではそれで通った。
 が、12章に入ってから、扱う言語が英語から日本語にシフトしたためにNLTKではカバーできなくなり、形態素解析構文解析に使うためのソフトウェアを続々追加していかなきゃならなくなった。このソフトウェアたちが曲者で、Arch Linuxの公式レポジトリにない、AURにないの連続で、pacmanないしyaourtを叩いて待ってればオワリというわけにはいかなかった。もちろん今は時代が進んでいるので

./configure
make
make install

とか

python2 setup.py build
sudo python2 setup.py install

などとやれば簡単にインストールはできるのだけれど、困ったことに私は潔癖症の気があるようで、パッケージはpacmanで管理できないと嫌だ、という奴なのだ。半ば自分の潔癖症のせいでブチ切れながらPKGBUILDを書いてmakepkgを叩くということをしながら12章を読んでいたら、本文を読んでいる時間よりもPKGBUILDを書いてる時間のほうが長くなってしまったという悲しい結果に終わってしまった。

 さて、このようにブチ切れながらこの大変おもしろい本を読むような悲しい人間をこれ以上出さないために、12章を読む上で要求されるソフトウェア群を以下に列記する。12章を読む前にこれらをインストールして動作する状態におけばストレスを感じることなく本文を読むことができるだろう。
 なお、下にあるもので「AURになかった」ものについては私がPKGBUILDを書いてAURに公開しておきましたのでよろしければご利用ください。

形態素解析

最初に使われる形態素解析エンジン。AURにある(mecab)。

Mecabpython用インターフェース。AURにある(python2-mecab等)。

次に使われる形態素解析エンジン。AURになかった。

JUMANをpythonのモジュールとして使うためのバインディング。AURになかった。

構文解析

日本語係り受け解析器。AURになかった。

CaboChaのpython用インターフェース。AURになかった。

日本語構文・格解析器。ファイルサイズがすごく大きい。AURになかった。