日本語の形態素解析ツールといえばMeCabが有名だが、英文を形態素解析する場合はTreeTaggerというツールを使うのがメジャーなようだ。
TreeTagger
http://www.cis.uni-muenchen.de/~schmid/tools/TreeTagger/
手元の環境がWindowsなので、今回はWindowsにTreeTaggerを導入する手順を書く。次回はPythonから使う方法を書く予定。
ActivePerlをインストール
https://www.activestate.com/activeperl/downloads
TreeTagger本体を導入
公式サイトからTreeTaggerをダウンロード
http://www.cis.uni-muenchen.de/~schmid/tools/TreeTagger/
インストール手順は同梱のINSTALL.txtに書かれているので参照する。
TreeTaggerディレクトリをC:\直下に置く。他のディレクトリに置く場合はtag-*.batファイルの最初にあるpathを書き換えれば動く。
辞書データをダウンロード
公式サイトのChunker parameter files for PC の部分から必要なパラメータファイルをダウンロードして解凍する。
今回は英文を対象としたいので、Englihs chunker parameter fileをダウンロード。
解凍するとenglish-chunker.parというファイルが入っているので、これをenglish-utf8.parにリネームして、TreeTagger/libに保存する。
実行
C:\TreeTagger\bin に移動して、テスト用テキストtest.txtを作成する。
今回は、インストール手順書の中の文、「This is the Windows distribution of the TreeTagger.」を書いてみた
コマンドプロンプトを開き、以下のバッチファイルを実行すると形態素解析結果が表示される。
PS C:\TreeTagger\bin> .\tag-english.bat test.txt reading parameters ... tagging ... This NN/B-NC This is NN/B-NC is the NN/B-NC the Windows NN/B-NC Windows distribution NN/B-NC distribution of NN/B-NC of the NN/B-NC the TreeTagger NN/B-NC TreeTagger . NN/B-NC . finished.
結果の見方
形態素解析の結果については、以下のページが詳しい。
http://computer-technology.hateblo.jp/entry/20150824/p1
今後
次回はPythonから使う方法を見ていきたい。