Windowsで英文形態素解析ツールTreeTaggerを使う

日本語の形態素解析ツールといえばMeCabが有名だが、英文を形態素解析する場合はTreeTaggerというツールを使うのがメジャーなようだ。

TreeTagger
http://www.cis.uni-muenchen.de/~schmid/tools/TreeTagger/

手元の環境がWindowsなので、今回はWindowsにTreeTaggerを導入する手順を書く。次回はPythonから使う方法を書く予定。

ActivePerlをインストール

https://www.activestate.com/activeperl/downloads

TreeTagger本体を導入

公式サイトからTreeTaggerをダウンロード

http://www.cis.uni-muenchen.de/~schmid/tools/TreeTagger/

インストール手順は同梱のINSTALL.txtに書かれているので参照する。

TreeTaggerディレクトリをC:\直下に置く。他のディレクトリに置く場合はtag-*.batファイルの最初にあるpathを書き換えれば動く。

辞書データをダウンロード

公式サイトのChunker parameter files for PC の部分から必要なパラメータファイルをダウンロードして解凍する。

今回は英文を対象としたいので、Englihs chunker parameter fileをダウンロード。

解凍するとenglish-chunker.parというファイルが入っているので、これをenglish-utf8.parにリネームして、TreeTagger/libに保存する。

実行

C:\TreeTagger\bin に移動して、テスト用テキストtest.txtを作成する。

今回は、インストール手順書の中の文、「This is the Windows distribution of the TreeTagger.」を書いてみた

コマンドプロンプトを開き、以下のバッチファイルを実行すると形態素解析結果が表示される。

PS C:\TreeTagger\bin> .\tag-english.bat test.txt
reading parameters ...
tagging ...
This NN/B-NC This
is NN/B-NC is
the NN/B-NC the
Windows NN/B-NC Windows
distribution NN/B-NC distribution
of NN/B-NC of
the NN/B-NC the
TreeTagger NN/B-NC TreeTagger
. NN/B-NC .
finished.

結果の見方

形態素解析の結果については、以下のページが詳しい。

http://computer-technology.hateblo.jp/entry/20150824/p1

 

今後

次回はPythonから使う方法を見ていきたい。

コメントする

メールアドレスが公開されることはありません。 * が付いている欄は必須項目です