python gensimを使い始めました
研究でpython gensim使おうとボスからの指示があったのでいれました
python gensimはテキストからのトピック抽出ライブラリ
具体的にはブログの記事とかを見て、これは「音楽」に関するものだなとか「映画」に関するものだなってのが分かるという処理を簡単にするライブラリ(のはず)
自然言語処理ですね
そもそもpythonを使ったこと無いのだけどhomebrew使えばすぐインストール出来ました
ライブラリのインストールに関しては基本的には公式サイトを参考に進めました
ライブラリのインストールはpython用のパッケージ管理ツールのeasy_installを使いました
公式サイトには「easy_install hogehoge」で大体インストール出来るようなこと書いてあったけどnumpyとscipyはsudoを付けてやりました
このnumpy,scipyというライブラリをインストールした上でgensimをインストールすれば準備オッケーみたい
インストール終えたら次のコマンドで確認
>>>import numpy
>>>import scipy
>>>import gensim
これで何も出なかったらインストール完了
なのだけど僕の場合始めのimportの段階で
sh: sysctl: command not found
と出てきた
調べてもsysctlは普通元から入ってるものであってインストール方法とかは見当たらなかった
これはPATHが通ってないことが問題のようで以下のリンクを参考にsysctlのあるPATHを追加
sysctl Issues (Page 1) / Help & Support (Crunchbang 11 "Waldorf") / CrunchBang Linux Forums
こうしたら特に問題無さそうだったので公式サイトのチュートリアルをしました
実行してみたところこんなエラーがでた
Could not import Theano, will use standard float for default ShardedCorpus dtype.
ということでとりあえずTheanoをeasy_installでインストール
でもう一回実行
% python test.py
[['human', 'interface', 'computer'],
['survey', 'user', 'computer', 'system', 'response', 'time'],
['eps', 'user', 'interface', 'system'],
['system', 'human', 'system', 'eps'],
['user', 'response', 'time'],
['trees'],
['graph', 'trees'],
['graph', 'minors', 'trees'],
['graph', 'minors', 'survey']]
やったぜ!
とりあえずチュートリアルのだけ回したけど何がどうなってるのかは全く分からないのでこれからやっていきます
pythonそのものはドットインストールちょいと進めて初歩的な部分がわかってきたところ
CとかJavaとかPHPやってきたのでpython自体の学習コストはそんな高く無さそう
あと今回のgensimのインストールは他のサイトも色々見て回ったけれど
他のところはyumとかwgetとか使ってたのでeasy_installの方が楽だし
公式サイトが一番参考になったような気がする
あと今更気付いたけどこれだけだと日本語対応してないのでMeCabか何かを入れなくてはいけない
easy_installしても見つからないしこれからMeCab周り調べます
以上です