読者です 読者をやめる 読者になる 読者になる

ヌッ

適当

python gensimを使い始めました

研究でpython gensim使おうとボスからの指示があったのでいれました

 

python gensimはテキストからのトピック抽出ライブラリ

具体的にはブログの記事とかを見て、これは「音楽」に関するものだなとか「映画」に関するものだなってのが分かるという処理を簡単にするライブラリ(のはず)

自然言語処理ですね

 

そもそもpythonを使ったこと無いのだけどhomebrew使えばすぐインストール出来ました

ライブラリのインストールに関しては基本的には公式サイトを参考に進めました

 

ライブラリのインストールはpython用のパッケージ管理ツールのeasy_installを使いました

公式サイトには「easy_install hogehoge」で大体インストール出来るようなこと書いてあったけどnumpyとscipyはsudoを付けてやりました

このnumpy,scipyというライブラリをインストールした上でgensimをインストールすれば準備オッケーみたい

 

インストール終えたら次のコマンドで確認

python

>>>import numpy

>>>import scipy

>>>import gensim

これで何も出なかったらインストール完了

 

なのだけど僕の場合始めのimportの段階で

sh: sysctl: command not found

と出てきた

調べてもsysctlは普通元から入ってるものであってインストール方法とかは見当たらなかった

これはPATHが通ってないことが問題のようで以下のリンクを参考にsysctlのあるPATHを追加

sysctl Issues (Page 1) / Help & Support (Crunchbang 11 "Waldorf") / CrunchBang Linux Forums

 

こうしたら特に問題無さそうだったので公式サイトのチュートリアルをしました

radimrehurek.com

 

実行してみたところこんなエラーがでた

Could not import Theano, will use standard float for default ShardedCorpus dtype.

 ということでとりあえずTheanoをeasy_installでインストール

 

でもう一回実行

% python test.py                                    

[['human', 'interface', 'computer'],

['survey', 'user', 'computer', 'system', 'response', 'time'],

['eps', 'user', 'interface', 'system'],

['system', 'human', 'system', 'eps'],

['user', 'response', 'time'],

['trees'],

['graph', 'trees'],

['graph', 'minors', 'trees'],

['graph', 'minors', 'survey']]

やったぜ!

 

とりあえずチュートリアルのだけ回したけど何がどうなってるのかは全く分からないのでこれからやっていきます

pythonそのものはドットインストールちょいと進めて初歩的な部分がわかってきたところ

 

CとかJavaとかPHPやってきたのでpython自体の学習コストはそんな高く無さそう

あと今回のgensimのインストールは他のサイトも色々見て回ったけれど

他のところはyumとかwgetとか使ってたのでeasy_installの方が楽だし

公式サイトが一番参考になったような気がする

 

あと今更気付いたけどこれだけだと日本語対応してないのでMeCabか何かを入れなくてはいけない

easy_installしても見つからないしこれからMeCab周り調べます

 

以上です