文章中から頻出単語の抽出
たぶん自然言語処理に初めて手を出しました.
HTMLの記事から頻出単語を抽出して,その頻出単語でキーワード検索して
別の記事をオススメするってのが目的.
こういう文章中の単語の抽出には大きく分けて二種類あるとのこと.
まず辞書を使う形態素解析というもの.
あるかじめよく使われる単語をまとめたインデックス,
つまり辞書となるライブラリを用意する.
で,辞書にある言葉ごとに抽出という方法.
これは同じグループ全員に同じライブラリ入れてもらわないといかんので,
とりあえず放置.
もう一つが辞書を使わないN-gram.
N文字ずつ抽出する方法.
簡単そう!と思ってQiitaに上がってたコードをちょい修正して,
2文字ずつ抽出するバイグラムを実装しました.
もともと句読点は無視するコードだったけど
括弧とか空白とか数字とかNULL文字とかも無視するように修正.
さらにそこにHTMLのタグ,つまり<>で囲まれてる部分も無視.
すると抽出した文字の種類が結構まとまった.
問題としては
・無視する記号をコードにベタ打ちってのが糞コード感出てる.
・連続した頻出度高い二文字はどうせならつなげたい.
レコメンドシステムなのでしばらく様子見てから後で修正するつもり.