はじめに
業務でテキストマイニングをする機会があり、
KHCoderというテキストマイニングができるツールを使っています。
割と簡単に分析ができるので、テキストマイニングを試しに使ってみたいという方には
おすすめのツールかなと思います。
とりあえず簡単な使い方をこの記事では紹介しておこうかと思います。
KHCoderとは
公式のサイトは以下なのでまずはそちらを参照していただければと思います。
上記サイトにも記載がありますが、
テキストマイニングは自由記述のアンケートやTwitterなどのツイートなどのデータから
定量的な分析結果を得ることができる手法です。
KHCoderを使うことで共起ネットワークやクラスタ分析が簡単にできるので、
Inputとなるデータさえあれば分析かけること自体はさっとできると思います。
実際に意味ある結果を得るためには表記揺れを吸収するために設定を変えたり、
業務独自の単語とかがあった場合はその単語を抽出できるように辞書の整備をしたりなど
事前処理もしくは事後処理を整えていく必要があるので
特に設定なしで使おうとするとうまくはいかないかというのが実際にやってみての感想です。
とりあえずここではとりあえず共起ネットワークを出力するための手順をざっと記載しておきます。
共起ネットワークの出力の仕方
実際はクラスタ分析や対応分析などKHCoderの分析手法はいろいろありますが、
パッとみて分かりやすいところで共起ネットワークの出力の仕方を記載しておきます。
- InputとなるテキストデータをExcelもしくはテキストファイルで準備する
- KHCoderを起動し、「プロジェクト」→「新規」を選択
- 1.で準備した分析をかけたいInputデータを選択する。
- 「前処理」→「前処理の実行」で前処理を実行する。
- 「ツール」→「抽出語」→「共起ネットワーク」→「OK」を選択する。
とりあえずこれだけで共起ネットワークを出力することはできるかと思います。
詳細についてはマニュアルを確認してください。
最後に
今の現場では不具合の内容の傾向分析などにテキストマイニングが使えないか画策中で、
実際に分析自体はテキストマイニングでパッと出せますが、
その分析結果から傾向を読み取るには業務経験がないと中々難しいところがあると感じてます。
最初テキストマイニングの存在を知った時はもう少し機械的に分析できるかなと思ってましたが、
蓋開けてみるとそんなことはないですね・・・。
自動化の一環で使いたいなーと思ってますが、思いの外分析者の経験や技量が問われるなと思うので
あくまで分析自体は楽になりますがそれをどう活かすかはその人次第ですね。
どう活かすかまでを考えられるような人がデータサイエンティストになるんだろうか。
せっかくなので業務に活かしながら知識などを身に付けていきたいなとは思っているので、
自分の中で新しい知見があればまたまとめておきたいなと思います。
とりあえず今日はこの辺で。
それでは〜
コメント