Excelアドインで日本語形態素解析

1.概要

日本語形態素解析とは、文法的な情報の注記の無い自然言語のテキストデータ(文)から、対象言語の文法や、辞書と呼ばれる単語の品詞等の情報に基づき、 形態素(Morpheme, おおまかにいえば、言語で意味を持つ最小単位)の列に分割し、それぞれの形態素の品詞等を判別する作業です。(出典:Wikipedia) 形態素解析エンジンとしては、Mecabが有名です。筆者もPythonにインストールして、テキストマイニングに利用しています。しかし、会社などで利用したい 場合は、このような環境を個人的な利用目的で構築するにしても、セキュリティ上の問題などでIT管理者などから利用許可が下りない場合があります。 今回は、普段から利用しているExcelのアドインでテキストマイニングをして見たいと思います。特別なサーバーなどへのインストールなしで、 個人PCにアドインのインストール許可さえもらえれば誰でも簡単にテキストマイニング(ワードクラウド)分析をすることができます。

2.利用方法

(1)Excelのアドインである「E2D3」を追加します。「挿入」→「アドインを入手」をクリックし
     「データ分析」を選択して、「E2D3」を探します。見つかったら、「追加」をクリックしま
     す。これで、「E2D3」が利用できるようになります。
(2)分析するデータ(テキスト文書)を準備します。
(3)下記サイトの日本語形態素解析サービス(無料ツール)を利用して、文書を解析し品詞毎に分解、
     統計データとして出力します。
※ブックマーク等に登録しておくと良いでしょう。

(4)分析するデータ(テキスト文書)をテキストボックスに貼付け、解析ボタンをクリックします。
(5)解析結果が日本語形態素と統計の2種類画面出力されるので、統計の表をコピペして、Excelの
     空きシートに一時的に貼り付けます。
(6)フィルタを追加して、品詞で名詞を選択してフィルタリングします。名詞のみのデータになるの
     で、フィルタしたシートのB列(出現数)、C列(表記)をコピーして退避し、B列とC列を入れ替え
     て整形します。このデータをテンプレートとなるE2D3テンプレート.xlsxの「マイニング」シー
     トのA2列、B2列から最終行まで貼付けます。
(7)データが貼り付けられると、データがビジュアル化され出力されます。
(8)円グラフと棒グラフは筆者が追加したもので、データの上位10までを選択範囲としています。
(9)マイニング結果やグラフをコピーしてペイントなどに貼付けて画像として出力しておけば、色ん
     な資料で利用できます。また、テンプレートのデータを入れ替えて、データの選択範囲を変え
     れば他の分析も可能です。

プログラミングレスで、こういった処理ができるようになって、Excelの進化と利便性の向上には驚
くばかりです。筆者も取り残されないように日々、精進していきたいと思います。

3.ダウンロード

記事内で利用しているE2D3テンプレート.xlsxを提供します。必要であれば、下記よりダウンロードして下さい。

ダウンロード

コメント

このブログの人気の投稿

階層構造JSONファイルの作成

HSPでコマンドプロンプトを制御する

TOP