機械学習

【入門】自然言語処理でできることをいくつかPythonで実装してみる!

自然言語処理
ウマたん
ウマたん
当サイト【スタビジ】の本記事では、自然言語処理についてPythonでの実装と合わせてまとめていきたいと思います。実際にテキスト情報を形態素解析で分解してテキスト類似度を計算したり、空欄を予測したりすることができるんです!

こんにちは!

消費財メーカーでデータサイエンティストをしているウマたん(@statistics1012)です。

自然言語処理は、機械に人間の言葉を理解させる上で非常に重要な領域。

しかーし、あんまり自然言語処理の中身についてはブラックボックスでよく分かっていないという人が多いのではないでしょうか?

ロボたん
ロボたん
んー・・・概念だけは、なんとなーく分かっているけど・・・
ウマたん
ウマたん
そうだよね!完璧に理解する必要はないけど、ある程度自然言語処理について理解しておくことは重要だよ!

ということで、この記事では自然言語処理についてまとめていきたいと思います。

ところどころでPythonの実装も合わせておこなっていきますよー!

自然言語処理とは

本

まず、自然言語処理とは何でしょうか?

自然言語処理とは、端的に言うと「人間の言葉を機械が理解するルール作り」です。

言葉は、人類が生み出した虚構であり文化によって全く違う構造を持ちます。

そんな言葉を機械が理解できるようにする領域が自然言語処理なのです。

機械が人間の言葉をしっかり理解するためには、文脈理解と単語理解が必要。

単語理解は、どのような言葉がどのような意味で使われているかをまとめた辞書(コーパスと呼ばれる)が必要になってきます。

そんな辞書と大量の文章をインプットさせて機会が文意を読み取ることができるようになるのです。

そのため、実は自然言語処理の分野では教師データがどれだけリッチかが非常に重要なんです。

その点では中国など個人情報の法規制に緩い国が有利。

なぜなら昨今のデジタル上でのコミュニケーションを仮にテキスト情報としてインプットすることが出来れば、各段に自然言語処理精度が上がるからです。

今のところ、コミュニケーションのテキスト情報をインプット情報として使える企業は少ないです。

日本でも、LINE社は日々の大量のコミュニケーション情報をテキストとして保持していながら個人情報保護の観点から解析に使えない状態になっています。

個人情報の取り扱いに関しては国によって全く方針が違うんですよねー。

Pythonで自然言語処理に関わる手法を実装

PC

続いて、いくつかのトピックを紹介しながらPythonで実装をおこなっていきます。

Mecabで形態素解析

まずは、形態素解析。

形態素解析とは、文章を単語単位で区切りそれぞれの単語に情報を付与する手法です。

形態素解析エンジンにはいくつかの種類がありますが、ここではMecabを使用していきます。

Mecabは古くから有名で最も良く使われている形態素解析エンジン。

PythonだけでなくRやRubyなど他のプログラミング言語も使用することが可能です。

まずは、Mecabを使う環境を整えていきましょう!

以下のURLから「mecab-0.996-64.exe」をダウンロードしてください。

https://github.com/ikegami-yukino/mecab/releases/tag/v0.996

ダウンロードした後は、PythonでMeCabが使えるようにバインディングしていきます。

以下の記事で詳しくまとめられているので参考にしてみてください。

ここまで来たらMeCabを使う準備が整いました。

早速Mecabを利用して文章を単語区切りに分解していきます。

たったこれだけで、textを単語区切りにしてくれるんです。

試しにこのtext部分に
スタビジはデータサイエンスとWebマーケティングをまとめたサイトです
と入れてみます。

すると・・・

以下のような結果が返ってきます。素晴らしい!

返ってきた結果に対して名詞だけ取り出したいため、.splitを使い2つ目の要素が名詞だったら配列に格納するような処理を行っています。

これによりテキスト情報を単語に分解し、名詞だけ格納した配列が出来上がりました。

Mecabに関してより詳しくは以下の記事でまとめています。

PC
PythonのMeCabで形態素解析!文書の類似度を算出してみよう!当サイト【スタビジ】の本記事では、形態素解析器であるMeCabとPythonを用いて形態素解析を行い最終的に文章の類似度を算出していきます。非常に簡単に実装できるかつ応用度が高いです!自然言語処理の世界に入るきっかけにしてくださいね!...

URLからスクレイピングでテキストを引っ張ってきて、それらをMecabで形態素解析し、テキスト類似度を測るプログラムを以下で公開していますのでぜひチェックしてみてください!

RNNを使ってみる

続いて、ディープラーニングの領域に足を踏み入れてみましょう!

RNNはリカレントニューラルネットワークの略で、ディープラーニングの層構造に再帰性を取り入れたもの。

通常のディープラーニングでは、時系列要素のあるデータを上手く扱えないという欠点があるんです。

【入門】ディープラーニングとは?仕組みとPythonでの実装を見ていこう!当サイト【スタビジ】の本記事では、ディープラーニングの仕組みやPythonでの実装方法について解説していきます。ディープラーニングってなんとなくブラックボックスなイメージがあるかもしれませんが、実はシンプルなアルゴリズムなんですよー!...

そんなディープラーニングの構造に対して、時系列要素を加えて順番を考慮しようよというのがRNNの考え方。

時系列処理はテキストの文脈を読み取る上で非常に重要です。

例えば英語で、he said “I’m () ” という文章があった時、()の中身を当てるのは相当難しい。

しかし、その後ろにこんな文脈があったらどうでしょう?

Tom came home, and he said “I’m () “.

()の中にどのような文章が入るかほとんどの人が分かると思います。

おそらくTom came home, and he said “I’m home “でしょう。

このようにテキストの文脈からワードを推論するのは周りの文脈が非常に重要なんです。

それを実現できるのがRNNと考えてください。

今までのディープラーニングでは、それぞれのインプットがそれぞれの中間層に与えられていましたが、RNNでは同一の中間層を用いて再帰的にインプットが行われます。

再帰的という部分がReccurentと言われるゆえんです。

こんなイメージ

rnnの概念

同じレイヤーh1を用いているのがミソです。

これにより前のワードの情報をレイヤに記憶させ後続へとつなぐことができます。

自然言語処理ではないですが、RNNを使って時系列問題を解くことができるというところを見ていきましょう!

使うデータセットはKaggleのホームページが落とせる航空会社の乗客数データ!

1949年から1960年までの月別乗客数がデータとして入っています。

149行2列のシンプルなデータセット。

1変数の時系列データを基に過去のデータから未来の値を予測します。

この時、tflearnというライブラリを使ってRNN(正確にはLSTM)を実装していきます。tflearnはkerasと似たようなライブラリでディープラーニングの実装が感覚的に容易にできます。

実際にモデルを構築していきましょう!

最終的な評価はRMSE(Root Mean Square Error)で算出しています。

RMSEは0.10079201となりました。それなりに良い予測ができてる!

RNNについて詳しくは以下の記事でまとめています。

RNNとは?Pythonでの実装方法と一緒に見ていこう!当サイト【スタビジ】の本記事では、ディープラーニングを時系列にも対応させたRNN(リカレントニューラルネットワーク)について解説していきます。RNNの仕組みや応用場面と一緒にPythonでの実装をしていきます。これからの応用が期待される領域なんですよー!...

Googleが公表したBERTを使ってみる

最後にGoogleが2018年に公表し、2019年に検索アルゴリズム適応させたBERTについて見ていきましょう!

BERTとは「Bidirectional Encoder Representations from Transformers」の略であり、Googleが新たに開発した自然言語処理のロジックになります。

BERTの登場によりGoogleはより長く複雑な文章を理解できるようになり、文脈を読み取ることができるようになりました。

実際にGoogleのリリースにBERT導入前と導入後のGoogle検索の違いが記載されています。

BERT 検索結果(引用元:Google-”Understanding searches better than ever before”)

ブラジル人が米国へ渡航する際のビザの有無を知りたいのですが、BERT実装前は英文における”to”の意味を明確に捉えることができずアメリカ人がブラジルへ旅行する場合の結果を返していました(左側)。

BERT実装後は、しっかりアメリカ渡航の際の結果を返すことができています。

ロボたん
ロボたん
本当だ!確実に検索エンジンが賢くなっている!!
ウマたん
ウマたん
逆にこれまでは、この文脈を読み取れていなかったんだねー意外!

このように検索結果が、より検索者の検索意図を読み取れるように進化してきているのです。

それでは、そんなBERTを実際に実装してみましょう!

BERTを使って以下の日本語文章の空白を予測してみます。

※当サイト【スタビジ】は昔統計ラボというサイトでした

[‘統計’, ‘ラボ’, ‘は’, ‘*’, ‘を’, ‘発信’, ‘する’, ‘サイト’, ‘です’]

ロボたん
ロボたん
お!面白そう!
ウマたん
ウマたん
なんて予測されるかなー?

京都大学の黒橋・河原・村脇研究室の作成した強力な形態素解析器JUMAN++をインストールしていきます。

こちらは、先ほどのMeCabよりも口語に対応している形態素解析です。

BERTを実装するためには日本語における相当な量の事前学習が必要なのですが京都大学の黒橋・河原・村脇研究室が公開してくれています。

BERT日本語Pretrainedモデル 

非常にありがたいですね!

続いてZIPファイルを解凍していきます。

これで、日本語モデルの準備は完了です。

必要なパラメータやモデル、BERTが扱いやすい形に加工するための変換処理などを先ほどダウンロードした日本語Pretrainedモデルから取得します。

続いて、JUMAN++によって品詞分解を行います。

[‘統計’, ‘ラボ’, ‘は’, ‘*’, ‘を’, ‘発信’, ‘する’, ‘サイト’, ‘です’]

文章の区切れやマスクする部分をBERTに明示的に知らせるために、SEPやMASKを挿入していきます。

CLSは文章の頭に、SEPは文章の区切れに、MASKは隠したい部分に適用します。

[‘[CLS]’, ‘統計’, ‘ラボ’, ‘は’, ‘[MASK]’, ‘を’, ‘発信’, ‘する’, ‘サイト’, ‘です’, ‘[SEP]’]


そして、得られたテキストをBERT用に変換します。


そして、マスクされた部分の予測を行います。

結果は・・・

[‘統計’, ‘情報’, ‘データ’, ‘ニュース’, ‘それ’, ‘調査’, ‘分析’, ‘レポート’, ‘トレンド’, ‘ランキング’]

上手く予測できていることが分かります!

ところどころ省略しているので詳しくは以下の記事をチェックしてみてください!

BERTについて解説!日本語モデルを使って予測をしてみようー!当サイト【スタビジ】の本記事では、Googleが新たにリリースしたBERTについてSEO的観点とデータサイエンス的観点で解説し、日本語モデルを使って実際に文章の予測を行っていきます!BERTはPythonで簡単に実装できるんですよー!ぜひ試してみてくださいね!...

自然言語処理 まとめ

自然言語処理についてまとめてきました!

自然言語処理は、機械が自然な会話を実現できるようになるために非常に重要な分野。

これからの研究が期待される領域なんですねー!

ロボたん
ロボたん
このまま何年か経てば人間と同レベルの会話は実現できるのー?
ウマたん
ウマたん
ある程度できることは間違いないんだけど、まだまだ課題は山積みなんだ!

例えば、複数人で会話をする時に人間であれば複数人の音声が重なっていても切り分けて処理することができますが、現状の機械ではそれは厳しいです。

音声分離の技術はまだまだこれからの研究課題になっています。

もしディープラーニングや機械学習、Pythonに興味があれば以下の記事で勉強法をまとめていますのでぜひチェックしてみてください!

【初心者向け】ディープラーニングの学習ロードマップまとめ当サイト【スタビジ】本記事では、ディープラーニングの学習方法について詳しくまとめていきます!ディープラーニングは難しいと思われがちですが、アルゴリズムは意外とシンプルで実装自体も非常に簡単なんです!Pythonでの実装もおこなっていきますよー!...
機械学習入門に必要な知識と独学勉強方法をPythonとRの実装と一緒に見ていこう!当サイト【スタビジ】の本記事では、入門者向けに機械学習についてカンタンにまとめていきます。最終的にはどのように機械学習を学んでいけばよいかも見ていきます。細かい手法の実装もPython/Rを用いておこなっていくので適宜参考にしてみてください。...
【独学入門】初心者が3か月でPythonを習得できるようになる勉強法!当ブログ【スタビジ】の本記事では、Pythonを効率よく独学で習得する勉強法を具体的なコード付き実装例と合わせてまとめていきます。Pythonはできることが幅広いので自分のやりたいことを明確にして勉強法を選ぶことが大事です。...

 

Pythonを初学者が最短で習得する勉強法

Pythonを使うと様々なことができます。しかしどんなことをやりたいかという明確な目的がないと勉強は捗りません。

Pythonを習得するためのロードマップをまとめましたのでぜひチェックしてみてくださいね!