Neural+TensorFlow.pdf

Viewer
Transcript

Agenda o 脳とニューロン n n

脳研究の取り組みニューロンの働き

o ニューラル・ネットワークとその表現（１） n n n n

一つのニューロンの動きを考える一つのニューロンの内部の状態の表現複数のニューロンからなる一つの層の内部の状態の表現式は便利だ！ Y = W・X + b が表すもの

o ニューラル・ネットワークとその表現（2） n n

ニューロンを動かす -- 活性化関数 (Activator) クラス分けのActivator -- SoftMax

o ニューラル・ネットワークのパラメーターの最適化 n n n n

ニューラル・ネットワークで数値予測（線形回帰）損失関数 Loss Function 勾配降下法 Gradient Descent クラス分けの場合の損失関数クロス・エントロピー

o TensorFlow：ニューラル・ネットワークをグラフで表現する n n n

複数のニューロンからなる一つの層をグラフで表す複数の層からなるニューラル・ネットワークをグラフで表すグラフを流れる量 -- テンソル

o TensorFlow プログラミング n n n n

TensorFlowでグラフを定義する TensorFlowの変数定義訓練：パラメーターを最適化をする TensorFlowプログラムサンプル

はじめに o 本講演は、ニューラル・ネットワークとTensorFlowを初めて学ぶ人のための入門講座である。最小限の前提知識で、ニューラル・ネットワークの基本が理解できるように努めた。 o ニューラル・ネットワークはコンピューター上で実装されて初めて意味を持つのだが、本講演は、TensorFlowでの実装を、意識したものになっている。 o 今回は取り上げられなかった、Convolutional Neural Networkや、Recurrent Neural Networkについては、今後の、「CNNとTensorFlow」「RNN/LSTMと TensorFlow」といった講演で補いたいと考えている。

この講演が扱う範囲

脳とニューロン p 脳研究の取り組み p ニューロンの働き

脳研究の取り組み現在は、それぞれ異なった道を歩いているのだが、ニューラル・ネットワークの研究と脳研究とは、「人間の知能」の解明という共通の目標で結ばれている。ここでは、脳研究のいくつかの取り組みを紹介する。

Blue Brain Project Henry Markram o “I wanted to model the brain because we didn’t understand it.” o “The best way to figure out how something works is to try to build it from scratch.” in vivo in vitro in silico

http://seedmagazine.com/content/article/out_of_the_blue/P1/

ネズミの脳

http://seedmagazine.com/content/article/out_of_the_blue/P1/

EU Human Brain Project

2013年10月 10年間で総額約12億ユーロ

EU Human Brain Project ビジョン o 人間の脳を理解することは、21世紀の科学が直面している最も偉大な挑戦の一つである。もしも、我々が、それに対して立ちあがることが出来るならば、我々は、我々を人間にしているものが何であるかについて深い洞察を得て、革命的なコンピュータ技術を構築し、脳の異常に対して新しい治療法を開発出来るだろう。今日、初めて、現代のICT技術が、こうした目標を到達可能なものにしている。

EU Human Brain Project 批判 ECへの公開質問状

脳研究をめぐる「対立」の構図認知科学 vs 脳科学、トップダウン vs ボトムアップ o 発端は、次年度のプロジェクトの予算配分で、認知科学的なアプローチの予算が、ばっさりと切られたことにあるらしい。それに反発した研究者のグループが、150名の連名で、欧州委員会に公開質問状を提出した。 o 対立の根底にあるのは、脳研究でのアプローチの違い。 Henry Markramら主流派は、ニューロンとシナプスの数学的モデルに基づいて脳全体のモデルをボトムアップに作り上げようというアプローチ。一方、反対派は、脳研究には、認知科学の知見に基づいたトップダウンのリバース・エンジニア的なアプローチが必要だという。 o 「鳥の羽の全てをシミュレーションしたとしても、鳥が空を飛べることを解明出来ないのと同じことだ」

NIH Human Connectome Project

2010年10月 40億円の賞金 http://www.nih.gov/news/health/sep2010/nimh-15.htm

NIH Human Connectome Project

http://www.humanconnectomeproject.org/

US BRAIN Initiative NIHのもとで、12年間で4,500億円投資する

2014/06/05

http://1.usa.gov/1pIIhvx

ニューロンの働き脳の働きも、最終的には、脳を構成する無数のニューロンの働きに帰着する。コンピューター上のニューラル・ネットワークを構成する個々の「ニューロン」の動作原理は、生体のニューロンの働きをシミレートしたものである。

脳のニューロンのコンピュータ・グラフィックス

脳は、1mm立方に 5万個のニューロンを含み、一つのニューロンは 6千個のシナプスをもつ。

大脳新皮質には、 100億のニューロンと 60兆個のシナプスがある！

クラゲだって神経はある

http://www.tmd.ac.jp/artsci/biol/textlife/neuron.htm

「神経系の起源と進化」 http://bit.ly/1qR2Dmq

線虫のC. Eleganceは、すべての神経の接続がわかっている唯一の生物である。 302の神経と8,000のシナプスがある。

1987年 http://goo.gl/0lbzRg

60年代から70年代にかけての、Hubel と Wieselの大脳視覚野の研究は、各方面に大きな影響を与えた。ニューラル・ネットワークの最初の研究も、こうした影響のもとで始まった。

1960年代

David H. Hubel Torsten Wiesel

ヘッブの法則 Donald O. Hebb o ヘッブの法則（ヘッブのほうそく）は、脳のシナプス可塑性についての法則である。ヘッブ則、ヘブ則とも呼ばれる。心理学者のドナルド・ヘッブによって提唱された。ニューロン間の接合部であるシナプスにおいて、シナプス前ニューロンの繰り返し発火によってシナプス後ニューロンに発火が起こると、そのシナプスの伝達効率が増強される。また逆に、発火が長期間起こらないと、そのシナプスの伝達効率は減退するというものである。 o The Organization of Behavior. 1949年

https://goo.gl/2HsDwK

ヘッブの法則 Donald O. Hebb

1950年代

http://kitsuon-kaizen.en.que.jp/hori/108.htm

興奮性シナプスと抑制性シナプス

http://blogs.yahoo.co.jp/yuyamichidori/11068629.html

ニューラル・ネットワークとその表現（１）

p 一つのニューロンの動きを考える p 一つのニューロンの内部の状態の表現 p 複数のニューロンからなる一つの層の内部の状態の表現 p 式は便利だ！ Y = W・X + b が表すもの

一つのニューロンの動きを考える以下の文中に現れる「ニューロン」は、コンピューター上でシミレートされた偽の「ニューロン」である。ただし、基本的な動作原理は、本物のニューロンを真似ていることを知っておくことは、役に立つと思う。

ニューロンは、いつ発火するのか？

ニューロンは、いつ発火するのか？

ニューロンの働きは、発火するか発火しないかの 1か0かのディジタル・スタイル

興奮性シナプスからの信号の強さから抑制性シナプスからの信号の強さを引いた値がある閾値を越えると、ニューロンは、「発火」する。

個々のシナプスの性質同じ発火信号を受けても、受け止めるニューロン内でのその信号の「強さ」は、シナプスごとに異なる。

ニューロンの働きは、発火するか発火しないかの 1か0かのディジタル・スタイル

興奮性シナプスからの信号の強さから抑制性シナプスからの信号の強さを引いた値がある閾値を越えると、ニューロンは、「発火」する。

個々のシナプスの性質同じ発火信号を受けても、受け止めるニューロン内でのその信号の「強さ」は、シナプスごとに異なる。

ニューロン発火の条件 o あるニューロンが「発火」するかは、次のようにして決まる。興奮性シナプスから受け取る信号の強さ全体 A から抑制性シナプスから受け取る信号の強さ全体 B を引いて、その値がある閾値 C より大きければ発火する。 A–B>C A–B
発火（A–B–C>0）発火しない（ A – B – C < 0 ）

o 発火賛成と発火反対の多数決のようなもの。ただし、賛成票が、ある一定数以上（閾値）、反対票を上回らないといけないというルール。至極、単純である。

ニューロン発火の判断 X1=1

閾値＝１の場合

X2=1

X3=1

2

賛成票：3+3+2=7 反対票：2+1+2=5 賛成票 - 反対票 = 2 > 1(閾値)

3 1 3 X4=1

X5=1 X6=1

2

発火！ 2

個々のシナプスの性質は異なる内部の数字は、シナプスごとに異なる信号を受けた時に伝えられる、信号の「強さ」

ニューロン発火の判断 X1=1

閾値＝１の場合 X2, X4からの信号なし

X2=0

X3=1

2

3 1 3 X4=0

X5=1 X6=1

賛成票：0+0+2=2 反対票：2+1+2=5 賛成票 - 反対票 = -3 < 1(閾値) 2

発火せず！ 2

個々のシナプスの性質は異なる内部の数字は、シナプスごとに異なる信号を受けた時に伝えられる、信号の「強さ」

ニューロン発火の判断 X1=1

閾値＝１の場合 X3, X5からの信号なし

X2=１

X3=０

2

賛成票：3+3+0=6 反対票：2+0+2=4 賛成票 - 反対票 = 2 > 1(閾値)

3 1 3 X4=１

X5=０ X6=1

2

発火！ 2

個々のシナプスの性質は異なる内部の数字は、シナプスごとに異なる信号を受けた時に伝えられる、信号の「強さ」

重み：Wi X1 X2

X3

シナプスごとの賛成票の強さAをプラスの値に反対票の強さBをマイナスの値にすると、式が簡単になる。そうしたWiを「重み」という。 W1=-2 X1,X2,..X6は、0または1で W2=3 W1X1+W2X2+W3X3+ X W3=-1 W4X4+W5X5+W6X6

+b>0

X4

X5 X6

W4=3 の時発火 W5=2 W6=-2

バイアス:b

先の次式を想起せよ A–B–C>0 符号を変えると A + B’+ C’ > 0 の形になる。

ついでに、閾値 Cの符号を逆にすれば、式はもっと簡単になる。それを「バイアス」という。

重みWi＝[-2,3,-1,3,2,-2] バイアス b=-1 入力Xi=[1,0,1,0,1,1] の場合

X1=1 X2=0

X3=1 3 -1 3 X4=0

X5=1 X6=1

2

W1X1+W2X2+W3X3+ -2 W4X4+W5X5+W6X6 +b= (-2)x1+3x0+(-1)x1+ 3x0+2x1+(-2)x1 -1 = -2-2+2-2-1= -5<0 -2

発火せず！

重みWi＝[-2,3,-1,3,2,-2] バイアス b=-1 入力Xi=[1,1,0,1,0,1] の場合

X1=1 X2=１

X3=０ 3 -1 3 X4=１

X5=０ X6=1

W1X1+W2X2+W3X3+ -2 W4X4+W5X5+W6X6 +b= (-2)x1+3x1+(-1)x0+ 3x1+2x0+(-2)x1 -1 = -2+3+3-2= 2>0 2 -2 発火！

一つのニューロンの内部の状態の表現一つのニューロンの内部の状態は、ニューロンがシナプスを通じて受け取る刺激である「入力」と、シナプスごとの「重み」と、発火の閾値に対応する「バイアス」の三つの量で表現できる。

X1

重み W=[W1,W2,W3,W4,W5,W6] バイアス b 入力 X=[X1,X2,X3,X4,X5,X6] の場合の発火の条件

X2

X3 W1X1+W2X2+W3X3+W4X4+W5X5+W6X6+b > 0 ?

X4 X5

X6

まず、一つのニューロンで考えてみよう

X1

重み W=[W1,W2,W3,W4,W5,W6] バイアス b 入力 X=[X1,X2,X3,X4,X5,X6] の場合の発火の条件

X2

X3 W1X1+W2X2+W3X3+W4X4+W5X5+W6X6+b > 0 ?

X4 X5

X6

先の行ベクトルXを列ベクトルに変えたものをXTで表す

XT =

X1 X2 X3 X4 X5 X6

行ベクトルと列ベクトルの積 o 行ベクトル W=[W1,W2,W3,W4,W5,W6] と行ベクトル X=[X1,X2,X3,X4,X5,X6] を列ベクトルに変えた XTとの積を次のように定義する。 o W・XT = [W1,W2,W3,W4,W5,W6] ・ X1 X2 X3 X4 X5 X6 = W1X1+W2X2+W3X3+W4X4+W5X5+W6X6 o 対応する要素を掛けて、足し合わせたものである。

X1 X2

この時、重み W=[W1,W2,W3,W4,W5,W6] バイアス b 入力 X=[X1,X2,X3,X4,X5,X6] の場合の発火の条件は、次のように、簡単に書ける。

X3

W・XT + b > 0 ? X4 X5

X6

もしも、Xが最初から行ベクトルの形で与えられていれば、重みWとバイアスbを持つあるニューロンの発火の条件は、W・X+b > 0 で与えられることになる。これは、y = ax + b > 0 と同じくらい、簡単な式の形である。

複数のニューロンからなる一つの層の内部の状態の表現

複数のニューロンの集まりが、一つの「層」として、入力を受け取り出力を返すことがある。この層の内部の状態も、この層が受け取る「入力の全体」と、シナプスごとの「重みの全体」と、層を構成するニューロンの閾値に対応する「バイアスの全体」という三つの量で表現できる。

入力 X=[X1,X2,X3] X1 X2

X3

ニューロン1

ニューロン2

三つのニューロンで考えてみよう

ニューロン3

例えば、入力 X=[1,0,1] でニューロン１の重みが [2,-3,4] バイアスが -4ならニューロン1の出力は、2・１+(-3)・0+4・1-4=2>0で発火。ニューロン2の重みが [-4,1,-5] バイアスが 5ならニューロン2の出力は、(-4)・１+1・0+(-5)・1+5=-4<0で発火せず。ニューロン3の重みが [-4,-2,5] バイアスが 2ならニューロン3の出力は、(-4)・１+(-2)・0+5・1+2=3>0で発火。

入力 X=[X1,X2,X3] X1

ニューロン1 W1・XT + b1 > 0

重み W1=[W11,W12,W13] バイアス b1

X2

ニューロン2 W2・XT + b2 > 0

重み W2=[W21,W22,W23] バイアス b2

X3

ニューロン3 W3・XT + b3 > 0

重み W3=[W31,W32,W33] バイアス b3

一般的には、ニューロン1の値： W1・XT + b1 = W11X1+W12X2+W13X3+b1 ニューロン2の値： W2・XT + b2 = W21X1+W22X2+W23X3+b2 ニューロン3の値： W3・XT + b3 = W31X1+W32X2+W33X3+b3

入力 X=[X1,X2,X3] X1

ニューロン1 W1・XT + b1 > 0

重み W1=[W11,W12,W13] バイアス b1

X2

ニューロン2 W2・XT + b2 > 0

重み W2=[W21,W22,W23] バイアス b2

X3

ニューロン3 W3・XT + b3 > 0

重み W3=[W31,W32,W33] バイアス b3

これを、行列の積と和を使うと (あとで少し述べる) W11,W12,W13

X1

W21,W22,W23

X2 + b2

W31,W32,W33

X3

W11X1+W12X2+W13X3+b1

b1 b3

=

W21X1+W22X2+W23X3+b2 W31X1+W32X2+W33X3+b3

これも、 W・XT + b の形をしている！

入力 X=[X1,X2,X3,X4,X5,X6] X1 X2

X3

X4 X5

X6

ニューロン1

ニューロン2

ニューロン3

ニューロン4

ニューロン5

ニューロン6

六つのニューロンで考えてみよう。基本的には、同じである。

入力 X=[X1,X2,X3,X4,X5,X6] X1 X2

X3

X4 X5

X6

ニューロン1

W1・XT + b1 > 0 ニューロン2

W2・XT + b2 > 0 ニューロン3

W3・XT + b3 > 0 ニューロン4

W4・XT

+ b4 > 0

ニューロン5

W5・XT

+ b5 > 0

ニューロン6

W6・XT + b6 > 0

重み W1=[W11,W12,W13,W14,W15,W16] バイアス b1 重み W2=[W21,W22,W23,W24,W25,W26] バイアス b2 重み W3=[W31,W32,W33,W34,W35,W36] バイアス b3

重み W4=[W41,W42,W43,W44,W45,W46] バイアス b4 重み W5=[W51,W52,W53,W54,W55,W56] バイアス b5 重み W6=[W61,W62,W63,W64,W65,W66] バイアス b6

入力 X=[X1,X2,X3,X4,X5,X6] X1 X2

X3

X4 X5

X6

ニューロン1

W1・XT

+ b1 > 0

ニューロン2

W2・XT + b2 > 0 ニューロン3

W3・XT + b3 > 0 ニューロン4

W4・XT + b4 > 0 ニューロン5

W5・XT + b5 > 0 ニューロン6

W6・XT + b6 > 0

値：W11X1+W12X2+W13X3+ W14X4+W15X5+W16X6+b1 値：W21X1+W22X2+W23X3+ W24X4+W25X5+W26X6+b2 値：W31X1+W32X2+W33X3+ W34X4+W35X5+W36X6+b3 値：W41X1+W42X2+W43X3+ W44X4+W45X5+W46X6+b4 値：W51X1+W52X2+W53X3+ W54X4+W55X5+W56X6+b5 値：W61X1+W62X2+W63X3+ W64X4+W65X5+W66X6+b6

行列による表現(六個のニューロンの場合) W11, W21, W31, W41, W51, W61,

W12, W22, W32, W42, W52, W62,

W13, W23, W33, W43, W53, W63,

W14, W24, W34, W44, W54, W64,

W15, W25, W35, W45, W55, W65,

W16 W26 W36 W46 W56 W66

X1 b1 X2 b2 X3 + b3 X4 b4 X5 b5 X6 b6

=

W11X1+W12X2+W13X3+W14X4+W15X5+W16X6+b1 W21X1+W22X2+W23X3+W24X4+W25X5+W26X6+b2 W31X1+W32X2+W33X3+W34X4+W35X5+W36X6+b3 W41X1+W42X2+W43X3+W44X4+W45X5+W46X6+b4 W51X1+W52X2+W53X3+W54X4+W55X5+W56X6+b5 W61X1+W62X2+W63X3+W64X4+W65X5+W66X6+b6 これも、 W・XT + b の形をしている！

式は便利だ！ Y = W・XT + b が表すもの数学的な表記を使うと、問題を簡潔に定式化できる。ここでは、一つのニューロンの状態だけでなく、複数のニューロンからなる層も、一つの式で表現できる背景について述べる。この節は、読み飛ばしてもらって結構です。

式は便利だ！ Y = W・XT + b が表すもの o ニューラル・ネットワークの本を読んで、最初につまずくのは、行列が出てくるあたりだと思う。ただ、ニューラル・ネットワークの理解で、当面、必要なことは、式 Y = W・XT + b が表現しているものを理解することだ。見慣れていないだけで、難しい数学ではない。 o 具体的な例で、式 Y = W・XT + b が表しているものを、紹介したいと思う。一見、複雑に見える沢山の関係が、この式一つで表現されていることがわかるはずだ。式は便利だということがわかってもらえると思う。 o 以下の例では、XもYもbも、最初から列ベクトルだとしよう（このことを、仮に、X=[X1,X2,...Xn]Tのように表そう）。この時、 Y = W・X + b が、何を表すかを考えよう。

Y = W・X + b が表すもの

Wが数値（スカラー）の時 o Y=y, X=x, W=a, b=b なら、この式は、 y = ax + b という、式を表す。 o Y=y, X=x, W=2, b=3 なら、この式は、 y = 2x + 3 という、式を表す。 o Y=y, X=x, W=4, b=0 なら、この式は、 y = 4x という、式を表す。

Y = W・X + b が表すもの

Wがベクトルの時 o Y=y, X=[x1,x2]T W=[w1,w2] b=b0 なら、この式は、 y = w1・x1+w2・x2+b0 という、式を表す。 o Y=y, X=[c,d]T W=[m,n] b=b なら、この式は、 y = m・c+n・d+b という、式を表す。 o Y=y, X=[1,0]T W=[2,3] b=4 なら、この式は、 y = 2・1+3・0+4 = 6 という、式を表す。 o Y=y, X=[x1,x2,x3]T W=[w1,w2,w3] b=b0 なら、 y = w1・x1+w2・x2+w3・x3+b0 o Y=y, X=[x1,x2,x3,x4]T W=[w1,w2,w3,w4] b=b0 なら、y = w1・x1+w2・x2+w3・x3+w4・x4+b0

Y = W・X + b が表すもの

Wが行列の時 o 2x2の行列（2行2列の行列）を、[ [a,b], [c,d] ]と表そう。同様に、3x3 （3行3列の行列）の行列を、[ [d,e,f], [g,h,i], [j,k.l] ] と表そう。 .... o Y=[y1,y2]T, X=[x1,x2]T、W= [ [2,3], [4,5] ]、 b=[1,2]Tのとき、 Y = W・X + b は、次の二つの式を表す。y1 = 2x1+3x2+1、 y2 = 3x1+5x2+2 o Y=[y1,y2,y3]T, X=[x1,x2,x3]T、W= [ [2,3,-1], [4,5,1], [1,2,3] ]、 b=[1,2,3]Tのとき、 Y = W・X + b は、次の三つの式を表す。y1 = 2x1+3x2-x3+1、 y2 = 4x1+5x2+x3+2、y3 = x1+2x2+3x3+3

Y = W・X + b が表すもの

Wが行列の時 o 例えば、Wが6x6(6行6列)の行列の時、 Y = W・X + b が表すものの例については、先に見た。もちろんnが100 でも10,000でも同じ式で、表現できる。 o Wが n行 m列の行列の時、 Y = W・X + bが、n個の式を表していることを示すために、次のように書くこともある。 Yn = Wn・X + bn o こうした表記は、数百・数千のノードからなるニューラル・ネットワークが満たす多数の関係式を、一つの式で簡潔にまとめることができるので、プログラミング上も極めて有用である。

Y=W・XT+b と Y=X・W+b という二つの表記 o これまで、入力の X=[X1,X2,...,Xn] を行ベクトルとして、 Y=W・XT+b という表記を用いてきた。多くのドキュメントもこうした表記を採用している。 o X=[X1,X2,...,Xn]T として、 Y=W・X+bと表しても、この二つの表記は、同じ内容を表し、重みを表す行列Wも、同じものである。どちらでも XT, b は列ベクトルである。 o ただ、 X=[X1,X2,...,Xn] を行ベクトルとした時、 Y=X・W+b という表記も可能である。ここでのWは、先のWの行と列を入れ替えたものである。W=WT。bは、行ベクトルとなる。b=bTである。基本的には同じである。 o ただ、TensorFlowでは、 Y=X・W+b の方の表記を採用している。TensorFlowに関連する部分に入ったら、この表記に切り替えたいと思う。

ニューラル・ネットワークとその表現（２）

p ニューロンを動かす -- 活性化関数 (Activator) p クラス分けのActivator -- SoftMax

ニューロンを動かす -- 活性化関数 (Activator) 活性化関数は、その名前の通りに、一つのニューロンが発火（活性化）する時の条件と出力を関数の形で表したものである。いろいろな種類の活性化関数がある。

活性化関数 o 先に見たようにように、重みWとバイアスbを用いて、 W・X + b という式で、ニューロンの興奮のレベルが計算できるとするなら、「W・X + b > 0 なら、ニューロンは発火する」という条件は、どのように表現できるだろうか？ o W・X + b は、ニューロンの内部の状態を表す量なので、その値を、ニューロンの出力に変える関数 φ をうまく定義して、φ (W・X + b ) がそのニューロンの発火・出力を表現するようにすればいい。こうした関数 φ を、「活性化関数」とよぶ。 o 例えば、ニューロンの発火の信号の強さが 1で、発火しない時は信号が 0 であるなら、次のような関数 φ を考えればいい。 0 x<=0 の時 φ (x) = 1 x> 0 の時

sigmoid 関数 (logistic 関数) o 先の φ を、右のグラフでは、赤線で示した。x=0の時に、非連続に変化する。 o 実際の応用では、こうした飛躍のない、青線のような関数が持ちいられることが多い。 o これをsigmoid関数という。（logistic関数） o 近似的には、 x<0の時 0 x>0の時 1 基本的には0と1の間の値をとる。

ReLU (rectified linear unit) o rectifier は、「整流器」。ReLUは、マイナスの値は通さず 0を返すが、プラスの値は、そのまま通す。（青線） o sigmoidは、0と1 の間の値を出力するが、ReLUの出力には、そうした制限はない。 o 断続はないが、x=0のところで折れ曲がっている。それを、スムースに近似した関数も存在する。（Softplus 緑線） o x<0の時 0 x>0の時 x の値をとる。

tanh 関数 o sigmoidの仲間だが、ちょうどそれを1/2ほど、下に移動した形である。-1と+1との間の値を出力する。tanh以外にも、同じ性質を持つ、様々な関数が提案されている。

X1=1

重み W＝[-2,3,-1,3,2,-2]、バイアス b=-1 入力 X = [1,0,1,0,1,1]T

φ(x) = sigmoid(x) の場合

X2=0

X3=1

W・X + b = -2 (-2)x1+3x0+(-1)x1+ 3x0+2x1+(-2)x1 -1 = ( -2-2+2-2-1= -5

3 -1 3 X4=0

X5=1 X6=1

2

0

φ(W・X + b ) = sigmoid(-5) ≒ 0 -2

一つのニューロンの出力は、 φ( W・X + b ) の形で表せる。

X1=1

重み W＝ [-2,3,-1,3,2,-2]、バイアス b=-1 入力 X = [1,1,0,1,0,1]T

φ(x) = ReLU(x)の場合

X2=１

X3=０

W・X + b = -2 (-2)x1+3x1+(-1)x0+ 3x1+2x0+(-2)x1 -1 = -2+3+3-2= 2

3 -1 3 X4=１

X5=０ X6=1

2

2

φ(W・X + b ) = ReLU(2) =2 -2

一つのニューロンの出力は、 φ( W・X + b ) の形で表せる。

入力 X=[X1,X2,X3]

出力 Yi = φ(Wi・X + bi)

T

X1

ニューロン1 φ(W1・X + b1)

重み W2=[W21,W22,W23] バイアス b2

X2

ニューロン2 φ(W2・X + b2)

重み W3=[W31,W32,W33] バイアス b3

X3

ニューロン3 φ(W3・X + b3)

重み W1=[W11,W12,W13] バイアス b1

φ（W11X1+W12X2+W13X3+b1） φ(W21X1+W22X2+W23X3+b2 φ(W31X1+W32X2+W33X3+b3)

=φ

W11,W12,W13

X1

b1

W21,W22,W23

X2 + b2

W31,W32,W33

X3

b3

複数のニューロンの出力も、 φ( W・X + b ) の形で表せる。

クラス分けのActivator SoftMax 画像認識等のクラス分けの出力には、Softmaxという活性化関数がよく利用される

softmax 関数 o クラス分けの場合の出力に利用されるactivator。手書き数字画像の認識だと、提示された画像が0から9までの10個の数字のどれかだと判断しなければいけない。 o ニューラル・ネットワークでは、こうした場合、出力層に、 0 から9までの10個の数字に対応した10個のノードが並び、それぞれのノードの値が、「提示された画像がその数字である確率」であるようにする。 o ノードごとに、確率を計算するのが softmax関数である。最終的には、10個のノードの中で、その確率が最大であるものが選ばれる。

softmax 関数の出力例 0

0

ノード0 ノード1

0

ノード2

1

0

ノード3 ノード4

0

ノード5

0

0

0

0

ノード6 ノード7 ノード8 ノード9

softmax 関数の出力例 0

0

ノード0 ノード1

0

ノード2

0

0

ノード3 ノード4

1

ノード5

0

0

0

0

ノード6 ノード7 ノード8 ノード9

softmax 関数の出力例 0

0

ノード0 ノード1

0

ノード2

0

0

ノード3 ノード4

1

ノード5

0

0

0

0

ノード6 ノード7 ノード8 ノード9

softmax 関数の性質 o softmax関数は、それが適用される層のノードの softmac関数の値をすべて足し合わせると1になるという性質を持つ。それは、softmaxの出力が「確率」であることを考えれば、すぐわかる。 o 例えば、先の例で、ある画像が3である確率が 0.75であったとしよう。そのことは、その画像が3以外の数字である確率は、1 - 0.75 = 0.25 だということである。3以外のノードの確率(softmaxの出力の値)を全部足しても、 0.25にしかならないということである。 o 次のこともわかる。あるノードのsoftmaxの値が上がれば、他のノードの値は下がる。あるノードの値を下げれば、他のノードの値は上がる。全部足して1になるように、値は変化する。

One-Hot-Vector o 先のsoftmax関数の出力例の、一番上のノードは、「この画像は数字nである」という、ニューラル・ネットワークの判断を表しているの。もちろん、softmaxの値が一番大きいところが選ばれて、そこに一つだけに1が入っていて、残りはすべて0になっている。 o こうした一つだけに1が、残りすべてが0のベクトルを、 One-Hot-Vector と呼ぶ。 o One-Hot-Vectorは、クタス分けの出力に現れるだけではない。ニューラル・ネットワークを「学習」させるための訓練用データは、画像と一緒に「この画像は数字nである」という「正解」の情報を持っていなければならない。訓練用データは、画像と正解を示すOne-Hot-Vectorの二種類のデータから構成されている。

ニューラル・ネットワークのパラメーターの最適化

p ニューラル・ネットワークで数値予測（線形回帰） p 損失関数 Loss Function p 勾配降下法 Gradient Descent p クラス分けの場合の損失関数クロス・エントロピー

出力結果を見て、パラメーターを修正する

Backpropagation o 出力結果が、予期していたものと異なっていたら、その出力を行った一つ前の層にさかのぼって、パラメーター（重みWとバイアスb）を修正すればいい。ただ、手動の試行錯誤で、こうした修正を行っていては、ラチがあかない。 o Rumelhartらが開発した(1986年) Backpropagation は、こうしたパラメーターの修正を、システマチックに行う方法を提供する。 o 以下、ニューラル・ネットワークでのパラメーター修正を行うのに必要な道具立てを、あらかじめ、簡単に紹介しよう。具体的な例については、その後に述べることにする。

出力結果と「正解」とのずれ Loss Function (損失関数) o まず、出力結果と予期していた「正解」とのズレを、何らかの方法で定式化する必要がある。そのズレを関数の形で表したものを Loss Function （損失関数）という。Cost Function （コスト関数）ということもある。 o 出力が「正解」と一致した時、 Loss Functionの値が最小値を取るようにする。この時、パラメーター修正の目的を、Loss Functionの値をできるだけ小さくすることだと言い換えることができる。 o ある問題に対して、Loss Functionは一つとは限らない。どのようなLoss Functionを選ぶかで、パラメーター修正の効率は変化する。

Gradient Descent （勾配降下法） o パラメーター修正で、最もよく使われる方法が、この Gradient Descent （勾配降下法）である。 o Loss Functionを Jだとしよう。パラメーターのWとbの値が、それぞれ少し変化した時に、Jの値がどう変化するかを調べる。このJの変化が「勾配」である。「勾配」にそって、 Jの値が下がるように、Wとbを変化させればいい。それが、 Gradient Descent である。 o 数学的には、∂J/∂W と ∂J/∂b をチェックすることになる。Jは、ニューラル・ネットワークの出力と「正解」とのズレなので、φ(WX+b)という形の項を含んでいる。アクティベーターφとして、微分可能なものが好まれるのは、この Gradient Descentに関係している。

一つのニューロンで、パラメーターの最適化を考える

単純なニューロンの集まりでも、パラメーター最適化のメカニズムと組み合わせれば、強力な機能を持ちうる。ここでは、一つのニューロンが、線形回帰の数値予測の能力を持ちうることを示す。

一つのニューロンのパラメーターを動かす o ニューロン一つの働きは、先に見たように φ（W・X+b) と表現できる。φは活性化関数、W, X, b はベクトルである。ここではさらに単純化して、入力を数字一つにする。この時、Wもただの数字になる。さらに、 Activator φも取り除く。 o このニューロン一つの「ニューラル・ネットワーク」は、一つの数字の入力xに対して、内部のパラメーター（単なる実数である） a, b に応じて、ax+bを返すのである。この値をyとしよう。 o y=ax+bは、直線を表す式である。この単純なニューラル・ネットワークでパラメーターを様々に変更するというのは、様々な直線を考えることに等しい。

一つの入力と出力を持ち、一つだけのニューロンからなるネットワークは、y=ax+bという直線に対応している。このニューロンのパラメーターを動かすということは、下の図のようにこの直線を、いろいろに動かすということである。 a, b の値を変えれば、y=ax+bの形は変化する（傾きがaで、切片がbの直線である）

この図は、あるデータ（赤点）の分布を直線で近似しようというものである。統計学では「線形回帰」と飛ばれているものだ。（左の直線より、右の直線の方がいい近似を与えている。）もっとも単純なものでも、パラメーターの変更を考えることで、ニューラル・ネットワーク、は「線形回帰」と同じ数値予測の能力を持つ。

ニューラル・ネットワークで数値予測（線形回帰）

データ群に一番「近い」直線を求める。直線が見つかれば、それに基づいて、数値予測が可能になる。

損失関数損失関数は、ニューラル・ネットワークで、重要な役割を果たす。ニューラル・ネットワークでの「学習」は、すべて「損失関数を最小のものにせよ」という指示に従ったパラメーター変更に帰着する。

損失関数を定めて、誤差を最小にする a,b を求める o サンプル中のi 番目の点を (x(i), y(i))とすれば、 y=ax+b上の点と点 (x(i), y (i)) との垂直方向の誤差は、 (ax(i)+b) – y(i) となる。 o 誤差は、正負の値をとるので、単純に、誤差の平均を取っても、打ち消しあって、全体としての誤差の大きさはわからなくなる。 o そこで、誤差の二乗をとって、その平均を最小にすることを考える。 o a, b の関数である、この誤差の二乗の平均を、損失関数とすればいい。

データの各点と、y=ax+b との誤差が、もっとも小さくなるように、a,b の値を修正する。 (x(i), y(i)) 誤差誤差

(ax(i)+b) – y(i)

誤差誤差

( ax(i)+b), y(i) ) 誤差の二乗をLoss関数にする

こうした形の損失関数を、 “quadratic cost” という

問題の整理仮説:

y(x) = ax + b

パラメーター:

a, b

損失関数: 目標:

a, b

y a, b

a, b

損失関数 J(a, b)は、a,b についての関数で、この例では、次のような形をしている

a

b

損失関数 J(θ0 , θ1)の別の例

J(θ0,θ1)

θ1 θ0

Gradient descent 勾配降下法 Gradient descent 勾配降下法は、ニューラル・ネットワークのパラメーター更新の基本的な手段である。 TensorFlowでは、 Gradient descent が、標準的な関数として、あらかじめ組み込まれている。

Gradient descent（勾配降下法）ある関数があってその値を最小にしたい基本的な考え方: • ある •

からはじめる。の値を、

が減少するように

変化させる。 • 最小値になるまで、繰り返す。

直感的な説明

簡単にするために、二次元のグラフで考えよう。ある点から始めて、その点から極小点に近ずくためには、どうすればいいか？二つの場合がある。その点が極小点の右側にある場合には、その点のx座標を少し減らせばいい。その点が極小点の左側にある場合には、その点のx座標を少し増やせばいい。その点が、極小点の右にあるか左にあるかは、その点での接戦の傾きが、正であるか負であるかでわかる。よって、α を正の数値とすれば、次の式が、より近づいた点の位置を与える。

損失関数を、パラメーターで微分している

このアルファを学習率（Learning Rate）という。 If α is too small, gradient

アルファが、あまりに小さいと、 descent can be slow. Gradient descentは、ゆっくりにしか進まない。アルファが、あまりに大きいと、 If α is too large, gradient descent candescentは、最小値 overshoot the Gradient minimum. It may fail to を通り越してしまう。場合によっ converge, or even diverge. ては、振動したり、収束しない場合もある。

Gradient descentは、アルファが固定されていても、極小値に収束できる。

局所的な最小値に近づくにつれ、gradient descent は、自動的に小さなステップを取るようになるので、繰り返しアルファを小さくしてゆく必要はない。

どう、重みとバイアスを修正するのか？もう少し、一般的に、Gradient Descent をまとめてみよう。損失関数をCとするとき、次の式に従って、重みWkとバイアスbl を変更すればいい。

ηは学習率

損失関数が、ここで見た、quadratic costの形をしていない場合（例えば、後で見る Cross Entropyの場合）でも、この考え方は、変わらない。

J(θ0,θ1)

θ1 θ0

J(θ0,θ1)

θ1 θ0

ある場合には、最小値ではなく、局所的な極小値に、入り込むことがある。

gradient descent method http://arxiv.org/pdf/1210.0811v2.pdf

クラス分けの場合の損失関数出力が数値一つだけだったら、正解の数字との「誤差」を定義するのは容易である。それを損失関数にすればいい。ただ、出力が、画像認識のようなクラス分けだったら、誤差の定義は簡単ではない。

クロス・エントロピークラス分けによく使われるSoftmaxの出力の場合で考えてみよう。例えば、数字の画像認識なら0から9までの数字に対応した10個のノードそれぞれに、その画像がそのノードに対応した数字である確率が入ってくる。こうした場合の損失関数に利用されるのが、クロス・エントロピーである。

クロス・エントロピー H(p,q) の定義目標の確率

マイナス

ー

ΣΣ N

サンプルの数

データの確率

p(x)log(q(x))

x

分類の数

p(x)

P(1)=2/3,p(2)=1/4,p(3)=5/24,p(4)=5/24

q(x)

q(1)=1/8,q(2)=1/8, q(3)=5/8,q(4)=1/8

x=1の時 2/3log(1/8) = -2/3log8 = -2log2 x=2の時 1/4log(1/8) = -1/4log(8) = -3/4log2 x=3の時 5/24log(5/8)= 5/24log(5) - 15/24log2 x=4の時 5/24log(1/8)= -5/24log(8) = -15/24log2 全部足し合わせると -(48log2+18log2-5log5+15log2+15log2)/24=-(96log2-5log5)/24 H(p,q) = (96log2-5log5)/24

Σ p(x)log(q(x)) x

の計算

H1

p(x)

q(x)

「目標」のpの分布は、こういう形になる。

P(1)=0,p(2)=1,p(3)=0,p(4)=0

x=1の時 0log2/3 x=2の時 1log1/4 x=3の時 0log5/24 x=4の時 0log5/24 全部足して log1/4 = -log4 = -2log2 H1(p,q) = 2log2

q(1)=2/3,q(2)=1/4,q(3)=5/24,q(4)=5/24

p(2) = 1 の場合の

Σ p(x)log(q(x)) x

の計算

H2

p(x)

q(x)

「目標」のpの分布は、こういう形になる。

P(1)=0,p(2)=1,p(3)=0,p(4)=0

x=1の時 x=2の時 x=3の時 x=4の時全部で log2/3

q(1)=1/4,q(2)=2/3,q(3)=5/24,q(4)=5/24

0log1/4 1log2/3 0log5/24 0log5/24 = log2 – log3

H2(p,q) = log3-log2

p(2) = 1 の場合の

Σ p(x)log(q(x)) x

の計算

H3

p(x)

q(x)

「目標」のpの分布は、こういう形になる。

P(1)=0,p(2)=1,p(3)=0,p(4)=0

x=1の時 0log5/24 x=2の時 1log2/3 x=3の時 0log1/4 x=4の時 0log5/24 全部足し合わせると log2/3 H3(p,q) = log3-log2

q(1)=5/24,q(2)=2/3,q(3)=1/4,q(4)=5/24

p(2) = 1 の場合の

Σ p(x)log(q(x)) x

の計算

H4

p(x)

q(x)

「目標」のpの分布は、こういう形になる。

P(1)=0,p(2)=1,p(3)=0,p(4)=0

x=1の時 x=2の時 x=3の時 x=4の時

0log0 1log1 0log0 0log0

H5(p,q) = 0

= = = =

q(1)=0,q(2)=1,q(3)=0,q(4)=0

0 0 0 0

p(2) = 1 の場合の

Σ p(x)log(q(x)) x

の計算

p(x)が one-hot-value の時 H(p,q) =

ー

Σ Σ p(x)log(q(x)) Σ log(q(i)) N

=

ー

x

N

＝ - { サンプル中の正解値をとった i についての log(q(i))の和 } 0 ≦ q(i) ≦ 1 で、 log(q(i)) ≦ 0 だが、 q(i) à 0 の時 log(q(i)) à - ∞ q(i) à 1 の時 log(q(i)) à 0 だから、q(i)が正解に近いほど、H(p,q)は小さくなる。

バイナリー・クロス・エントロピー先に見たクロス・エントロピーは、二つの分布pとqが「似ているか？」については、あまり有効な情報を与えない。なぜなら、p(x)=1 以外のxの値でのqの値は、すべて無視するので。ただ、次のように定義を変更すると、二つの分布の「近さ」を数値化できる。（計算が増えるので、必要ないかもしれないのだが）この節は、読み飛ばしてもらって結構です。

H(p, q) = -

Σx { p(x)log(q(x)) + (1-p(x))log(1-q(x)) }

P(x),q(x)は、確率を表しているので 0 ≦ p(x) ≦ 1、 0 ≦ q(x) ≦ 1 0 ≦ 1-p(x) ≦ 1、 0 ≦ 1-q(x) ≦ 1 P(x) ≧ 0 で、log(q(x)) ≦ 0 だから p(x)log(q(x)) ≦ 0 (1−p(x)) ≧ 0 で、log(1-q(x)) ≦ 0 だから (1-p(x))log(1-q(x)) ≦ 0 よって、Σの中の p(x)log(q(x)) + (1-p(x))log(1-q(x)) ≦ 0 となる Σの前にマイナス符号が付いているので、H(p, q) ≧ 0

Binary Entoropy の式の特徴

マイナスが付いている

p(x)が成り立つ確率

H(p, q) = -

Σx { p(x)log(q(x)) + (1-p(x))log(1-q(x)) } 目標とする確率

データの確率

p(x)=0の時は、この項が消える

H(p, q) = -

p(x)が成り立たない確率

p(x)=1の時は、この項が消える

Σx { p(x)log(q(x)) + (1-p(x))log(1-q(x)) }

H(p) = -

Σx p(x)log(p(x))

ShannonのEntoropy

p(x)

P(1)=2/3,p(2)=1/4,p(3)=5/24,p(4)=5/24

q(x)

q(1)=1/8,q(2)=1/8, q(3)=5/8,q(4)=1/8

x=1の時 2/3log(1/8)+(1-2/3)log(1-1/8) = 2/3log(1/8)+1/3log(7/8) x=2の時 1/4log(1/8)+(1-1/4)log(1-1/8) = 1/4log(1/8)+3/4log(7/8) x=3の時 5/24log(5/8)+(1-5/24)log(1-5/8) = 5/24log(5/6)+19/24log(3/8) x=4の時 5/24log(1/8)+(1-5/24)log(1-1/8) = 5/24log(1/8)+19/24log(7/8) 全部足し合わせると (-2/3log8+1/3(log7-log8)) + (-1/4log8+3/4(log7-log8)) + (5/24(log5-log6)+19/24(log3-log8) + (-5/24log8+19/24(log7-log8)) = ( -16log8+8log7-8log8-6log8+18log7-18log8 + 5log5-5log6+19log3-19log8-5log8+19log7-19log8)/24 = ( -(16+8+6+18+19+5+19)log8+(8+18+19)log7-5log6+19log3)/24 H(p,q) = - ( -91log8 + 45log7 – 5(log2+log3) +19log3)/24 = (278log2-45log7+14log3)/24

H1

p(x)

P(1)=0,p(2)=1,p(3)=0,p(4)=0

q(x)

q(1)=2/3,q(2)=1/4,q(3)=5/24,q(4)=5/24

x=1の時 0log2/3+1log(1-2/3) = log(1/3) = -log3 x=2の時 1log1/4+0log(1-1/4) = log(1/4) = -2log2 x=3の時 0log5/24+1log(1-5/24) = log(19/24) = log19 –log24 x=4の時 0log5/24+1log(1-5/24) = log(19/24) = log19 –log24 全部足し合わせると -log3-2log2+log19-log24+log19-log24 = -log3-2log2+2log19-2(log3+log8)= -3log3+2log19 – 8log2 H1(p,q) = 3log3+8log2-2log19

H’1

p(x)

P(1)=0,p(2)=1,p(3)=0,p(4)=0

H(p, q) = -

q(x)

q(1)=2/3,q(2)=1/4,q(3)=5/24,q(4)=5/24

Σx { p(x)log(q(x)) + (1-p(x))log(1-q(x)) p(x)が、One Hot Valueの分布の場合でも、 q(x)の分布の情報を拾っている。

H2

p(x)

P(1)=0,p(2)=1,p(3)=0,p(4)=0

q(x)

q(1)=1/4,q(2)=2/3,q(3)=5/24,q(4)=5/24

x=1の時 0log1/4+1log(1-1/4) = log(3/4) = log3 – log4 x=2の時 1log2/3+0log(1-2/3) = log2/3 = log2 –log3 x=3の時 0log5/24+1log(1-5/24) = log(19/24) = log19 –log24 x=4の時 0log5/24+1log(1-5/24) = log(19/24) = log19 –log24 全部足し合わせると log3–log4+log2-log3+log19-log24+log19-log24 = log4+2log19-2(log3+log8)= -log3-8log4+2log19 H2(p,q) = log3+8log2-2log19 H1-H2 = (3log3+8log2-2log19) –(log3+8log2-2log19) = 2log3 > 0

H3

p(x)

P(1)=0,p(2)=1,p(3)=0,p(4)=0

q(x)

q(1)=5/24,q(2)=2/3,q(3)=1/4,q(4)=5/24

x=1の時 0log5/24+1log(1-5/24) = log(19/24) = log19 –log24 x=2の時 1log2/3+0log(1-2/3) = log(2/3) = log2 – log3 x=3の時 0log1/4+1log(1-1/4) = log(3/4) = log3 – log4 x=4の時 0log5/24+1log(1-5/24) = log(19/24) = log19 –log24 全部足し合わせると先のH2と同じになる H3(p,q) = H2(p,q) =log3+8log2-2log19

H4

p(x)

P(1)=0,p(2)=1,p(3)=0,p(4)=0

q(x)

q(1)=0,q(2)=3/4,q(3)=1/8,q(4)=1/8

x=1の時 0log0+1log(1- 0) = 0 x=2の時 1log3/4+0log(1-3/4) = log(3/4) = log3 – log4 x=3の時 0log1/8+1log(1-1/8) = log(7/8) = log7 –log8 x=4の時 0log1/8+1log(1-1/8) = log(7/8) = log7 –log8 全部足し合わせると log3-log4+log7-log8+log7-log8 = log3+2log7-8log2 H4(p,q) = 8log2-2log7-log3 H3-H4 = (log3+8log2-2log19) – (8log2-2log7-log3) 9x49 > 19x19 = 2log3+ 2log7 -2log19 > 0

H5

p(x)

q(x)

q(1)=0,q(2)=1,q(3)=0,q(4)=0

P(1)=0,p(2)=1,p(3)=0,p(4)=0

x=1の時 x=2の時 x=3の時 x=4の時

0log0+1log(1-0) 1log1+0log(1-1) 0log0+1log(1-0) 0log0+1log(1-0)

H5(p,q) = 0

= = = =

0 0 0 0

TensorFlow ニューラル・ネットワークをグラフで表現する

p 複数のニューロンからなる一つの層をグラフで表す p 複数の層からなるニューラル・ネットワークをグラフで表す p グラフを流れる量 -- テンソル

TensorFlow：複数のニューロンからなる一つの層を、グラフで表す

ここから、TensorFlowを使った、ニューラル・ネットワークの実装のスタイルを紹介する。「グラフ」「演算ノード」「テンソル」というのが、基本的なコンセプトとなる。

複数のニューロンからなる一つの層の出力の計算、 φ( W・X + b ) を、次のような図形で表わすことにしよう。

W

X

b

行列の積

行列の和

先の例で言うと、 Xは、[X1,X2,X3]T の列ベクトルで、 Wは 3x3の行列、 bは、[b1,b2,b3]T の列ベクトルである。

φの適用

複数のニューロンからなる一つの層の出力の計算、 φ( X・W + b ) を、次のような図形で表わすことにしよう。

W

X

TensorFlowのスタイルに準じて、表記を切り替えていることに注意！ φ( X・W + b )

b

行列の積

行列の和

先の例で言うと、 Xは、[X1,X2,X3] の行ベクトルで、 Wは 3x3の行列、 bは、[b1,b2,b3] の行ベクトルである。

φの適用

TensorFlowでは、こうした図形を「グラフ」と呼んでいる。グラフは、「ノード」とノード同士を結ぶ「辺」からできている。変数ノード

変数ノード

W

X プレースホルダー

b

行列の積演算ノード

行列の和

φの適用

演算ノード

演算ノード

TensorFlowのグラフのノードは、基本的には、演算を行う「演算ノード」である。様々な演算が用意されている。演算を行わない「変数ノード」「プレースゴルダー・ノード」も存在する。

TensorFlowのグラフが有用なのは、一つの同じグラフで、様々な複雑なニューラル・ネットワークを表現できるからである。（もちろん、X,W,bのタイプはことなるのだが）

W

X

TensorFlowのスタイルに準じて、表記を切り替えていることに注意！ φ( X・W + b )

b

行列の積

行列の和

φの適用

もっとも、そのことは、基本的には、このグラフの場合には、すでに見た φ( X・W + b ) という数学的な抽象化に負っている。ただ、グラフの方が具体的に処理をイメージしやすい。

いくつかの例で考えてみよう。 4つの入力を受け取り、3つの出力を返す、3つのニューロンからなる「層」を考えてみよう。これも、このグラフで表現できる。 4行3列の行列

W

X

[b1,b2,b3]

b

行列の積

行列の和

φの適用

[X1,X2,X3 ,X4]

ある「層」の出力の数は、その層に含まれるニューロンの数に等しいのは、当然である。

2つの入力を受け取り、5つの出力を返す、5つのニューロンからなる「層」を考えてみよう。これも、このグラフで表現できる。 2行5列の行列

W

X

[b1,b2,b3,b4,b5 ]

b

行列の積

行列の和

φの適用

[X1,X2]

一般に、n個の入力を受け取り、m個の出力を返すニューロンの「層」では、Xはn次元の行ベクトル、Wはn行m列の行列、bはｍ次元の行ベクトルである。

複数の層からなるニューラル・ネットワークを、グラフで表す

もちろん、通常の表現でも、ニューラル・ネットワークはグラフとして表現される。ただ、TensorFlowのグラフは、それをさらに単純化する。そうした単純化されたグラフ表現は、TensorFlowの大きな能力である。そのことと、グラフを流れる「テンソル」というデータの捉え方とは、結びついている。

Full Connectなニューラル・ネットワークの旧来のグラフでの表現 M1

X1 H1 X2

M2

Y1

M3

Y2

H2 X3 H3 X4

M4

Full Connectというのは、向かい合ったノードがすべて接続されているということ

入力層・隠れ層・出力層旧来のグラフでの表現 M1

X1 H1 X2

M2

Y1

M3

Y2

H2 X3 H3 M4

X4

入力層

隠れ層

出力層

旧来のグラフ

H層の重み WH バイアス bH 活性化 φH

M層の重み WM バイアス bM 活性化 φM

Y層の重み WY バイアス bY 活性化 φY

M1

X1 H1 X2

M2

Y1

M3

Y2

H2 X3 H3 M4

X4

X層

H層

M層

Y層

一つの「層」のグラフでの表現 W X

b 行列の積

φの適用

行列の和

W

b 積

和

φ

旧来のグラフ

H層の重み WH バイアス bH 活性化 φH

M層の重み WM バイアス bM 活性化 φM

Y層の重み WY バイアス bY 活性化 φY

M1

X1 H1 X2

M2

Y1

M3

Y2

H2 X3 H3 M4

X4

X層

H層

M層

Y層

TensorFlowのグラフ H層のニューロン数:3 重み W：4ｘ3次元バイアス b:3次元

X層の入力：4 4次元

W X X層

b 積

M層のニューロン数:4 重み W：3x4次元バイアス b:4次元

W 和

H層

φ

W

b 積

Y層のニューロン数:2 重み W：4x2次元バイアス b:2次元

和

M層

φ

b 積

和

φ

Y層

こっちのグラフの方が、ずっとわかりやすい！

ニューラル・ネットワークの例旧来のグラフ

これでも省略されている 784->8

TensorFlowのグラフ隠れ層の入力：784 784次元

出力層のニューロン数:10 重み WO：15x10次元バイアス bO：10次元

隠れ層のニューロン数:15 重み WH：784x15次元バイアス bH：15次元

W X

入力層

b 積

W 和

隠れ層

φ

b 積

和

φ

出力層

こっちのグラフの方が、ずっとわかりやすい！

グラフの例（学習用） https://www.tensorflow.org/

Logit Layer, ReLu Layerを見れば、先に見た「層」のパターンが現れているのがわかる。演算ノードの、MatMulは行列の積、BiassAddはバイアスの加算である。 Logit LayerのActivatorは、 Softmaxで、ReLu Layerの Activatorは、ReLuである。（このグラフ、GitHubで提供されているコードのグラフとは、少し、違っている。）

グラフの例（学習済み）ニューラル・ネットワークでは、学習の過程と、学習済みの結果を利用する過程では、計算量には、大きな差がある。学習に持ちいたグラフの一部を再利用して、学習済みのデータ（基本的には、学習された各レーヤーの重みとバイアスである）を利用すれば、スマホでも機械学習の成果を利用できる。 TensorFlowは、それを可能にする

少し複雑なグラフの例（これは、LSTMのセル） σ(sigmoidのこと), tanh は、活性化関数次の式をグラフで追ってみるといい。

Chris Olah "Understanding LSTM Networks" http://colah.github.io/posts/2015-08-Understanding-LSTMs/

グラフを流れる量 -- テンソル旧来のグラフの沢山の線は、どこへ行ったのか？ TensorFlowのグラフでは、グラフを流れるデータは、すべて「テンソル」にまとめられている。

4つの入力を受け取り、3つの出力を返す、3つのニューロンからなる「層」を考えてみよう。 4行3列の行列

W

X

[b1,b2,b3]

b

行列の積

行列の和

φの適用

[X1,X2,X3 ,X4]

ただ、ここでは、ノードではなく辺の方に注目してみよう。どのようなタイプのデータが、辺の上を流れるかを考えよう。

4つの入力を受け取り、3つの出力を返す、3つのニューロンの「層」

4行3列の行列

W

X

[b1,b2,b3]

b

行列の積

行列の和

φの適用

[X1,X2,X3 ,X4]

TensorFlowでは、こうしたデータをすべてテンソルと呼んでいる。どのような、タイプのデータか見てみよう。

4つの入力を受け取り、3つの出力を返す、3つのニューロンの「層」

W

b

4行3列の行列

X

[X1,X2,X3 ,X4]

行列の積

[b1,b2,b3]

3次元の行ベクトル

行列の和

φの適用 3次元の行ベクトル

テンソルには、いろいろなタイプがある。

3次元の行ベクトル

2つの入力を受け取り、5つの出力を返す、5つのニューロンの「層」

W

b

２行５列の行列

X

[X1,X2]

行列の積

[b1,b2,b3,b4,b5]

5次元の行ベクトル

行列の和

φの適用 5次元の行ベクトル

テンソルには、いろいろなタイプがある。

5次元の行ベクトル

TensorFlowとテンソル o TensorFlowのプログラムは、すべてのデータを表現するものとしてテンソル・データ構造を利用する。 o TensorFlowのテンソルは、n次元の配列あるいはリストだと考えることができる。 o テンソルは、静的な型と動的な次元を持っている。 o 計算グラフのノード間を移動するのは、テンソルだけである。

テンソルのランク（階数） o TensorFlowのシステムでは、テンソルは「ランク」と呼ばれる次元の単位で記述される。 o テンソルのランクは、行列のランクとは異なるものである。 o テンソルのランクは、（時には、位数（order）とか度数（degree）とかn次元とも呼ばれることがあるのだが）、テンソルの次元の数である。 o 例えば、Pythonのリストで定義された次のテンソルのランクは 2である。 t = [[1, 2, 3], [4, 5, 6], [7, 8, 9]]

テンソルのランク（階数） o ランク2のテンソルで、われわれが典型的に考えるのは「行列」である。 o ランク1のテンソルは、「ベクトル」である。 o ランク2のテンソルに対しては、t[i,j] という構文で、任意の要素にアクセスできる。 o ランク3のテンソルには、t[i,j,k]でアクセスする必要がある。

テンソルのランク（階数）ランク

数学的実体

Pythonでの表記

0

スカラー(大きさのみ）

s = 483

1

ベクトル（大きさと向き）

v = [1.1, 2.2, 3.3]

2

行列 (数字のテーブル)

m = [[1, 2, 3], [4, 5, 6], [7, 8, 9]]

3

3-テンソル

t = [[[2], [4], [6]], [[8], [10], [12]], [[14], [16], [18]]]

n

n-Tensor

....

テンソルの形 o TensorFlowのドキュメントでは、テンソルの次元を記述するのに、ランク、形、次元数の三つを用いる。 o Dimension Rank Shape Example number

0

[]

0-D

A 0-D tensor. A scalar.

1

[D0]

1-D

A 1-D tensor with shape [5].

2

[D0, D1]

2-D

A 2-D tensor with shape [3, 4].

3

[D0, D1, D2]

3-D

A 3-D tensor with shape [1, 4, 3].

n

[D0, D1, ... Dn]

n-D

A tensor with shape [D0, D1, ... Dn].

TensorFlowプログラミング p TensorFlowでグラフを定義する p TensorFlowの変数定義 p 訓練：パラメーターを最適化をする p TensorFlowプログラムサンプル

TensorFlowでグラフを定義する TensorFlowのプログラムは、まず、グラフを定義することから始まる。表現は単純化されているが、多数のノードからなる、多層のグラフも、簡単に定義できる。

TensorFlowでは、複数のニューロンからなる一つの層は、次のようなグラフで表現されることを、思い出して欲しい。

W

X

一つの層

b

行列の積

行列の和

φの適用

5つのノードがあるが、Wとbには、重みとバイアスの値が入り、残りの3つのノードは、演算を行うノードである。この層の働きは、 φ(X・W+b) で表現される。

Wとbの値は、この層の中での計算に利用されるだけでなく、その次の段階では、Back Propagationで修正を受ける。それは、変数 Variableである。 tf.Variable

W

X

tf.Variable

b

行列の積 tf.matmul

φ(X・W+b)

行列の和 +

φの適用 tf.nn.relu

PythonのTensorFlowプログラムでは、固有の役割をもったそれぞれのノードは、固有の名前が割り当てられている。先頭の tf はTensorFlow、nnはNeural Netの略だと思えばいい。

グラフ定義は、次のようなわずか3行のプログラムになる。 weights = tf.Variable( ... ) # weight を入れる変数の定義 bias = tf.Variable( ... ) # biasを入れる変数の定義 # 層の働きを φ（X・W+b）で定義する。 # ここではφにreluを使っている # imagesは、この層が受ける入力 # hidden1は、この層の出力である hidden1 = tf.nn.relu(tf.matmul(images, weights) + biases)

φ（X・W+b）このプログラムに出てくる、 images, weights, bias, hidden1 は、いずれもテンソルである。それがどのような形をしているかは、ここでは省略したVariableの定義を述べる際に詳しく述べる。 Variableの定義によってテンソルの形は決まる。

二層からなるグラフのプログラムを見てみよう。 # 第一層 weights1 = tf.Variable( ... ) bias1 = tf.Variable( ... ) hidden1 = tf.nn.relu(tf.matmul(images, weights1) + biases1) # 第二層 weights2 = tf.Variable( ... ) bias2 = tf.Variable( ... ) hidden2 = tf.nn.relu(tf.matmul( hidden1, weights2) + biases2)

第一層の出力のhidden1テンソルが、第二層の入力に、そのまま利用されているのがわかる。

TensorFlowプログラムと対応するグラフ

# 第一層 weights1 = tf.Variable( ... ) bias1 = tf.Variable( ... ) hidden1 = tf.nn.relu(tf.matmul(images, weights1) + biases1) # 第二層 weights2 = tf.Variable( ... ) bias2 = tf.Variable( ... ) hidden2 = tf.nn.relu(tf.matmul( hidden1, weights2) + biases2)

weight1

bias1

W

weight2

b relu

images

積 images

和

φ

W

bias2

b 積

hidden1

relu 和

φ hidden2

三層からなるグラフのプログラムも簡単に書ける。 # 第一層 weights1 = tf.Variable( ... ) bias1 = tf.Variable( ... ) hidden1 = tf.nn.relu(tf.matmul(images, weights1) + biases1) # 第二層 weights2 = tf.Variable( ... ) bias2 = tf.Variable( ... ) hidden2 = tf.nn.relu(tf.matmul( hidden1, weights2) + biases2) # 第三層 weights3 = tf.Variable( ... ) bias3 = tf.Variable( ... ) logit = tf.matmul( hidden2, weights3) + biases3)

この例では、第三層は、Activatorを呼んでいない。

TensorFlowの変数定義 TensorFlowの変数（Variable）は、データの格納場所として、他のプログラミング言語の変数と同じ役割を果たす。ただ、TensorFlowの変数は、テンソルの格納場所である。変数の定義では、それがどのような「形」のテンソルの格納場所であるかを定義することが、重要な意味を持つ。

TensorFlowの変数 o 他のプログラミング言語での変数と同じように、 TensorFlowの変数も、プログラムの中で、その値を読みだしたり、値を変更したりできる。 o ただ、TensorFlowの変数は、一つの値を持つのではなく、多次元の行列であるテンソルを格納している。実装としては、それは、大きなメモリー・バッファーである。 o TensorFlowの変数は、どのようなテンソルを格納するのかの情報をはじめとして、利用前に明示的に初期化されなければならない。 o TensorFlowの変数は、その値を直接ディスクにSaveでき、また、プログラムの中で、それをディスクからRestore できる。

TensorFlowの変数の生成 o 変数を生成するためには、そのコンストラクターに初期値としてテンソルを渡す必要がある。そのための幾つかの Helper関数が用意されている。 # Create two variables. weights = tf.Variable( tf.random_normal([784,200], stddev=0.35), name="weights") biases = tf.Variable(tf.zeros([200]), name="biases")

o この例では、 tf.random_normal と tf.zeros という Helperを使っている。前者は乱数で、後者はゼロで変数を初期化する。 o 重要なことは、このHelperの第一引数が、この変数の初期化に使われたテンソルの形（shape）を示しているということである。

変数の初期化

[784,200]あるいは [200]の形をしたテンソルが用意されている。

# 二つの変数を生成する weights = tf.Variable(tf.random_normal([784, 200], stddev=0.35), name=“weights”) biases = tf.Variable(tf.zeros([200]), name="biases") ... ここではまだ実行されない # この変数を初期化する演算を追加しておくノードが追加されただけ init_op = tf.initialize_all_variables() # モデルを起動した後で、この初期化を呼び出す。 with tf.Session() as sess: # Run the init operation. sess.run(init_op) ... # モデルを使う ...

ノードで構成されたモデルは Sessionで初めて動き出す呼出には、runを使う

変数の初期化（他の変数から） # 乱数からなる変数を作る。784x200の行列。 weights = tf.Variable(tf.random_normal([784, 200], stddev=0.35), name="weights") # 先のweightsの初期値と同じ値を持つ変数w2を作る w2 = tf.Variable(weights.initialized_value(), name="w2") # weightsの初期値を二倍した値を持つ変数 twice を作る twice = tf.Variable(weights.initialized_value() * 2.0, name="w_twice")

変数のsave # 変数を作る v1 = tf.Variable(..., name="v1") v2 = tf.Variable(..., name="v2") ... # 変数を初期化する init_opノードを追加 init_op = tf.initialize_all_variables() # すべての変数をsave,restoreするsaveノードを追加 saver = tf.train.Saver() # モデルを起動し、変数を初期化し、何かの仕事をした後で # 変数をディスクにsaveする with tf.Session() as sess: sess.run(init_op) # モデルで何かの仕事をする ... # 変数をディスクにsaveする save_path = saver.save(sess, "/tmp/model.ckpt") print("Model saved in file: %s" % save_path)

変数のrestore # 変数を作る v1 = tf.Variable(..., name="v1") v2 = tf.Variable(..., name="v2") ... ... # すべての変数をsave,restoreするsaveノードを追加 saver = tf.train.Saver() # モデルを起動し、変数をディスクからrestoreして # 何かの仕事をする with tf.Session() as sess: # 変数をディスクにsaveする saver.restore(sess, "/tmp/model.ckpt") print("Model restored" ) # モデルで何かの仕事をする ...

訓練：ニューラル・ネットワークのパラメーター（重みとバイアス）を最適化をする

ニューラル・ネットワークの「訓練」は、プログラム上では簡単に記述されているが、計算時間の大部分は、この「訓練」に費やされる。

パラメーター（重みとバイアス）の最適化パラメーター（重みとバイアス）の最適化は、次のような繰り返しのステップで行われる。（幾つかのバリエーションあり） 1. グラフが組みあがったら、そのグラフで入力データに対して出力を計算する。 2. その出力結果を、正しい答えと比較する。比較には、あらかじめ定義していた損失関数を用いる。 3. Gradient Descent(勾配降下法)を使って、損失関数の値が小さくなるようにパラメーター（重みとバイアス）を修正する。 4. 新しいパラメーターのもとで、入力データに対して出力を計算し、2.に戻る。損失関数が十分小さくなるまでこの処理を繰り返す。

GradientDescentOptimizer o TensorFlowでは、GradientDescentを使ったパラメーターの最適化のための最適化演算 GradientDescentOptimizerがあらかじめ用意されている。 o このOptimizerを使って、損失関数を最小化せよという指示を出せば、ニューラル・ネットワークのパラメーターは、自動的に更新される。 o TensorFlowでは、こうして、パラメーター最適化のアルゴリズムが極めて簡単に書ける。

最適化のアルゴリズムの例1 （数値予測の場合）損失関数 C = 1/2m

Σ(y-y_data)

2

loss = tf.reduce_mean(tf.square(y - y_data)) optimizer = tf.train.GradientDescentOptimizer(0.5) train = optimizer.minimize(loss) 学習率

最適化のアルゴリズムの例（クラス分けの場合）損失関数 C =

Σ (y_*log(y))

y_ = tf.placeholder("float", [None, 10]) cross_entropy = -tf.reduce_sum(y_ * tf.log(y)) optimizer = tf.train.GradientDescentOptimizer(0.01) train = optimizer.minimize(cross_entropy) 学習率

TensorFlowプログラムサンプル数値予測とクラス分けは、ニューラル・ネットワークの二大機能である。ここでは、この二つのタイプの簡単なプログラム・サンプルを示す。

数値予測（線形回帰）の例

.... W = tf.Variable(tf.random_uniform([1], -1.0, 1.0)) b = tf.Variable(tf.zeros([1])) y = W * x_data + b # Minimize the mean squared errors. loss = tf.reduce_mean(tf.square(y - y_data)) optimizer = tf.train.GradientDescentOptimizer(0.5) train = optimizer.minimize(loss) # Before starting, initialize the variables. We will 'run' this first. init = tf.initialize_all_variables() # Launch the graph. sess = tf.Session() sess.run(init) # Fit the line. for step in xrange(201): sess.run(train) if step % 20 == 0: print(step, sess.run(W), sess.run(b))

.... W = tf.Variable(tf.random_uniform([1], -1.0, 1.0)) b = tf.Variable(tf.zeros([1])) y = W * x_data + b # Minimize the mean squared errors. loss = tf.reduce_mean(tf.square(y - y_data)) optimizer = tf.train.GradientDescentOptimizer(0.5) train = optimizer.minimize(loss)

グラフの定義

最適化のアルゴリズム

# Before starting, initialize the variables. We will 'run' this first. init = tf.initialize_all_variables() # Launch the graph. sess = tf.Session() sess.run(init)

グラフの起動

# Fit the line. for step in xrange(201): sess.run(train) if step % 20 == 0: print(step, sess.run(W), sess.run(b))

グラフで訓練繰り返し

クラス分け（手書き文字の認識）の例

.... # Create the model x = tf.placeholder("float", [None, 784]) W = tf.Variable(tf.zeros([784, 10])) b = tf.Variable(tf.zeros([10])) y = tf.nn.softmax(tf.matmul(x, W) + b) # Define loss and optimizer y_ = tf.placeholder("float", [None, 10]) cross_entropy = -tf.reduce_sum(y_ * tf.log(y)) train_step = tf.train.GradientDescentOptimizer(0.01) .minimize(cross_entropy) # Train tf.initialize_all_variables().run() for i in range(1000): batch_xs, batch_ys = mnist.train.next_batch(100) train_step.run({x: batch_xs, y_: batch_ys}) ソースの全体は、こちらにある。 https://goo.gl/MwscZO

.... # Create the model x = tf.placeholder("float", [None, 784]) W = tf.Variable(tf.zeros([784, 10])) b = tf.Variable(tf.zeros([10])) y = tf.nn.softmax(tf.matmul(x, W) + b)

グラフの定義

# Define loss and optimizer y_ = tf.placeholder("float", [None, 10]) cross_entropy = -tf.reduce_sum(y_ * tf.log(y)) train_step = tf.train.GradientDescentOptimizer(0.01)¥ .minimize(cross_entropy)

最適化のアルゴリズム

# Train tf.initialize_all_variables().run() for i in range(1000): batch_xs, batch_ys = mnist.train.next_batch(100) train_step.run({x: batch_xs, y_: batch_ys})

グラフで訓練繰り返し

ソースの全体は、こちらにある。 https://goo.gl/MwscZO

Page 4 of 185. Neural+TensorFlow.pdf. Neural+TensorFlow.pdf. Open. Extract. Open with. Sign In. Main menu. Displaying Neural+TensorFlow.pdf. Page 1 of ...

Download PDF

15MB Sizes 3 Downloads 126 Views

Report

Neural+TensorFlow.pdf

Recommend Documents