LeNet
LeNet は、畳み込みニューラルネットワーク(Convolutional Nueral Network, CNN)の機構であり、1989 年にヤン・ルカン(Yann LeCun)らによって提案された。LeNet という語は、一般に、単純な畳み込みニューラルネットワークである LeNet-5 を指す。畳み込みニューラルネットワークはフィードフォワード・ニューラルネットワークの一種であり、人工ニューロンが周囲の細胞の一部をカバー範囲内として応答することができ、大規模な画像処理に適している。
開発履歴
[編集]LeNet-5 は、最初期の畳み込みニューラル ネットワークの1つであり、深層学習の開発を促進した。1988 年以降、長年の研究と幾度もの成功を経て、この先駆的研究は LeNet-5 と名付けられた。
1989 年、 ベル研究所のヤン・ルカンらはバックプロパゲーションのアルゴリズムを初めて実用化し、タスクのドメインからの制約条件を与えることで、ネットワークの汎化学習性能を大きく向上させることができると考えた。彼は、バックプロパゲーション アルゴリズムによって学習した畳み込みニューラル ネットワークを組み合わせて手書きの数字を読み取り、それを米国郵政公社が提供する手書きの郵便番号の識別に提供することに適用した。これが、後に LeNet と呼ばれるようになったニューラルネットワークの原型である[1]。同年、ヤン・ルカン は別の論文で小さな手書き数字認識問題について説明し、問題が線形分離可能であるにもかかわらず、単層ネットワークの汎化性能が乏しいことを示した。多層の制約されたネットワークでシフト不変特徴量検出器を使用することで、モデルは非常によい性能を発揮した。彼は、これらの結果が、ニューラルネットワーク内の自由パラメーターの数を最小限にすることで、ニューラルネットワークの汎化能力が向上することが証明されたと考えた[2]。
1990 年、手書きの数字認識に逆伝播ネットワークを適用したことについて、論文で再び述べた。彼らはデータに最小限の前処理しか行って折らず、モデルはこのタスクのために慎重に設計され、それは非常に制約の多いものだった。入力データは数字を含む画像で、米国郵政公社が提供する郵便番号デジタルデータでテストした結果、モデルのエラー率はわずか 1%、リジェクト率は約 9% だった[3]。
彼らの研究はその後 8 年間続き、1998 年にヤン・ルカン、レオン・ボトゥー、ヨシュア・ベンジオ、パトリック・ハフナーは、紙の手書き文字認識に関するさまざまな方法をレビューし、標準の手書き数字を使用してベンチマークタスクを特定した。これらのモデルを比較し、その結果、LeNet が他のすべてのモデルよりも優れていることを示した。また、2 つのオンライン手書き文字認識システムや、1 日に何百万もの小切手を読み取れるモデルなど、ニューラル ネットワークの実用的な応用例を示した[4]。
この研究は大きな成功を収め、ニューラル ネットワークの研究に対する学者の関心を呼び起こした。現在、最も性能の高いニューラルネットワークのアーキテクチャは LeNet と同じではないが、このネットワークは多数のニューラル ネットワーク アーキテクチャの出発点となり、また、この分野にインスピレーションをもたらした。
ヤン・ルカンらの業績の時系列
[編集]- 1989年
- 1990年
- 手書き数字認識におけるバックプロパゲーションネットワークの適用について説明した[7]。
- 1998年
- ヤン・ルカンらは、手書き文字認識に適用されるさまざまな方法をレビューし、標準の手書き数字認識ベンチマークと比較した。畳み込みニューラルネットワークが他のすべてのモデルよりも優れていた[8]。
構造
[編集]LeNet は、初期の畳み込みニューラル ネットワークの代表として、畳み込み層、プーリング層、全結合層などの畳み込みニューラルネットワークの基本単位を有しており、畳み込みニューラルネットワークの将来の発展の基礎を築いた。入力層以外の各層で、パラメータを学習することができる。図中、Convolution ......(シアン)は畳み込み層、Pooll ......(マゼンタ)はプーリング層、Dense ......(黄色)は全結合層を表している[1]。
最初の畳み込み層(C1)は、サイズ 28x28 の 1 チャネルの画像を入力とし、サイズ 5x5 の 6 個の畳み込みカーネルを備え、サイズ 28x28 の 6 つの特徴量マッピングを出力する。入力画像の情報が畳み込みカーネルの境界から外れることを防ぐ。
次の層(S2)は、C1 の特徴量マップのサイズ 2x2 ずつの平均を出力するプーリング層であり、サイズ 14x14 の 6 つの特徴量マップが得られる。
次の層(C3)は、サイズ 5x5 の 16 個の畳み込みカーネルを持つ畳み込み層である。最初の 6 つは S2 の 3 つの特徴量マップの各連続サブセット、次の 6 つは、S2 の S2 の 4 つの連続サブセット、次の 3 つは、 S2 の 4 つの不連続なサブセット、最後の 1 つは S2 の特徴量マップすべてを入力とする。サイズ 10x10 の16個の特徴量マップがえられる。
次の層(S4)は S2 に似ており、サイズ 5x5 の 16 個の特徴量マップが得られる。
次の層(C5)は、サイズが 5x5 の 120 個のコンボリューション カーネルを持つ畳み込み層である。各セルは、S4 の 16 個の特徴グラフすべての 5*5 近傍に接続されている。ここで、S4 の特徴量マップのサイズも 5x5 であるため、C5 の出力サイズは 1*1 となる。したがって、S4 と C5 とは完全に接続されている。LeNet-5 の入力が大きくなっても構造が変わらない場合、C5 の出力サイズは 1x1 よりも大きくなるため、C5 は全結合層ではなく畳み込み層としてラベル付けされる。
次の層(F6)は C5 と全結合しており、84 個の特徴量マップが出力される。
特徴
[編集]- 畳み込み層には、畳み込み、プーリング、および非線形活性化関数の 3 要素がある
- 畳み込みによる空間的特徴の抽出(畳み込みはもともと受容野と呼ばれていた)
- サブサンプリングのために平均プーリング層を用いる
- 活性化関数 として tanh を用いる
- 最後の分類器として多層パーセプトロンを用いる
- 計算の複雑さを軽減するレイヤー間の疎結合
応用
[編集]LeNet は、元々、単純な数字画像の認識のために開発された。
ヤン・ルカンらは1989 年に LeNet の最初の形式を提起した。「Backpropagation Applied to Handwritten Zip Code Recognition(手書き郵便番号認識へのバックプロパゲーションの適用)[1]」という論文では、そのような制約をネットワークのアーキテクチャを通してバックプロパゲーションネットワークに統合する方法を示している。そして、米国郵政公社が提供する手書きの郵便番号の数字の認識に適用することに成功した。
開発分析
[編集]LeNet-5 は畳み込みニューラルネットワークの出現を意味し、畳み込みニューラルネットワークの基本構成要素を定義している[4]。しかし、当時は GPU などのハードウェアがなかったためにあまり普及せず、サポートベクターマシンなど他のアルゴリズムでも LeNet と同等以上の性能が得られた。
2012 年の AlexNet の成功以来、 畳み込みニューラルネットワーク はコンピュータビジョンの用途で最適な選択肢となり、R-CNN シリーズなど、さまざまなタイプの 畳み込みニューラルネットワーク が提案されてきた。現行の 畳み込みニューラルネットワーク モデルは LeNet とは大きく異なるが、すべて LeNet をベースに開発された。
関連項目
[編集]脚注
[編集]- ^ a b c LeCun, Y.; Boser, B.; Denker, J. S.; Henderson, D.; Howard, R. E.; Hubbard, W.; Jackel, L. D. (December 1989). “Backpropagation Applied to Handwritten Zip Code Recognition”. Neural Computation 1 (4): 541–551. doi:10.1162/neco.1989.1.4.541. ISSN 0899-7667.
- ^ Lecun, Yann (June 1989). “Generalization and network design strategies”. Technical Report CRG-TR-89-4 (Department of Computer Science, University of Toronto) .
- ^ LeCun, Y.; Boser, B.; Denker, J. S.; Henderson, D.; Howard, R. E.; Hubbard, W.; Jacker, L. D. (June 1990). “Handwritten digit recognition with a back-propagation network”. Advances in Neural Information Processing Systems 2: 396–404 .
- ^ a b Lecun, Y.; Bottou, L.; Bengio, Y.; Haffner, P. (1998). “Gradient-based learning applied to document recognition”. Proceedings of the IEEE 86 (11): 2278–2324. doi:10.1109/5.726791 .
- ^ LeCun, Y.; Boser, B.; Denker, J. S.; Henderson, D.; Howard, R. E.; Hubbard, W.; Jackel, L. D. (December 1989). “Backpropagation Applied to Handwritten Zip Code Recognition”. Neural Computation 1 (4): 541–551. doi:10.1162/neco.1989.1.4.541. ISSN 0899-7667.
- ^ Lecun, Yann (June 1989). “Generalization and network design strategies”. Technical Report CRG-TR-89-4 (Department of Computer Science, University of Toronto) .
- ^ LeCun, Y.; Boser, B.; Denker, J. S.; Henderson, D.; Howard, R. E.; Hubbard, W.; Jacker, L. D. (June 1990). “Handwritten digit recognition with a back-propagation network”. Advances in Neural Information Processing Systems 2: 396–404 .
- ^ Lecun, Y.; Bottou, L.; Bengio, Y.; Haffner, P. (1998). “Gradient-based learning applied to document recognition”. Proceedings of the IEEE 86 (11): 2278–2324. doi:10.1109/5.726791 .