画像処理におけるCNNの適用。
- 24-07-2022
- chuong xuan
- 0 Comments
Mục lục
コンピュータの画像の特徴。
カラー画像: RGBは、赤(赤)、緑(緑)、青(青)の略で、プリズムから分離したときの光の3つの主要な色です。上記の3色を一定の比率で混合すると、異なる色が形成される可能性があります。
[0、255]の範囲の3つの整数r、g、bの各セットに対して、異なる色が生成されます。 rを選択する256の方法、色gを選択する256の方法、bを選択する256の方法があるため=>RGBカラーシステムを使用して作成できる色の総数は次のとおりです。256*256 * 256=16777216色!!!写真を聞くだけでは、写真のデータだけを保存することはもちろん、それを処理することも困難です。
ニューラルネットワークモデルによると
上で概説したように、各隠れ層が完全に接続されていると呼ばれる場合、パラメーターの数は確かに非常に多くなります。したがって、畳み込みを使用して、多数のパラメーターの問題を解決し、それでも画像の特徴を計算することができます。
灰色の画像
TOEICを勉強している皆さんは、きっとおなじみの写真をご覧になると思います。次に、グレー画像は、カラー画像のように(r、g、b)ではなく、[0,255]の範囲の整数値で表すだけで済みます。したがって、コンピューターで灰色の画像を表現する場合、1つの行列だけで十分です。
コンボリューションマジック
想像しやすくするために、グレー画像の例を取り上げます。つまり、画像はサイズm*nの行列Aとして表されます。
カーネルをサイズk*kの正方行列として定義します。ここで、kは奇数です。 kは1、3、5、7、9、…に等しくなります。たとえば、カーネルサイズ3 * 3
畳み込み計算の表記( ⊗ )、記号Y= X⊗W
行列Xの各要素xijについて、要素x ijを中心にしたカーネルWのサイズに等しいサイズの行列を取得します(これがカーネルのサイズが奇数であることが多い理由です)。A。次に、行列Aと行列Wの要素ごとの計算の要素を合計し、結果の行列Yに書き込みます。
また、行列Yは行列Xよりも小さくなります。行列Yのサイズは(m-k + 1)*(n-k + 1)です。
パディング
簡単に言えば、パディングは行列を囲むものであり、ゼロパディングまたは1パディングなどが可能です。マトリックスYがマトリックスXと同じサイズの場合、問題の解決に役立ちます。
ストライド
1ステップ未満で左右に順番に実行する代わりに、ストライドをカスタマイズしてジャンプを増減できます。ただし、ストライド= k(k> 1)の場合、要素X 1+ i ∗ k 、 1+jkに対してのみ畳み込みを実行します。
要約すると、機能マップを決定するための次の一般式があります。
サイズk*kのカーネルを持つサイズm*nの行列Xの場合、ストライド= s、パディング=p。
畳み込みの意味。
確かに誰もが一度写真ソフトウェアを使用したことがありますが、ptsでは多くの写真編集機能をサポートしています。彼らは主にCNNを使用します。したがって、畳み込み演算は、Kerelsによって画像を編集し、入力画像を別の画像に変換するのに役立つことがわかります。