Anwendung von CNN in der Bildverarbeitung.
- 24-07-2022
- chuong xuan
- 0 Comments
Mục lục
Eigenschaften von Bildern in Computer.
Farbbild: RGB steht für Rot (Rot), Grün (Grün), Blau (Blau), die die drei Hauptfarben des Lichts sind, wenn sie vom Prisma getrennt werden. Wenn die oben genannten drei Farben in bestimmten Anteilen gemischt werden, können verschiedene Farben gebildet werden.
Für jeden Satz von 3 ganzen Zahlen r, g, b im Bereich [0, 255] wird eine andere Farbe erzeugt. Weil es 256 Möglichkeiten gibt, r zu wählen, 256 Möglichkeiten, Farbe g zu wählen, 256 Möglichkeiten, b zu wählen => die Gesamtzahl der Farben, die mit dem RGB-Farbsystem erstellt werden können, beträgt: 256 * 256 * 256 = 16777216 Farben !!! Ich habe gerade gehört, dass das Speichern der Daten eines Fotos allein schwierig ist, geschweige denn die Verarbeitung.
Welche nach dem neuronalen Netzwerkmodell
Wenn jede verborgene Schicht als vollständig verbunden und wie oben beschrieben bezeichnet wird, ist die Anzahl der Parameter sicherlich sehr groß. Somit können wir Convolution verwenden, um das Problem einer großen Anzahl von Parametern zu lösen und trotzdem die Merkmale des Bildes zu berechnen.
Graues Bild
Ich bin sicher, dass alle von Ihnen, die TOEIC studieren, diese Bilder ziemlich vertraut sehen werden. Dann müssen wir ein graues Bild nur durch einen ganzzahligen Wert im Bereich [0,255] anstelle von (r,g,b) wie im Farbbild darstellen. Daher reicht bei der Darstellung von Graubildern in einem Computer nur eine Matrix aus.
Faltungsmagie
Um es sich einfacher vorzustellen, werde ich ein Beispiel für ein graues Bild nehmen, das heißt, das Bild wird als Matrix A der Größe m * n dargestellt.
Wir definieren den Kernel als eine quadratische Matrix der Größe k*k, wobei k eine ungerade Zahl ist. k kann gleich 1, 3, 5, 7, 9, … sein, zum Beispiel Kernelgröße 3*3
Notation für Faltungsrechnung (⊗), Symbol Y = X ⊗ W
Erstelle für jedes Element x ij in der Matrix X eine Matrix, deren Größe gleich der Größe des Kerns W ist, wobei das Element x ij zentriert ist (deshalb ist die Größe des Kerns oft ungerade), die Matrix genannt wird. A. Summiere dann die Elemente der elementweisen Berechnung von Matrix A und Matrix W und trage dann die resultierende Matrix Y ein.
Und Matrix Y ist kleiner als Matrix X. Die Größe von Matrix Y ist (m-k+1) * (n-k+1).
Polsterung
Einfach ausgedrückt, Padding ist das, was eine Matrix umgibt, kann Null-Padding oder One-Padding usw. sein. Es hilft, das Problem zu lösen, wenn Matrix Y die gleiche Größe wie Matrix X hat.
Schreiten
Anstatt nacheinander links und rechts für weniger als 1 Schritt ausführen zu müssen, können wir die Schrittlänge anpassen, um den Sprung zu erhöhen oder zu verringern. Wenn jedoch stride = k (k > 1), dann führen wir die Faltung nur an Elementen X 1+ i ∗ k ,1+ j k durch
Zusammenfassend haben wir die folgende allgemeine Formel zur Bestimmung der Feature-Map:
Für eine Matrix X der Größe m*n mit einem Kernel der Größe k*k ist stride = s, padding = p.
Bedeutung von Faltung.
Fotosoftware hat sicherlich jeder schon einmal benutzt, in pts werden viele Bildbearbeitungsfunktionen unterstützt. Sie verwenden hauptsächlich CNNs. Somit ist ersichtlich, dass die Faltungsoperationen dabei helfen, das Bild zu bearbeiten, indem sie das Eingabebild durch Kerels in ein anderes Bild umwandeln.