Applicazione della CNN nell'elaborazione delle immagini.
- 24-07-2022
- chuong xuan
- 0 Comments
Mục lục
Caratteristiche delle immagini in Computer.
Immagine a colori: RGB sta per rosso (rosso), verde (verde), blu (blu), che sono i tre colori principali della luce quando sono separati dal prisma. Quando si mescolano i tre colori sopra in determinate proporzioni, si possono formare colori diversi.
Per ogni set di 3 interi r, g, b nell'intervallo [0, 255] produrrà un colore diverso. Perché ci sono 256 modi per scegliere r, 256 modi per scegliere il colore g, 256 modi per scegliere b => il numero totale di colori che possono essere creati usando il sistema di colori RGB è: 256 * 256 * 256 = 16777216 colori !!! Solo ascoltandolo, è difficile memorizzare i dati di una foto da solo, per non parlare di gestirlo.
Che secondo il modello di rete neurale
Se ogni livello nascosto è chiamato completamente connesso e come indicato sopra, sicuramente il numero di parametri è molto grande. Pertanto, possiamo utilizzare Convolution per risolvere il problema di un gran numero di parametri e calcolare comunque le caratteristiche dell'immagine.
Immagine grigia
Sono sicuro che tutti voi che studierete TOEIC guarderete queste immagini abbastanza familiari. Quindi un'immagine grigia dobbiamo solo rappresentare con un valore intero nell'intervallo [0,255] invece di (r,g,b) come nell'immagine a colori. Pertanto, quando si rappresentano immagini grigie in un computer, è sufficiente una sola matrice.
Magia di convoluzione
Per rendere più facile immaginare, farò un esempio su un'immagine grigia, cioè l'immagine è rappresentata come una matrice A di dimensione m * n.
Definiamo il kernel come una matrice quadrata di dimensione k*k dove k è un numero dispari. k può essere uguale a 1, 3, 5, 7, 9,… Ad esempio dimensione del kernel 3*3
Notazione per il calcolo della convoluzione (⊗), simbolo Y = X ⊗ W
Per ogni elemento x ij nella matrice X, si ottiene una matrice di dimensione uguale alla dimensione del kernel W con l'elemento x ij centrato (questo è il motivo per cui la dimensione del kernel è spesso dispari) chiamata matrice. Quindi somma gli elementi del calcolo a livello di elemento della matrice A e della matrice W, quindi scrivi nella matrice risultante Y.
E la matrice Y ha dimensioni inferiori alla matrice X. La dimensione della matrice Y è (m-k+1) * (n-k+1).
Imbottitura
In poche parole, Padding è ciò che circonda una matrice, può essere zero padding o un padding, ecc. Aiuta a risolvere il problema quando la matrice Y ha le stesse dimensioni della matrice X.
Passo
Invece di dover eseguire in sequenza, sinistra e destra per meno di 1 passo, possiamo personalizzare il passo per aumentare o diminuire il salto. Tuttavia, se stride = k (k > 1), allora eseguiamo la convoluzione solo sugli elementi X 1+ i ∗ k ,1+ j k
Per riassumere, abbiamo la seguente formula generale per determinare la mappa delle caratteristiche:
Per una matrice X di dimensione m*n con un kernel di dimensione k*k, stride = s, padding = p.
Che cosa è convoluzione.
Sicuramente tutti hanno usato un software fotografico una volta, in pts supporta molte funzioni di fotoritocco. Usano principalmente le CNN. Pertanto, si può vedere che le operazioni di convoluzione aiutano a modificare l'immagine, trasformando l'immagine di input in un'altra immagine, di Kerels.