Aplicação da CNN no processamento de imagens.
- 24-07-2022
- chuong xuan
- 0 Comments
Mục lục
Características das imagens no computador.
Imagem colorida: RGB significa vermelho (vermelho), verde (verde), azul (azul), que são as três cores principais da luz quando separadas do prisma. Ao misturar as três cores acima em certas proporções, cores diferentes podem ser formadas.
Para cada conjunto de 3 inteiros r, g, b no intervalo [0, 255] produzirá uma cor diferente. Porque existem 256 maneiras de escolher r, 256 maneiras de escolher g, 256 maneiras de escolher b => o número total de cores que podem ser criadas usando o sistema de cores RGB é: 256 * 256 * 256 = 16777216 cores !!! Apenas ouvindo, é difícil armazenar os dados de uma foto sozinha, sem falar em manuseá-la.
Que de acordo com o modelo de Rede Neural
Se cada camada oculta for chamada de totalmente conectada e conforme descrito acima, certamente o número de parâmetros é muito grande. Assim, podemos usar a Convolução para resolver o problema de um grande número de parâmetros e ainda calcular as características da imagem.
Imagem cinza
Tenho certeza de que todos vocês que estudam o TOEIC vão olhar para essas fotos com bastante familiaridade. Então uma imagem cinza só precisamos representar por um valor inteiro no intervalo [0,255] em vez de (r,g,b) como na imagem colorida. Portanto, ao representar imagens cinzas em um computador, apenas uma matriz é suficiente.
Convolução mágica
Para ficar mais fácil de imaginar, vou pegar um exemplo em uma imagem cinza, ou seja, a imagem é representada como uma matriz A de tamanho m * n.
Definimos o kernel como uma matriz quadrada de tamanho k*k onde k é um número ímpar. k pode ser igual a 1, 3, 5, 7, 9,… Por exemplo, tamanho do kernel 3*3
Notação para cálculo de convolução (⊗), símbolo Y = X ⊗ W
Para cada elemento x ij na matriz X, obtenha uma matriz de tamanho igual ao tamanho do kernel W com o elemento x ij centrado (é por isso que o tamanho do kernel é muitas vezes ímpar) chamado de matriz. Em seguida, some os elementos do cálculo elementar da matriz A e da matriz W e, em seguida, escreva na matriz resultante Y.
E a matriz Y é menor em tamanho que a matriz X. O tamanho da matriz Y é (m-k+1) * (n-k+1).
Preenchimento
Simplificando, o preenchimento é o que envolve uma matriz, pode ser preenchimento zero ou um preenchimento, etc. Ajuda a resolver o problema quando a matriz Y tem o mesmo tamanho que a matriz X.
Passo
Em vez de ter que executar sequencialmente, esquerda e direita por menos de 1 passo, podemos personalizar a passada para aumentar ou diminuir o salto. No entanto, se stride = k (k > 1), então só realizamos a convolução nos elementos X 1+ i ∗ k ,1+ j k
Para resumir, temos a seguinte fórmula geral para determinar o mapa de características:
Para uma matriz X de tamanho m*n com um kernel de tamanho k*k, stride = s, padding = p.
Significado de convolução.
Certamente todo mundo já usou o software de fotos uma vez, o pts suporta muitas funções de edição de fotos. Eles usam principalmente CNNs. Assim, percebe-se que as operações de convolução auxiliam na edição da imagem, transformando a imagem de entrada em outra imagem, por Kerels.