https://arxiv.org/abs/1603.08155

This paper review was done while I was part of Deep Bio as a machine learning engineer intern (this explains why this paper review is in Korean not in English!)

introduction

image transformation 문제란 입력 이미지를 출력 이미지로 변환시키는 것이다. 이에 관하여 요즘 많이 쓰이는 방법으로는

  1. Feed forward neural network를 per pixel loss 를 이용하여 학습하는것과
  2. Perceptual loss 함수를 pre-trained 되어있는 모델을 토대로 나온 high level features들을 이용하여 최적화시키는등의 방법이 있다

이 논문은 perceptual loss function을 이용한 feed-forward network를 학습하여 Gatys et al이 제시한 optimization 문제(. C = 보존하고 싶은 내용, S = artistic style of an image we want to transfer)를 해결 하는 방법을 제시한다. Super-resolution에 per-pixel loss를 이용한것보다 더 나은 이미지를 출력했다고 하고 두번째 방법과 비교했을경우에는 qualitative result는 비슷했으나 3배정도 더 빠르다고 한다.

method

논문에서 제시한 방법은 이와 같다:

VGG16 pretrained network를 활용하여 high-level feature representation을 가져온 후 그 값과 우리의 모델에서 나온 출력 값과 비교를 하여 loss function 을 활용한다.

  1. image transformation network가 input image를 output image로 변환 시킬수 있도록 학습
  2. Perceptual loss function을 image classification을 하기 위하여 pre-trained 된 loss network로 정의한다 여기에서 perceptual loss 함수는 이미지들 사이의 content과 style의 지각이 가능한 차이를 의미한다
  • Loss network는 학습 하는 과정에서 update 되지 않는다

image transformation network

  • deep residual convolutional neural network
  • use stochastic gradient descent to minimize a weighted combination of loss functions: 여기에서 은 입력 이미지를 출력 이미지로 mapping 하는 함수이다. 여기에서 중요한것은 이미 image classification을 하기위하여 학습이 되어있는 convolutional neural network는우리가 loss function에서 측정하는 perceptual 과 semantic information을 이미 encode 할줄 안다는것이다 (이것때문에 computation 속도가 방법2보다는 빠르다고 추정된다..)
  • Pooling layers를 이용하지 않고 strided 과 fractionally strided convolutions을 이용하여 in-network downsample/upsample을 하는것이다.
  • 총 5개의 residual block을 이용하며, non-residual convolutional layers뒤에는 spatial batch normalization 과 ReLU non-linearities가 사용된다. 여기에서 출력 layer는 tanh를 이용한다(출력 이미지가 pixel 값 guarantee하기 위해서)
  • Loss function은 ImageNet dataset 에 pretrained 되어있는 16-layer VGG network를 활용
    • 모든 입력 이미지는 content target과 style target 이 존재한다고 가정

feature construction loss

출력이미지의 픽셀 값이 타겟 이미지의 픽셀 값과 정확히 일치하게 하기 보다는 loss function을 활용하여 비슷한 feature representation을 갖게 한다

style construction loss

reconstruction loss를 최소화 하는것은 stylistic feature들을 보존하지만 spatial feature들은 보존하지 않는다

  • 타겟 이미지와 모델에서 출력된 이미지의 gram matrix의 shape은 이미지들의 사이즈에 영향 받지 않기 때문에 이미지들의 사이즈가 달라도 된다

는 gram matrix:

  • activations at the jth layer of the 입력 이미지 에 해당되는 loss network 이것은 의 dimension 을 갖고 있는 feature map이다
  • 여기에서 중요한것은 가 각각 에 있는 포인트에 관한 dimensional feature를 준다고 가정하면 gram matrix는 dimensional features의 uncentered covariance와 정비례한다고 볼수 있다. 각 grid location이 independent sample 인셈이다.

result

single-image super-resolution 문제에 관해서는 이미 학습이 되어있는 네트워크에서 semantic knowledge를 활용하기 위하여 feature construction loss를 이용한다

  • 을 비교하였을때 은 원하지 않은 또는 의도치 않는 왜곡과 함께 보다는 high PSNR 값을 보였고 는 미세한 디테일과 edge들을 잘 잡아내었고 한다.