https://arxiv.org/abs/2107.10833
Real-ESRGAN: Training Real-World Blind Super-Resolution with Pure Synthetic Data
Though many attempts have been made in blind super-resolution to restore low-resolution images with unknown and complex degradations, they are still far from addressing general real-world degraded images. In this work, we extend the powerful ESRGAN to a pr
arxiv.org
최근, HD2D 프로젝트에 대해 좀 알아보고자 관련한 논문은 없나 좀 찾아보았다.
2D Pixel To HD 하면 당연히 Super Resolution 기법부터 떠올랐는데, 게임과 관련한 논문들은 찾기가 힘든 편이라
그나마 2021년 발표된 Real-ESRGAN을 발견하게 되었다.
AI 엔지니어링 할 것도 아니고 인퍼런스 모델만 있으면 되기 떄문에, 딥하게 수식이나 기술을 보진 않고 컨셉츄얼하게 분석해보겠다.

Pure Synthetic Data 란 말이 좀 우습긴 한데, 우리 저자분들이 얼마나 고생 했을 지 뻔해보인다.
- Abstract
블라인드 이미지에 대한 Super-Resolution 기법은 형태를 알아볼 수 없거나 복잡한 low-resolution 이미지들을 복원하는 기술이다. Real-ESRGAN은 Pure Synthetic Data를 이용하여 학습한 모델로서, High-order 수준의 퇴화된 이미지에 대해서는 가장 좋은 성능을 보여준다. 해당 모델은 합성 과정에서 생기는 Ringing, Overshoot 문제도 고려하고 있다.
게다가, 이 모델은 Spectral Normalization 를 적용한 U-Net Discriminator를 구성한다.
Ringing / Overshoot ?
생성모델에서 흔히 발생하는 현상으로, 생성 이미지의 Edge 부근에서 부자연스러워보이는 Ghost 현상을 말한다.
JPEG 화 시킨 이미지에 이상한 왜곡이 생기는 것과 같은 이야기이다.

이 부분을 고려하기 위해, 논문에서는 sinc 라는 필터를 적용했다고 한다. 이 필터는 Ringing/Overshoot을 생성하는 필터이다.
- Model


Generator야 Ringing/Overshoot 현상이나, low-resolution 특유의 왜곡된 이미지를 생성하는 것이고.
Discriminator는 Synthetic Data 를 판별하는데
인퍼런스가 중요하므로 Discriminator만 살펴보자.
낭만 넘치던 20년도 시대의 논문답게 오랜만에 VGG가 언급되는구나.
모델 자체는 무척 기본적인 U-Net 구조이다.
Donwsampling 해가며 Feature를 학습한 뒤에 Upsampling으로 복원하는 구조인데
Spectral Norm이 추가되어있다. 결과적으로 일종의 Filter Map 을 결과물로 출력한다.
논문에서는 Spectral Normalization을 인용으로 (진짜 고맙게도) 퉁쳐서 자세히 분석할 필요는 없어보인다.
일단은, 이 노말라이즈의 용도는 학습을 안정화 시킨다고 한다.
학습 과정은 필요없고, 이후로는 여러 예시들로 설명하고 끝나는 듯 하다.





바로 이전 모델인 ESRGAN의 결과물인데, 복원 능력이 나쁘지 않은 것 같다.
2D HD 기술도 찾아보면 재밌는 논문이 많을 것 같다.