Dev

Real-ESRGAN: Training Real-World Blind Super-Resolution with Pure Synthetic Data - Paper Research

Septentrions 2025. 12. 30. 21:29

https://arxiv.org/abs/2107.10833

 

Real-ESRGAN: Training Real-World Blind Super-Resolution with Pure Synthetic Data

Though many attempts have been made in blind super-resolution to restore low-resolution images with unknown and complex degradations, they are still far from addressing general real-world degraded images. In this work, we extend the powerful ESRGAN to a pr

arxiv.org

 

최근, HD2D 프로젝트에 대해 좀 알아보고자 관련한 논문은 없나 좀 찾아보았다.

 

2D Pixel To HD 하면 당연히 Super Resolution 기법부터 떠올랐는데, 게임과 관련한 논문들은 찾기가 힘든 편이라

그나마 2021년 발표된 Real-ESRGAN을 발견하게 되었다.

 

AI 엔지니어링 할 것도 아니고 인퍼런스 모델만 있으면 되기 떄문에, 딥하게 수식이나 기술을 보진 않고 컨셉츄얼하게 분석해보겠다.

 

Pure Synthetic Data 란 말이 좀 우습긴 한데, 우리 저자분들이 얼마나 고생 했을 지 뻔해보인다.

 

- Abstract

블라인드 이미지에 대한 Super-Resolution 기법은 형태를 알아볼 수 없거나 복잡한 low-resolution 이미지들을 복원하는 기술이다. Real-ESRGAN은 Pure Synthetic Data를 이용하여 학습한 모델로서, High-order 수준의 퇴화된 이미지에 대해서는 가장 좋은 성능을 보여준다. 해당 모델은 합성 과정에서 생기는 Ringing, Overshoot 문제도 고려하고 있다.

게다가, 이 모델은 Spectral Normalization 를 적용한 U-Net Discriminator를 구성한다.

 

Ringing / Overshoot ?

생성모델에서 흔히 발생하는 현상으로, 생성 이미지의 Edge 부근에서 부자연스러워보이는 Ghost 현상을 말한다.

JPEG 화 시킨 이미지에 이상한 왜곡이 생기는 것과 같은 이야기이다.

Ringing/Overshoot Problem

이 부분을 고려하기 위해, 논문에서는 sinc 라는 필터를 적용했다고 한다. 이 필터는 Ringing/Overshoot을 생성하는 필터이다.

 

- Model

Generator
Discriminator

Generator야 Ringing/Overshoot 현상이나, low-resolution 특유의 왜곡된 이미지를 생성하는 것이고.

Discriminator는 Synthetic Data 를 판별하는데

인퍼런스가 중요하므로 Discriminator만 살펴보자.

 

낭만 넘치던 20년도 시대의 논문답게 오랜만에 VGG가 언급되는구나.

 

모델 자체는 무척 기본적인 U-Net 구조이다.

Donwsampling 해가며 Feature를 학습한 뒤에 Upsampling으로 복원하는 구조인데

Spectral Norm이 추가되어있다. 결과적으로 일종의 Filter Map 을 결과물로 출력한다.

논문에서는 Spectral Normalization을 인용으로 (진짜 고맙게도)  퉁쳐서 자세히 분석할 필요는 없어보인다.

일단은, 이 노말라이즈의 용도는 학습을 안정화 시킨다고 한다.

 

학습 과정은 필요없고, 이후로는 여러 예시들로 설명하고 끝나는 듯 하다.

 

 

Original
4K Upscailing

 

 

바로 이전 모델인 ESRGAN의 결과물인데, 복원 능력이 나쁘지 않은 것 같다.

2D HD 기술도 찾아보면 재밌는 논문이 많을 것 같다.