GAN(Generative Adversarial Networks)

2023. 5. 27. 21:31미드저니

728x90

Generative Adversarial Networks

 

대화형 포인트 기반 조작의 힘

"Drag Your GAN"이라는 적절하게 명명된 이 기술을 통해 사용자는 생성된 이미지에서 일련의 조작을 수행할 수 있습니다. 예를 들어 사용자는 이미지에서 얼굴의 포즈, 머리카락, 모양 및 표정을 편집할 수 있습니다. 이러한 수준의 제어는 전례가 없으며 디지털 콘텐츠 생성 및 조작의 가능성을 열어줍니다.

 

Generative Adversarial Networks
Generative Adversarial Networks

 

Drag Your GAN의 빠른 데모

GAN(Generative Adversarial Networks)은 기술 산업에 큰 파장을 일으키고 있으며 그럴 만한 이유가 있습니다. 그것들은 우리가 디지털 콘텐츠와 상호 작용하는 방식을 혁신할 수 있는 잠재력을 가지고 있으며 이 분야의 최근 발전은 이 사실을 입증합니다. 문제의 기술은 SIGGRAPH '23 Conference Proceedings에 자세히 설명된 것처럼 생성 이미지 매니폴드에 대한 대화형 포인트 기반 조작입니다.

 

GAN의 진화

GAN의 진화는 입력 잠재 벡터를 조작하여 무조건 GAN을 편집하기 위해 제안된 여러 방법을 보았습니다. 일부 접근 방식은 수동 주석 또는 이전 3D 모델에서 지도 학습을 통해 의미 있는 잠재 방향을 찾습니다. 다른 접근법은 감독되지 않은 방식으로 잠재 공간에서 중요한 의미론적 방향을 계산합니다.

최근 개발에서는 중간 "블롭" 또는 히트맵을 도입하여 대략적인 물체 위치의 제어 가능성을 달성했습니다. 이러한 모든 접근 방식을 통해 모양과 같은 이미지 정렬 시맨틱 속성 또는 객체 위치 및 포즈와 같은 대략적인 기하학적 속성을 편집할 수 있습니다.

 

GAN의 미래

GAN의 미래는 유망하며, 3D 제어를 가능하게 하기 위해 GAN의 아키텍처를 수정하는 몇 가지 방법이 있습니다. 이러한 모델은 물리적 기반 분석 렌더러를 사용하여 렌더링할 수 있는 3D 표현을 생성합니다. 그러나 제어는 현재 전역 포즈 또는 조명으로 제한됩니다.

확산 모델은 또한 고품질의 이미지 합성을 가능하게 했습니다. 이러한 모델은 무작위로 샘플링된 노이즈를 반복적으로 제거하여 사실적인 이미지를 생성합니다. 최근 모델은 텍스트 입력 조건에서 표현적인 이미지 합성을 보여주었습니다. 그러나 자연어는 이미지의 공간적 속성을 세밀하게 제어할 수 없기 때문에 모든 텍스트 조건부 방법은 고급 의미론적 편집으로 제한됩니다.

 

Drag Your GAN의 약속

이러한 방법과 달리 Drag Your GAN을 사용하면 사용자가 포인트 기반 편집을 사용하여 공간 속성을 세밀하게 제어할 수 있습니다. 이 접근 방식은 이미지에서 드래그되는 여러 점을 사용하여 편집을 지원하고 여러 점 제약 조건을 잘 처리합니다.

이 기술은 또한 편집이 사실적인 이미지로 이어지고 개체의 3D 포즈 변경과 같은 제어를 가능하게 합니다. 이러한 수준의 제어 및 정밀도는 GAN 분야에서 상당한 도약입니다.

 

결론

Generative Adversarial Networks
Generative Adversarial Networks

Drag Your GAN의 또 다른 데모

 

GAN의 잠재력은 방대하며 Drag Your GAN과 같은 기술을 통해 가능한 것의 표면을 긁는 것입니다. 우리가 이러한 기술을 지속적으로 개선하고 개발함에 따라 미래에 훨씬 더 혁신적인 응용 프로그램을 볼 수 있을 것으로 기대할 수 있습니다. 디지털 콘텐츠에 대한 상호작용적이고 세분화된 제어의 시대가 다가오고 있으며 이 기술 혁명의 일부가 되는 것은 흥미로운 시간입니다.

 

 

https://vcai.mpi-inf.mpg.de/projects/DragGAN/

 

Drag Your GAN: Interactive Point-based Manipulation on the Generative Image Manifold

--> Abstract Synthesizing visual content that meets users' needs often requires flexible and precise controllability of the pose, shape, expression, and layout of the generated objects. Existing approaches gain controllability of generative adversarial net

vcai.mpi-inf.mpg.de

 

728x90
반응형