EscherNet: 확장 가능한 뷰 합성을 위한 혁신적인 다중 뷰 조건부 확산 모델

다이슨 로보틱스 연구소, 임페리얼 칼리지 런던 및 홍콩 대학의 연구원들은 EscherNet을 소개하였습니다. 이는 확장 가능한 뷰 합성을 위한 혁신적인 다중 뷰 조건부 확산 모델로, 이 모델은 인간의 시각과 유사하게 다양한 관점에서 장면을 재랜더링할 수 있으며, 뷰 합성에서 뛰어난 일반성과 확장성을 제공합니다.

기존의 신경망 3D 표현 학습 방법은 대부분의 경우 정답인 3D 기하학에 대한 의존도가 높아 작은 규모의 합성 3D 데이터에만 적용이 가능했습니다. 그러나 EscherNet은 전문적인 카메라 위치 인코딩(CaPE)의 도움으로 묵시적인 3D 표현을 학습함으로써 이 제한을 극복합니다. 각 뷰에 대한 정확한 카메라 포즈를 인코딩함으로써 EscherNet은 상대적인 카메라 변환 학습을 용이하게 하고, 참조 뷰에서 고수준 의미와 저수준 질감 세부사항을 효율적으로 인코딩하여 고품질 결과를 도출합니다.

EscherNet은 임의 개수의 뷰를 처리하기 위해 2D 확산 모델과 카메라 위치 인코딩을 통합합니다. 이 모델은 백본으로 Stable Diffusion v1.5를 사용하고, 자기 주의 메커니즘 블록을 수정하여 다중 뷰에서 일관된 대상-대상 일관성을 보장합니다. EscherNet은 고정된 수의 참조 뷰로 훈련되었음에도 불구하고, 단일 GPU에서 100개 이상의 일관된 대상 뷰를 생성할 수 있는 능력을 갖추고 있습니다. 이러한 단일 및 다중 이미지 3D 재구성 작업의 통합으로 인해 EscherNet은 3D 비전의 다양한 응용 분야에서 다재다능하고 강력한 도구가 됩니다.

EscherNet은 여러 작업에서 우수한 성능을 보여줍니다. 새로운 뷰 합성에서는 다른 3D 확산 모델 및 신경 렌더링 방법을 능가하며, 참조 뷰 수를 줄이면서도 고품질 결과를 달성합니다. 또한 EscherNet은 3D 생성에서 뛰어난 성능을 보여주며, 정확하고 시각적으로 매력적인 3D 기하학을 재구성함으로써 최첨단 모델을 능가합니다. 그 유연성은 텍스트에서 3D 생성 파이프라인에 완벽하게 통합될 수 있도록 하여 일관되고 현실적인 결과물을 생성할 수 있습니다.

EscherNet을 통해 연구원들은 3D 비전에 대한 확장 가능한 신경 아키텍처에서 중대한 진전을 이루었습니다. 이 혁신적인 개발을 통해 컴퓨터 비전과 그래픽스 분야에서 물체 조작, 탐색 및 장면 재랜더링과 같은 창의적인 응용이 가능해졌습니다. 3D 비전에 대한 확장 가능한 신경 아키텍처의 추가적인 진전 가능성은 매우 크며, EscherNet은 이 흥미로운 발전의 선두에 있는 모델입니다.

EscherNet과 그 응용 분야에 대해 더 알아보려면 연구 논문 및 프로젝트를 확인해볼 수 있습니다. 이 혁신적인 연구는 다이슨 로보틱스 연구소, 임페리얼 칼리지 런던 및 홍콩 대학의 연구원들에게 귀속됩니다. AI 및 머신 러닝 분야의 최신 동향에 대해 알려드리기 위해 Twitter 및 Google 뉴스를 팔로우해주시고, Reddit, Facebook, Discord 및 LinkedIn의 열성적인 ML 애호가 커뮤니티에 가입해주시기 바랍니다. 저희의 작업을 좋아하신다면 최신 발전에 대한 정기적인 업데이트를 받기 위해 뉴스레터를 구독해주시기를 잊지 마세요.

🚀 LLMWare에서 SLIMs를 출시했습니다: 다단계 자동화를 위한 소형 특수화 함수 호출 모델 [모든 모델 확인하기]

EscherNet: 확장 가능한 뷰 합성을 위한 다중 뷰 조건부 확산 모델

자주 묻는 질문:

1. EscherNet이란 무엇인가요?
EscherNet은 확장 가능한 뷰 합성을 위한 혁신적인 다중 뷰 조건부 확산 모델입니다. 인간의 시각과 유사하게 다양한 관점에서 장면을 재랜더링할 수 있으며, 뷰 합성에서의 일반성과 확장성을 제공합니다.

2. EscherNet은 전통적인 방법의 제한을 어떻게 극복하나요?
신경망 3D 표현 학습의 전통적인 방법은 대부분 정답인 3D 기하학에 의존하는 경향이 있어 작은 규모의 합성 3D 데이터에만 적용할 수 있었습니다. EscherNet은 특수화된 카메라 위치 인코딩(CaPE)을 사용하여 묵시적인 3D 표현을 학습함으로써 이 제한을 극복합니다.

3. EscherNet은 어떻게 임의 개수의 뷰 합성을 처리하나요?
EscherNet은 2D 확산 모델과 카메라 위치 인코딩을 통합하여 임의 개수의 뷰를 처리합니다. 이 모델은 백본으로 Stable Diffusion v1.5를 사용하고, 자기 주의 메커니즘 블록을 수정하여 다중 뷰에서 일관된 대상-대상 일관성을 보장합니다.

4. EscherNet은 어떤 작업에서 뛰어난 성능을 보이나요?
EscherNet은 새로운 뷰 합성에서 다른 3D 확산 모델 및 신경 렌더링 방법을 능가하는 우수한 성능을 보여줍니다. 또한 정교하고 시각적으로 매력적인 3D 기하학을 재구성하여 최첨단 모델을 능가하여 3D 생성에서도 뛰어난 성능을 보입니다. 또한 텍스트에서 3D 생성 파이프라인에 완벽하게 통합될 수 있습니다.

5. EscherNet에 대해 더 알아보려면 어떻게 해야 하나요?
EscherNet과 그 응용 분야에 대해 자세히 알아보려면 연구 논문과 프로젝트를 확인해보세요. 이 혁신적인 연구는 다이슨 로보틱스 연구소, 임페리얼 칼리지 런던 및 홍콩 대학의 연구원들이 수행한 것입니다.

정의:

– 정답인 3D 기하학: 다양한 방법(스캐닝 또는 모델링 등)으로 획득한 개체 또는 장면의 실제 3D 기하학을 말합니다.

– 카메라 위치 인코딩 (CaPE): EscherNet에서 카메라 포즈를 정확하게 인코딩하기 위해 사용되는 특수화된 기술입니다.

– 뷰 합성: 기존의 뷰나 참조 이미지로부터 장면이나 개체의 새로운 뷰를 생성하는 작업을 말합니다.

– 묵시적인 3D 표현: 묵시적인 표현은 지오메트리의 표면이나 경계를 명시적으로 정의하지 않고 3D 기하학을 나타냅니다.

– 신경 렌더링: 신경망을 사용하여 장면이나 개체의 이미지나 뷰를 생성하는 작업을 말합니다.

관련 링크:
– 다이슨 로보틱스 연구소
– 임페리얼 칼리지 런던
– 홍콩 대학

The source of the article is from the blog agogs.sk