DiT(Diffusion Transformer)는 확산 모델(Diffusion Model)의 핵심 백본 네트워크로 기존의 U-Net 대신 트랜스포머 아키텍처를 적용한 새로운 종류의 생성 모델이다. 이 모델은 이미지 생성 분야에서 고품질의 결과물과 뛰어난 확장성을 제공하며, DALL·E 3, Stable Diffusion 3, OpenAI의 Sora와 같은 최신 생성형 AI 시스템의 기반 기술로 주목받고 있다.
목차
- DiT(Diffusion Transformer)란 무엇인가?
- DiT의 핵심 기술 및 작동 원리
- DiT의 등장 배경 및 발전 과정
- DiT의 주요 활용 사례 및 응용 분야
- DiT의 현재 연구 동향 및 최신 발전
- DiT의 미래 전망 및 잠재적 영향
- 참고 문헌
DiT(Diffusion Transformer)란 무엇인가?
DiT(Diffusion Transformer)는 확산 모델의 핵심 구성 요소인 노이즈 예측 네트워크에 트랜스포머 아키텍처를 도입한 혁신적인 생성 모델이다. 기존 확산 모델들이 주로 U-Net이라는 컨볼루션 신경망을 사용했던 것과 달리, DiT는 트랜스포머의 강력한 특징 학습 능력과 확장성을 활용하여 이미지 생성 성능을 비약적으로 향상시켰다.
확산 모델(Diffusion Model)의 간략한 이해
확산 모델은 마치 흐릿한 사진을 점진적으로 선명하게 만드는 과정과 유사하게 작동하는 생성 모델이다. 이 모델은 먼저 원본 데이터(예: 이미지)에 점진적으로 노이즈(잡음)를 추가하여 완전히 무작위적인 상태로 만든다. 이 과정을 ‘순방향 확산 과정(Forward Diffusion Process)’이라고 부른다. 이후, 모델은 노이즈가 추가된 데이터에서 노이즈를 점진적으로 제거하여 원본 데이터를 복원하는 방법을 학습한다. 이 과정을 ‘역방향 확산 과정(Reverse Diffusion Process)’이라고 하며, 이 단계에서 고품질의 새로운 데이터를 생성할 수 있다. 확산 모델은 마르코프 연쇄(Markov Chain)를 시뮬레이션하여 단순한 사전 분포(예: 가우시안 노이즈)에서 복잡한 데이터 분포로 전환하는 원리를 따른다.
트랜스포머(Transformer) 아키텍처의 간략한 이해
트랜스포머는 2017년 구글이 발표한 ‘어텐션 이즈 올 유 니드(Attention Is All You Need)’ 논문에서 처음 소개된 신경망 아키텍처이다. 주로 자연어 처리(NLP) 분야에서 혁신을 가져왔으며, 문장 내 단어들 간의 관계와 중요도를 파악하는 ‘셀프 어텐션(Self-Attention)’ 메커니즘을 핵심으로 한다. 예를 들어, “강아지가 풀밭에서 공을 가지고 놀고 있다”는 문장에서 ‘놀고 있다’는 동사가 ‘강아지’와 ‘공’ 중 어떤 것에 더 밀접하게 관련되는지를 어텐션 메커니즘이 학습하는 방식이다. 트랜스포머는 이러한 셀프 어텐션 덕분에 입력 데이터의 장거리 의존성(long-range dependencies)을 효과적으로 포착할 수 있으며, 병렬 처리가 가능하여 긴 시퀀스 데이터 처리에 특히 강점을 보인다. 이러한 특성으로 인해 자연어 처리뿐만 아니라 비전 트랜스포머(Vision Transformer, ViT)와 같이 이미지 처리 분야에서도 성공적으로 응용되고 있다.
DiT의 핵심 기술 및 작동 원리
DiT는 확산 모델의 노이즈 예측 네트워크에 트랜스포머를 도입하여 이미지 생성 과정에서 데이터를 효율적으로 처리하고 변환한다. 이는 기존 U-Net 기반 확산 모델의 한계를 극복하고 성능을 향상시키는 데 크게 기여한다.
DiT 아키텍처의 구조
DiT 아키텍처는 비전 트랜스포머(Vision Transformer, ViT)의 설계 원칙을 따른다. 입력 이미지를 직접 픽셀 단위로 처리하는 대신, 이미지를 작은 정사각형 ‘패치(Patch)’ 단위로 분할하여 이 패치들을 시퀀스(sequence) 형태로 트랜스포머에 입력한다. 각 패치는 하나의 ‘토큰(token)’으로 간주되며, 트랜스포머는 이 토큰 시퀀스에서 노이즈를 예측하고 제거하는 작업을 수행한다. DiT의 주요 구성 요소는 다음과 같다.
- 트랜스포머 블록(Transformer Block): 셀프 어텐션 메커니즘을 포함하여 입력 패치들 간의 관계를 학습하고 전역적인 특징을 포착한다.
- Adaptive Layer Normalization (AdaLN): 확산 과정의 시간 단계(timestep)나 생성하려는 이미지의 클래스 레이블과 같은 조건부 정보(conditional information)를 효율적으로 주입하는 메커니즘이다. AdaLN은 표준 레이어 정규화(Layer Normalization)와 달리, 조건부 임베딩(conditional embedding)을 기반으로 스케일(γ)과 시프트(β) 파라미터를 동적으로 계산하여 각 트랜스포머 블록의 활성화 함수를 조절한다. 특히 AdaLN-Zero는 초기 출력을 항등 함수(identity function)에 가깝게 초기화하여 훈련 안정성을 높이는 데 기여한다.
- 잠재 공간(Latent Space)에서의 작동: DiT는 고차원의 픽셀 공간이 아닌, VAE(Variational Autoencoder)와 같은 인코더를 통해 압축된 저차원의 ‘잠재 공간(latent space)’에서 작동한다. 이는 계산 효율성을 크게 높이며, 트랜스포머가 더 추상적이고 의미 있는 정보에 집중할 수 있도록 돕는다.
노이즈 예측 및 데이터 변환 과정
DiT의 이미지 생성 과정은 다음과 같은 단계로 진행된다. 먼저, 원본 이미지는 VAE 인코더를 통해 저차원의 잠재 표현(latent representation)으로 압축된다. 이 잠재 표현에 점진적으로 노이즈가 추가된 상태에서, DiT는 이 노이즈를 예측하고 제거하는 역할을 한다. 구체적으로, 노이즈가 포함된 잠재 패치 시퀀스와 현재 확산 시간 단계, 그리고 필요한 경우 클래스 레이블과 같은 조건부 정보가 DiT 모델에 입력된다. DiT는 이 정보를 바탕으로 현재 잠재 표현에 추가된 노이즈를 예측한다. 예측된 노이즈는 잠재 표현에서 제거되고, 이 과정이 여러 시간 단계에 걸쳐 반복되면서 점진적으로 노이즈가 없는 깨끗한 잠재 표현이 생성된다. 마지막으로, 이 깨끗한 잠재 표현은 VAE 디코더를 통해 고품질의 최종 이미지로 변환된다.
기존 확산 모델과의 차별점
기존 확산 모델은 주로 컨볼루션 U-Net 아키텍처를 백본으로 사용해왔다. U-Net은 컨볼루션 연산의 특성상 이미지의 지역적인 특징(local features)과 공간적 계층 구조(spatial hierarchies)를 학습하는 데 뛰어난 ‘유도 편향(inductive bias)’을 가지고 있다. 그러나 DiT는 U-Net의 이러한 유도 편향이 확산 모델 성능에 필수적이지 않음을 보여주며 트랜스포머로 대체 가능함을 입증했다. DiT는 트랜스포머의 셀프 어텐션 메커니즘을 통해 이미지의 모든 패치 간의 관계를 직접적으로 학습하여 전역적인 문맥(global context)을 포착하는 데 강점을 보인다. 이는 U-Net이 깊은 네트워크나 추가적인 어텐션 레이어 없이는 달성하기 어려운 부분이다. 또한, 트랜스포머는 모델의 깊이, 폭, 입력 토큰 수를 늘릴수록 성능이 일관되게 향상되는 뛰어난 확장성(scalability)을 가지고 있어, 대규모 모델로의 확장에 매우 유리하다.
DiT의 등장 배경 및 발전 과정
DiT는 이미지 생성 모델의 발전 과정에서 기존 모델의 한계를 극복하고 트랜스포머의 성공적인 적용을 통해 등장했다. 윌리엄 피블스(William Peebles)와 사이닝 시에(Saining Xie)에 의해 개발되었다.
기존 이미지 생성 모델의 한계
GPT, BERT와 같은 트랜스포머가 자연어 처리 분야에서 표준이 되고 비전 트랜스포머(ViT)가 이미지 분류에서 강세를 보였음에도 불구하고, DiT가 발표되기 전까지 이미지 생성 분야의 확산 모델에서는 컨볼루션 U-Net이 널리 사용되었다. U-Net은 의료 영상 분할 등 특정 이미지 처리 작업에서 뛰어난 성능을 보였으나, 모델 복잡도를 설명하는 데 한계가 있었고, 트랜스포머가 가진 뛰어난 확장성을 이미지 생성 모델에 온전히 활용하기 어려웠다. 특히 U-Net의 컨볼루션 구조는 지역적 특징 추출에 유리하지만, 이미지 전체의 장거리 의존성을 모델링하는 데는 한계가 있었다.
DiT 개발의 주요 동기
DiT 개발의 주요 동기는 확산 모델의 성능을 향상시키고 트랜스포머의 뛰어난 확장성을 이미지 생성에 적용하려는 데 있었다. 연구자들은 U-Net의 유도 편향(즉, 컨볼루션이 이미지에 필수적이라는 가정)이 확산 모델의 성능에 중요하지 않으며, 트랜스포머로 대체될 수 있음을 보여주고자 했다. 이는 트랜스포머가 언어 모델에서 보여준 스케일링 법칙(scaling laws)이 이미지 생성 모델에서도 통할 것이라는 가설에 기반한다. 즉, 모델의 크기를 키울수록 성능이 비례하여 향상될 것이라는 기대가 있었다.
주요 연구 및 모델 발전 이정표
DiT는 2022년 12월 윌리엄 피블스와 사이닝 시에가 발표한 “Scalable Diffusion Models with Transformers” 논문을 통해 처음 소개되었다. 이 연구는 트랜스포머의 깊이(depth), 폭(width), 입력 토큰 수(input tokens)를 늘릴수록 FID(Frechet Inception Distance) 점수가 일관되게 낮아져 성능이 향상됨을 보여주었다. FID는 생성된 이미지의 품질과 다양성을 측정하는 지표로, 점수가 낮을수록 더 좋은 품질의 이미지를 생성했음을 의미한다. 특히, DiT-XL/2 모델은 ImageNet 512×512 및 256×256 벤치마크에서 이전 확산 모델들을 능가하는 2.27 FID를 달성하며 당시 SOTA(State-Of-The-Art)를 기록했다. DiT-XL/2는 약 6억 7천 5백만 개의 파라미터를 가지며, 단일 순방향 패스(forward pass)당 약 119 Gflops의 계산 복잡도를 가짐에도 불구하고, 픽셀 공간에서 작동하는 이전 U-Net 기반 모델보다 계산 효율성이 더 높다는 것을 입증했다.
DiT의 주요 활용 사례 및 응용 분야
DiT는 그 뛰어난 성능과 확장성 덕분에 다양한 이미지 생성 및 조작 분야에서 핵심적인 역할을 수행하고 있다.
고품질 이미지 생성
DiT는 DALL·E 3, Stable Diffusion 3, OpenAI의 Sora와 같은 최신 생성형 AI 시스템에 적용되어 고해상도 및 사실적인 이미지와 비디오를 생성하는 데 기여하고 있다. DiT는 잠재 공간에서 작동하며, VAE 인코더를 통해 이미지를 잠재 공간으로 압축한 후 트랜스포머가 노이즈를 예측하고 제거하는 과정을 반복하여 고품질의 이미지를 생성한다. 이러한 능력은 예술 작품 생성, 디자인 시안 개발, 광고 콘텐츠 제작, 가상 인물 생성 등 다양한 분야에서 활용될 수 있다. 예를 들어, 텍스트 설명을 기반으로 사실적인 이미지를 생성하는 텍스트-이미지(text-to-image) 모델의 성능을 크게 향상시키는 데 기여한다.
이미지 편집 및 조작
DiT는 단순히 새로운 이미지를 생성하는 것을 넘어, 기존 이미지를 편집하고 조작하는 작업에도 응용될 수 있다. 여기에는 다음과 같은 기능들이 포함된다.
- 조건부 이미지 생성(Conditional Image Generation): 특정 조건(예: 텍스트 설명, 클래스 레이블)에 맞춰 이미지를 생성하거나 수정한다.
- 스타일 전이(Style Transfer): 한 이미지의 스타일을 다른 이미지에 적용하여 새로운 시각적 효과를 만들어낸다.
- 이미지 인페인팅(Image Inpainting): 이미지의 손상되거나 비어있는 부분을 주변 맥락에 맞춰 자연스럽게 채워 넣는다.
- 슈퍼 레졸루션(Super-resolution): 저해상도 이미지를 고해상도로 복원하여 이미지의 세부 사항을 개선한다.
이러한 기능들을 통해 사용자는 원하는 조건에 맞춰 이미지를 생성하거나 기존 이미지를 정교하게 수정할 수 있으며, 이는 사진 편집, 콘텐츠 제작, 복원 작업 등에서 혁신적인 도구로 활용된다.
비디오 생성 및 기타 응용
DiT는 이미지 생성뿐만 아니라 비디오 생성 분야로도 빠르게 확장되고 있다. OpenAI의 Sora와 Video Diffusion Transformer (VDT)는 확산 기반 비디오 생성에 트랜스포머를 사용하여 시간적 의존성(temporal dependencies)을 포착하고 다양한 비디오 생성 시나리오를 가능하게 한다. 비디오는 일련의 이미지 프레임으로 구성되므로, DiT의 이미지 처리 능력을 시간 축으로 확장하여 일관성 있는 비디오 시퀀스를 생성할 수 있다. 이는 영화, 애니메이션, 가상현실 콘텐츠 제작, 시뮬레이션 환경 구축 등 다양한 미디어 콘텐츠 제작에 혁신을 가져올 잠재력을 가지고 있다.
DiT의 현재 연구 동향 및 최신 발전
DiT 기술은 지속적으로 발전하고 있으며, 모델의 효율성, 확장성 개선 및 다양한 데이터 모달리티로의 확장이 현재 연구의 주요 동향이다.
모델 효율성 및 확장성 개선
연구자들은 DiT 모델의 계산 효율성과 확장성을 더욱 높이기 위해 노력하고 있다. 모델의 복잡도를 나타내는 Gflops(초당 부동 소수점 연산 수)를 통한 분석 결과, 모델의 깊이, 폭, 입력 토큰 수를 늘릴수록 Gflops가 증가하고 FID 점수가 낮아져 성능이 향상된다는 점이 확인되었다. 이는 트랜스포머의 스케일링 법칙이 DiT에서도 유효함을 보여준다. 최근 연구에서는 Dynamic Diffusion Transformer (DyDiT)와 같은 아키텍처가 제안되어, 확산 시간 단계 및 공간 영역에 따라 계산량을 동적으로 조절함으로써 DiT-XL 모델의 FLOPs를 51% 감소시키고 생성 속도를 1.73배 가속화하면서도 경쟁력 있는 FID 점수를 달성했다. 또한, Representation Autoencoder (RAE)를 활용하여 잠재 공간의 정보 용량을 늘리고 생성 품질을 향상시키는 연구도 진행 중이다. RAE는 기존 VAE보다 고차원의 의미론적 공간에서 작동하여 정보 손실을 줄이고 멀티모달 시스템과의 통합을 용이하게 한다. RAE 기반 모델은 VAE 기반 모델보다 모든 스케일에서 일관되게 우수한 성능을 보이며, 모델 크기가 커질수록 성능 격차가 벌어지는 경향을 나타낸다.
다양한 데이터 모달리티로의 확장
DiT는 이미지 외에도 텍스트-이미지, 텍스트-비디오 등 멀티모달 학습으로 확장되고 있다. 이는 DiT가 더욱 복잡하고 다양한 형태의 데이터를 이해하고 생성하는 데 활용될 수 있음을 의미한다. Multimodal Diffusion Transformer (MMDiT) 모델은 이미지와 텍스트를 포함한 이종 모달리티의 정보를 공동으로 처리하는 트랜스포머 기반 확산 아키텍처를 대표한다. Stable Diffusion 3, FLUX.1, UniVideo와 같은 최신 생성 시스템의 기반이 되며, 교차 모달 상호작용의 확장성, 효율적인 조건화, 고급 제어 기능을 제공한다. 또한, DiTCtrl과 같은 연구는 멀티모달 확산 트랜스포머에서 어텐션 제어를 탐색하여 튜닝 없이 여러 프롬프트에 기반한 장편 비디오 생성을 가능하게 하는 등 비디오 생성 분야에서의 발전을 이끌고 있다.
윤리적 고려사항 및 사회적 영향
DiT와 같은 강력한 생성 모델의 발전은 딥페이크(deepfake) 생성이나 잘못된 정보 유포와 같은 잠재적인 오용 가능성에 대한 윤리적 고려사항을 제기한다. 고품질의 사실적인 이미지와 비디오를 쉽게 생성할 수 있게 되면서, 허위 정보의 확산이나 개인의 명예 훼손과 같은 사회적 문제가 발생할 수 있다. 또한, 학습 데이터에 포함된 편향이 생성 결과물에 반영될 수 있으며, 이는 특정 집단에 대한 고정관념을 강화하거나 차별을 조장할 위험이 있다. 데이터 프라이버시 및 동의 문제 또한 중요한 논의 대상이 된다. 따라서 이러한 기술의 개발과 활용에는 기술적 발전뿐만 아니라 윤리적 가이드라인 마련, 책임 있는 배포, 그리고 사회적 합의 도출이 필수적이다.
DiT의 미래 전망 및 잠재적 영향
DiT 기술은 인공지능 분야, 특히 생성형 AI 시장에 지대한 영향을 미치며 미래 콘텐츠 생성 방식에 혁신을 가져올 것으로 기대된다.
인공지능 생성 콘텐츠(AIGC) 시장의 변화
DiT는 고품질의 이미지와 비디오를 효율적으로 생성할 수 있는 능력을 바탕으로 인공지능 생성 콘텐츠(AIGC) 시장의 성장을 가속화할 것이다. 이는 미디어, 엔터테인먼트, 디자인, 광고 등 다양한 산업에서 콘텐츠 제작 방식과 비용 구조에 근본적인 변화를 가져올 수 있다. 예를 들어, 디자이너는 아이디어 스케치를 빠르게 시각화하고, 마케터는 특정 캠페인에 맞는 이미지를 즉시 생성하며, 영화 제작자는 스토리보드를 자동 생성하거나 특수 효과를 효율적으로 구현할 수 있게 된다. 이러한 변화는 콘텐츠 제작의 민주화를 촉진하고, 개인 크리에이터부터 대기업까지 다양한 주체가 고품질 콘텐츠를 생산할 수 있는 기회를 제공할 것이다.
범용 인공지능(AGI)으로의 기여 가능성
DiT는 트랜스포머의 확장성과 확산 모델의 생성 능력을 결합하여, 더욱 지능적인 AI 시스템 개발에 기여할 잠재력을 가지고 있다. 특히, 멀티모달 DiT(MMDiT)와 같은 기술은 이미지, 텍스트, 비디오 등 다양한 모달리티의 데이터를 통합적으로 처리하고 생성하는 능력을 향상시키고 있다. 이러한 능력은 인간과 유사하게 다양한 정보를 이해하고 추론하며 창작하는 범용 인공지능(AGI) 연구에도 긍정적인 영향을 미칠 수 있다. AGI는 단일 작업에 국한되지 않고 다양한 지적 작업을 수행할 수 있는 AI를 의미하며, DiT와 같은 강력한 생성 모델은 AGI가 현실 세계를 이해하고 상호작용하는 데 필요한 핵심 구성 요소가 될 수 있다.
해결해야 할 과제 및 발전 방향
DiT 기술은 여전히 해결해야 할 과제를 안고 있다.
- 모델의 계산 효율성: DyDiT와 같은 연구를 통해 개선되고 있지만, 대규모 모델의 훈련 및 추론에 필요한 막대한 계산 자원은 여전히 중요한 제약 사항이다.
- 생성 결과물의 다양성 및 제어 가능성: 특정 조건에 따른 생성 품질은 뛰어나지만, 사용자가 원하는 미세한 디테일을 완벽하게 제어하거나 예상치 못한 창의적인 결과물을 생성하는 능력은 더욱 발전해야 한다. VAE 인코더의 선택이 DiT의 성능에 큰 영향을 미칠 수 있으므로, 최적의 VAE를 선택하고 튜닝하는 연구도 중요하다.
- 윤리적 문제 및 사회적 책임: 딥페이크, 저작권 침해, 편향된 데이터로 인한 불공정한 결과 생성 등 강력한 생성 능력에 따른 윤리적 문제와 사회적 책임에 대한 지속적인 논의와 제도적 장치 마련이 중요하다.
이러한 과제들을 해결하기 위한 연구는 모델 아키텍처의 혁신, 효율적인 학습 방법론 개발, 그리고 사회적 합의 도출을 포함하는 다각적인 방향으로 진행될 것이다. DiT는 생성형 AI의 미래를 이끌 핵심 기술 중 하나로, 앞으로도 지속적인 발전과 광범위한 응용이 기대된다.
참고 문헌
- Lightly. Diffusion Transformers Explained: The Beginner’s Guide. Available at: https://vertexaisearch.cloud.google.com/grounding-api-redirect/AUZIYQHC6ocoxmaMncWQRTpECv5gQeHoFnsSbfvGl7I8N1b4Qpikp2ssrjIvwf5RLDykdooF-ak29NyiEn7XuO4awuxiHGKkC1KN9e8X71a5C_8KoqklbcQxzY5I6eokvq_tb5Rps_jljgO5BMop0hYBp3Plew==
- Emergent Mind. Diffusion Transformer (DiT) Model. (2025-06-30). Available at: https://vertexaisearch.cloud.google.com/grounding-api-redirect/AUZIYQEA3QpvPpSG7ko-_8z1EemD8t-Xun35CY_WjRm1pirk5xl0XWjrMq3HNqPVjdIc4p5Gv8V3rQuP-2Fiss7XDJYj3DOBlOF7V8UlgmlcyzgD_TKnYlwJqXWB60wsGmvY3L8FKj7ISeB6Bl7HJlWkzSnI216vHkhGCs=
- arXiv. Scaling Text-to-Image Diffusion Transformers with Representation Autoencoders. Available at: https://vertexaisearch.cloud.google.com/grounding-api-redirect/AUZIYQESxI5iaZxZ9u7EP-qzcpdkoE-CdTiAGQ1Us5KD92rFkmcdN6mxNEra0gYLXviwICxcukrcUo7ATek_ZtqVxQXUfaSvP0ymZa_aFyIZf41kv8P1GhnF_KrpZ1M4KNloFQ==
- ApX Machine Learning. Diffusion Transformers (DiT): Architecture Overview. Available at: https://vertexaisearch.cloud.google.com/grounding-api-redirect/AUZIYQFC6IuAkN4f5GW2bm7ZGqbynCNJ3rn8V4QPjrBgAFBFVgcMGXStVS6uq_9meZiwdqyUlht-PF59cU7d8C3Xy91kUpBfHioGkZ33VElHyNuYa78jsbDE9DUwsrPJ3-Wljs4nGugvN7LCK1RxZiRO7eSKkp98Gkzoom9MbH8f2wvWFf5aUp3TVGmc9XLmRzYI4_1Eft_HMl6geufeVHK3uRuPkdkxOHXQ7iYuwnGRuRWL_vChvhCD2Y=
- Medium. Understanding DiT (Diffusion Transformer) in One Article. (2024-05-23). Available at: https://vertexaisearch.cloud.google.com/grounding-api-redirect/AUZIYQHyZI7IwAjhAdC-6DCvFtSqsnrMl7t9XphjUsiO1YgGFZ_nsiR93eo_mzyqW2JbnfNznazVyPN2JzNonTptFgqGSLQR3DVtsWmmSdlgoWwAUlYX1XYjwZ-UTX4bu0FcG_Q2f0MqxQwgZvdQr0YPOb_HjGGfyDwoozScKLxTIHmIpA1MuOY22Zp8WkG_kEFCdNlxZM5XP_pcd9_p248_Do=
- OpenReview. Dynamic Diffusion Transformer. Available at: https://vertexaisearch.cloud.google.com/grounding-api-redirect/AUZIYQEBFjfZe74GzyaSF7q_sWImPqB6oaXiM4lt6jDHLLyxvU_xbr66G_jB1R7BzscYMFi7S-TG5cjYYxaRpj7xk0z9uKgJGai4YFWA9N1YPp9V3q4YgtJ-pPvF1QD0tYicZPQSAcszIg==
- CVF Open Access. Scalable Diffusion Models with Transformers. Available at: https://vertexaisearch.cloud.google.com/grounding-api-redirect/AUZIYQGYHoMeR28t8LQbdPg9ON0pk3iyGDYuhqL7WICFmlIseOvg-olaYOd5lDsztYjgk8jc7Zkc2SfvWNa0BIrrCDLHw7mSbPfqwhrTBIww64dEDX7OqFaJAV2ioFXT7uZ9UO29OsvloIN5Bt06jmJPTR9J59wGP9blmyB1XoPIZKI7NChoiRljwlgDJjgNJ3T3b3LfItL9NY_f0RAP9xEBKnY56pnQMKsUqIOMwKJbMYICRlmz4ZXWS-b6
- YouTube. Understanding Diffusion Transformers (DiT). (2025-01-03). Available at: https://vertexaisearch.cloud.google.com/grounding-api-redirect/AUZIYQFxGlVTQ-WItbZcPUGBW3VqAu9GuYHBx5bJ0uR8G_46DrAhydCVvP4lAoHLukn15pb24j0q1DMPVTwnMzm–YCsO7-LD_fTx_z8vec40P2UTKnN0yKFHqeLtoJHDw_GQ79A_wTWoxI=
- Encord. Diffusion Transformer (DiT) Models: A Beginner’s Guide. (2024-03-18). Available at: https://vertexaisearch.cloud.google.com/grounding-api-redirect/AUZIYQEvsQCJ_D-epct158qN3EthkgedPBcLlkYuYnZdhdYXqThRxtORT-ZMMEwJ_hb_0MPlRXiZKIeWhNEzfBLsnWwyfU9XmEQrrPQ1nTleK9JMZ-voWOONl-Fvvkf8Jo9cW0jebpkAHuidwNNCo3XwbslFu1khtu6h
- arXiv. Scalable Diffusion Models with Transformers. (2022-12-19). Available at: https://vertexaisearch.cloud.google.com/grounding-api-redirect/AUZIYQHi5AA3H5ZtIF3LXmI8kIaj_dyjFEhcUBqVRBYiMZnu3rmRVpp7wkJnyr4YQMpMMV2u3fBPvfOZRuAH8YuCDaTX393ShZ3HBkf5ZoAYKKSoNK2_rFcCGSv4T6qP
- GitHub. facebookresearch/DiT: Official PyTorch Implementation of “Scalable Diffusion Models with Transformers”. (2025-08-06). Available at: https://vertexaisearch.cloud.google.com/grounding-api-redirect/AUZIYQHpodqWLKZdfyJzHEk_pdCWBVUdXap3y0rNQnW4IgASxVKdpDqB6-ow-UkXqTinizW2DDG7G_exflR2kXU1XHjHh4dwA-dZCDkCg5iu9TQylOqlkwYTmOpHFAhw9zen-GO5rQ==
- GeeksforGeeks. Diffusion Transformers (DiTs). (2026-01-08). Available at: https://vertexaisearch.cloud.google.com/grounding-api-redirect/AUZIYQHyWGNBDRh7QP0GNRUvh3ZXpMnhE-Hhrtf32C5FZkqytwf9aLJW04TiRJX3O_Ob5_-nHRU6OdKip-o8Z0FIrT2g2nlUbt3XqjqPQb5IYXsh9zBGZWMd5M19uQ2iv-nTUbRSrDUr7Cx5p3FXXwlZj2X_TgnIrJcOSkRJuIJY3OxixHUq6IFqbBCiq7c0WsM=
- William Peebles. Scalable Diffusion Models with Transformers. Available at: https://vertexaisearch.cloud.google.com/grounding-api-redirect/AUZIYQGz7vPpzkJpAsDOgwkwCt_N3Y3LzZF_-bEptgkODUVNIgIJdoFHwcI_P9iSlQjZHOJW4vQi9ALv87hZKQk9vYKJuAwp75xiXEjD3-3BrSgdeeQIRp_29dupCmg6w==
- YouTube. Scalable Diffusion Models with Transformers | DiT Explanation and Implementation. (2024-09-28). Available at: https://vertexaisearch.cloud.google.com/grounding-api-redirect/AUZIYQHtkj34-IUNX6UvmmUXCRYkCHgK12kEb8OJl5EmkvV0nvTzvcgd5EYI11Pncfj1teArtS19B9ayZ2ZUdpUO3rq6FG-AWN0CruCwjsGWkNy06pLkGAC7B4V0cASACMAN6230k9_vXb4=
- TurboTax Tax Tips & Videos. What is Adjusted Gross Income (AGI) and How to Calculate It. (2025-11-01). Available at: https://vertexaisearch.cloud.google.com/grounding-api-redirect/AUZIYQGpBaNWbmuewQbeAO7hUSRHgZ7WQxTUszjcEOAAu7Se0lIKCa1JwAlwQ0_axJKFj-oa9j-7zJuRnFlUhZqxKnqzvGk3ktiDHs5jXv5VuRgj1QQRmSxV3YngDQVWTTy3wb0PZ2gI-2Gtm85197Rk5EqlyYS4iIwED6CR3oSqoW21_PAybo9TUhFEAP5TMeOukhsoZrLJ2aGJslt3
- ResearchGate. (PDF) Challenges and Future Directions. Available at: https://vertexaisearch.cloud.google.com/grounding-api-redirect/AUZIYQErLVkI-FDhDMZT-N8FLGBSW8AjmK-MCdcPWfgorZZjjtPekgSKmNyZwGJ1kOElS8M58qFf_4u7oK3WiE_BdNJSEixpJWFtM8bo14Ng00vZhOB5qJyteHO4PjnLbtNZO07kJbtnIpZyQ53MyeYEENPaVRauHrouR1tS-jwtFeb0wr9PkTUX5KMWK4rxAvKu
- ApX Machine Learning. Comparison: U-Nets vs. Transformers for Diffusion. Available at: https://vertexaisearch.cloud.google.com/grounding-api-redirect/AUZIYQHIb5tOCDktTVpFP8JJXpzdUz4k3U0C-8coMIsY3DPpxPqiUYjj5zDxWEu9SAut1LicwGPe-7cLQFJP7EGGa6ES6Om94AfjgalGyUmI4mRzJ59JhZZn5foqK3bAiERuJKBLBxcLbyggCYs6rLJo1nzOkHfI4OA5git4StnSqBcJpBpTXedOSUQWBRU54oHv9gqWvY5L6F1Xktyo7qK56lnDgDK0dg_oJaqg9PrfJETNqAm_JhnmEjWc1BI=
- Emergent Mind. MMDiT: Multimodal Diffusion Transformer. (2025-10-10). Available at: https://vertexaisearch.cloud.google.com/grounding-api-redirect/AUZIYQEHESQLacnmlVn5ZrMwTvVC_0PuZJZt3b2dr0fPjfjF5Je6lfp9aAxkOppRp6_R9jmOnpO5bDQ61dIdtSb31M7PUfBY_zvGt7IREdF8Y0Qb_viqPZIlDn4mlcdPyRhhBrQeJ9hOEW3rkYmVWr6zpzwZNxnB
- CS231n – Stanford University. VAE Matters: Latent Compression Choices for DiT Architectures. Available at: https://vertexaisearch.cloud.google.com/grounding-api-redirect/AUZIYQEEO3YHFfWrJNmzRltWBUuu2qJkwEa7Etske4xc0Lwu38aXUSFDeQqYENo1fkMyTLJKqBMxKOT2mc-9tT_KNrSqDf2eOcu4ffohzkNvc0-DT5fPGMkP_WXiSHGBgCkXLafVJonKXFk5YwBbn1Wj81ynqOtgRVA5JUADG761rBDteK7vcxOIzIQNrSvsIsv-pRYO
- Equifax. What Does ‘AGI’ Mean & How to Calculate it. Available at: https://vertexaisearch.cloud.google.com/grounding-api-redirect/AUZIYQF4_oeWWFCk6f-I7FM7dCSdruc7bK0bjS7An-2YJB_f3ZePSOFPYoSG6Y_gBOEE-KIXU80w-hdPsBE7W5xGpHZMxLhVcGztrV6XX8Dz7WpaCBUlElTnpm_L6poEzmQChTzWNIglAa7yac_ZFVwxSQ3pudq1-VmB3q3xCUBeTsIVmuMGuB564Gdd2aOMAx-vlOIekyEZFtot_JLMT95P1w==
- ITEA4. Current challenges and future directions. Available at: https://vertexaisearch.cloud.google.com/grounding-api-redirect/AUZIYQEi9FObsOoI9zEcEqpCo7j4349U2vwB8dapcr_2Yxb4hXr_dPM0r8GaWgEJAUNtmE8OrxJjxOpy9LuNrFNv60tglOcrkLb4Gdio1bL2Ix7e0coQ0Ui35xjIWNBlzJ68fMG2uC7-8RXTpxQqOS46OLKwqZkns7KEOsViSa39SXJ_ejjlnw==
- arXiv. RAE: A Neural Network Dimensionality Reduction Method for Nearest Neighbors Preservation in Vector Search. (2025-10-01). Available at: https://vertexaisearch.cloud.google.com/grounding-api-redirect/AUZIYQHlGVPmXYq8FC-_qvmDyFGn9NIkILgP4Lvj_pPTbG5V_u28zGFBouMv3CYYOpsum1E9K1wym7HdPUv4FXbP_vcu-ORlUKcK-NCbRPBYqHBV2-VwqqIABKqm3ShY
- Emergent Mind. Diffusion Transformer (DiT) Architecture. (2025-09-05). Available at: https://vertexaisearch.cloud.google.com/grounding-api-redirect/AUZIYQH08mE6LVHAtgLfYARolgYacNGw5hS6vAmMuT2NAO4ezaXZYSwuVNPBLCv2uFB0jFtsaVBInc77t7Fv_kWrUWEddVu77RWN09yZfoqKpZgqO8RWx6mvr85IxMkimTGLrv9TxabnIabEKioYC2XuJSK_he9jsE5nrszt6XXazRSCHchdZWiO
- arXiv. DiTCtrl: Exploring Attention Control in Multi-Modal Diffusion Transformer for Tuning-Free Multi-Prompt Longer Video Generation. (2024-12-24). Available at: https://vertexaisearch.cloud.google.com/grounding-api-redirect/AUZIYQEz7OXxjl6b4NKG2t2WyFX_7k31DqHAmLCkttP5wyOsSmiRQ-TwQ2-VqGJFTTedTfo8U_42flwJbXBz8l3MflDzcdX4DE_8Rac-CcFCuU0wBDcMMXRNZNX2PVFM
- OpenReview. Unveiling the Secret of AdaLN-Zero in Diffusion Transformer. (2025-02-05). Available at: https://vertexaisearch.cloud.google.com/grounding-api-redirect/AUZIYQGA4XXyz6rVZAvdTjs2E28QCYqw3K2CfFOQe6Mk9f3Xf1T-q6kr8eUkIHHU8Bh3_LC3VbdUe_4fG5SrMgctAMDDvHmGPuzRZFizgAzVvHkQlSIfxH1GXhfGg3a-EaNhXsTA27_VFQ==
- YouTube. What Is Adjusted Gross Income (AGI)? | Tax Lingo: Defined. (2020-04-17). Available at: https://vertexaisearch.cloud.google.com/grounding-api-redirect/AUZIYQEQuUOmZMscBweKetiHn4hoVthtvN6qdsW2DtTfQs0pDJc-btXEMD9c22nrruBr11hj7CslcDLsLVc9RlHzBa-y3DLExXoxAA8VpvNmDg2EhmrFRZYVHNPEDsqyvLksktcjYXxChc8=
- MDPI. Scalable Extended Reality: A Future Research Agenda. Available at: https://vertexaisearch.cloud.google.com/grounding-api-redirect/AUZIYQF7UxGtFYtufn1HxkSGzr4ZcvYb0DR9xsfb3r1YPd3FBbwJxEoFQzjTyM1RmTaC2a23FQrH7-4YBoyNfb7t5jWYZY3z4hJ1bQkOFKf2P6nswTyb-fNHwomYqsCAforR89Y=
- Reddit. [D] What are the pros and cons of using a VAE to provide a latent space for generative modelling? (especially for images or video). (2024-10-10). Available at: https://vertexaisearch.cloud.google.com/grounding-api-redirect/AUZIYQFI_ziFgHhCUbq1HP9OOGDPQwhH7NQIl0o4l9QOWLFqpUWYW2lTog1edLzuVvofacu_SFpwjIHZYkhBjvmio1_v9HbP8Y5EgQtxDNTNvyzrc7y7nTz-KTT1xLkUWyzfy8OPDOfzkzKWiIgAv2HW8JxuPTFZMEtkei1TxJGOHC0ODkQMdUtYOmW4zXMAoV7k2ET7UA40ZZVQAAJ_Fhm12dyFpE51ow==
- Internal Revenue Service. Adjusted gross income. (2025-10-21). Available at: https://vertexaisearch.cloud.google.com/grounding-api-redirect/AUZIYQGUeDKNjiSQZvbzIEXE-gwfUkP8Y8eAy2Iqez_EmFEUOmidDv9gp73EesbA5_vRAiLSKHLVsn_DDFv578qxXHjAvq7O9DrrFTH39cX1slWlG7UK5VHn94UIGTN78mm2Ig0kKIOeH-eqyW129A==
- UNESCO. Ethics of Artificial Intelligence – AI. Available at: https://vertexaisearch.cloud.google.com/grounding-api-redirect/AUZIYQGmp0Pyp0dHT6ShsP-PeVwvkFify5vtYpdRpwJw8NwUPWxs65OslYduRMlyh0pFpQlnquvlgxGEMJXoRr3A1xCicbuges_GAlpu7-lcMi03LMITI1dFRhCTx_-VF1S059AOuf8z2MDuj5sDhPGMUonRxAMythY4LcANzGBGTTSB9BVb
- Medium. Latent Space Representations in Variational Autoencoders (VAEs). (2024-12-08). Available at: https://vertexaisearch.cloud.google.com/grounding-api-redirect/AUZIYQEO6VKWEHdNiNClg2WXcIuo6kkIz__fVnkblSRKydLERFQ5x6HtiHqRqWB4fImE2WC6_r3331CmOCf8JfX-DQINQF1AsN3bER3Jw3KcravqHK28Yx8h2e_TzyuckUUU6mnHnlxlAHvQIGfkDTJYfuE0XQ_todJP_mqlS6uXF-GxG9ZffU4yqLNBs4fkHUxBjNpAml5tBhLMl78rekDtv2pSJMaN2w==
- GDIT. GDIT Study Reveals Scalability Key to AI Project Success. (2024-05-09). Available at: https://vertexaisearch.cloud.google.com/grounding-api-redirect/AUZIYQHlC4MVDQQZTvuESWNXPn3t53b9MJm7mCBS1eyvSxUBvtCStZYCR206aQH2Q7_HEob3yCYEM9trsV814ARJIF9gNbgkqFal3UgZeKBqhNIvD48f4p6sDk74TDoOn2-THHPCa_YpznIjq4dmJ3_lQMhtl-Ha6iMaPZim7MfVX4Bj94EqCbeHLvjKWGM51iKL3gJLrRirYuutr-8i66ebIx5F4Gq7
- Journal of Materials Chemistry Blog. Dr Zifei Lu, Deputy Editor – Journal of Materials Chemistry Blog. (2025-05-07). Available at: https://vertexaisearch.cloud.google.com/grounding-api-redirect/AUZIYQGUUj91xzkGTeLV7Ws6Tny7g0hTk1-YewUbsfuWlU4zisdMWtJxim5njmtoxl_oChpcEItgTlqq2w537kcyXII3Jiw79Inl5XK5tmDI4hS7dz1GxRTQiYNqiukzGIAawN7jjBo=
- SmartAsset.com. What Is Adjusted Gross Income (AGI), and How Do You Calculate It?. (2025-12-12). Available at: https://vertexaisearch.cloud.google.com/grounding-api-redirect/AUZIYQHg-aD0bSmC_PXR4noIpAG3T60FBjkgpz9aIsiDTIjcU-hzYvxIJWC5iyUvWoDEs4CFZ-H8FISm0gTq1hMtbc1WdiBtRntUIE4VWWuTYU32UJ2EIT0p8aRyl3oDY7Hdl34uzQwoRZG9C2nMBePZp7se4g==
© 2026 TechMore. All rights reserved. 무단 전재 및 재배포 금지.
기사 제보
제보하실 내용이 있으시면 techmore.main@gmail.com으로 연락주세요.


