(NT)DALLE-2 vs Imagen | Vision

(NT)DALLE-2 vs Imagen

DALLE-2 vs Imagen #

对比维度	DALL-E 2 (OpenAI)	Imagen (Google)	关键差异分析	数据来源
技术架构 (Technical Architecture)	基于 unCLIP：包含一个生成 CLIP 图像嵌入的 Prior（先验）和一个将嵌入转换为图像的 Diffusion Decoder（解码器）。【image embedding】	级联扩散模型架构：包含一个冻结的文本编码器和一系列级联的图像扩散模型（64x64, 256x256, 1024x1024）。【text embedding】	DALL-E 2 依赖 CLIP 潜空间作为中间层；Imagen 直接在级联扩散模型中通过文本嵌入进行条件生成，结构更简洁。	[1, 2]
文本编码器类型 (Text Encoder)	CLIP 文本编码器（基于图像-文本对预训练）。	冻结的 T5-XXL（大型语言模型，仅在纯文本语料库上预训练）。	Imagen 发现大型语言模型比图像-文本预训练编码器（如 CLIP）在图文一致性上更有效。	[1, 2]
图像生成分辨率	最高 1024 × 1024 (通过两级上采样扩散模型)。	最高 1024 × 1024 (通过级联扩散模型逐步提升分辨率)。	二者均采用多级上采样技术达到百万像素分辨率。	[1, 2]
人类评估表现 (如 DrawBench)	在 DrawBench 上表现弱于 Imagen，尤其在复杂描述和组合性方面。人类更倾向于 Imagen。	在 DrawBench 所有的 11 个类别（包括属性绑定、写实度）中均被评定为优于 DALL-E 2。	Imagen 在图像质量和图文一致性的主观偏好测试中显著领先。	[2]
属性绑定能力 (如颜色/空间关系)	表现较弱；容易混淆对象与属性之间的对应关系（如红色立方体在蓝色立方体上方）。	表现更强；能更好地处理颜色绑定、计数和空间定位描述。	DALL-E 2 的 CLIP 嵌入层可能丢失了细节的属性绑定信息；Imagen 通过大型 LM 捕获了更细致的语义。	[1, 2]
写实度 (Photorealism)	具有极高的写实度，但在处理非常复杂的场景细节时仍有挑战。	被认为具有“前所未有”的写实度，在 DrawBench 的 Fidelity（忠实度）评分中全面胜过 DALL-E 2。	Imagen 利用动态阈值技术在保持写实度的同时支持极高的引导权重。	[2]
扩散模型改进技术	采用 Prior + Decoder 的两阶段扩散；Decoder 通过投影 CLIP 嵌入进行条件化。	动态阈值选择 (Dynamic Thresholding)：允许在高引导权重下防止图像过度饱和；Efficient U-Net 提升了收敛速度和内存效率。	Imagen 的动态阈值是解决高引导权重下写实度下降的关键创新。	[1, 2]

参考 #

基于 2 个来源
[1] DALLE2-unCLIP.pdf[PPT]
[2] Imagen(Google).pdf[PPT]

NotebookLM 提供的内容未必准确，因此请仔细核查回答内容。