(NT)DALLE-2 vs Imagen

DALLE-2 vs Imagen #

对比维度 DALL-E 2 (OpenAI) Imagen (Google) 关键差异分析 数据来源
技术架构 (Technical Architecture) 基于 unCLIP:包含一个生成 CLIP 图像嵌入的 Prior(先验)和一个将嵌入转换为图像的 Diffusion Decoder(解码器)。【image embedding】 级联扩散模型架构:包含一个冻结的文本编码器和一系列级联的图像扩散模型(64x64, 256x256, 1024x1024)。【text embedding】 DALL-E 2 依赖 CLIP 潜空间作为中间层;Imagen 直接在级联扩散模型中通过文本嵌入进行条件生成,结构更简洁。 [1, 2]
文本编码器类型 (Text Encoder) CLIP 文本编码器(基于图像-文本对预训练)。 冻结的 T5-XXL(大型语言模型,仅在纯文本语料库上预训练)。 Imagen 发现大型语言模型比图像-文本预训练编码器(如 CLIP)在图文一致性上更有效。 [1, 2]
图像生成分辨率 最高 1024 × 1024 (通过两级上采样扩散模型)。 最高 1024 × 1024 (通过级联扩散模型逐步提升分辨率)。 二者均采用多级上采样技术达到百万像素分辨率。 [1, 2]
人类评估表现 (如 DrawBench) 在 DrawBench 上表现弱于 Imagen,尤其在复杂描述和组合性方面。人类更倾向于 Imagen。 在 DrawBench 所有的 11 个类别(包括属性绑定、写实度)中均被评定为优于 DALL-E 2。 Imagen 在图像质量和图文一致性的主观偏好测试中显著领先。 [2]
属性绑定能力 (如颜色/空间关系) 表现较弱;容易混淆对象与属性之间的对应关系(如红色立方体在蓝色立方体上方)。 表现更强;能更好地处理颜色绑定、计数和空间定位描述。 DALL-E 2 的 CLIP 嵌入层可能丢失了细节的属性绑定信息;Imagen 通过大型 LM 捕获了更细致的语义。 [1, 2]
写实度 (Photorealism) 具有极高的写实度,但在处理非常复杂的场景细节时仍有挑战。 被认为具有“前所未有”的写实度,在 DrawBench 的 Fidelity(忠实度)评分中全面胜过 DALL-E 2。 Imagen 利用动态阈值技术在保持写实度的同时支持极高的引导权重。 [2]
扩散模型改进技术 采用 Prior + Decoder 的两阶段扩散;Decoder 通过投影 CLIP 嵌入进行条件化。 动态阈值选择 (Dynamic Thresholding):允许在高引导权重下防止图像过度饱和;Efficient U-Net 提升了收敛速度和内存效率。 Imagen 的动态阈值是解决高引导权重下写实度下降的关键创新。 [1, 2]

参考 #

基于 2 个来源
[1] DALLE2-unCLIP.pdf[PPT]
[2] Imagen(Google).pdf[PPT]

NotebookLM 提供的内容未必准确,因此请仔细核查回答内容。