腾讯混元升级AI绘画微调范式，图像真实感和美学评分提升3倍！

admin 百科 2025-12-13 13

腾讯混元团队在ai绘画领域实现重大进展，通过革新微调范式，大幅增强模型生成图像的质量，使输出结果更精准匹配人类对细节与美感的复杂偏好。仅需在32块h20 gpu上训练10分钟，模型即可完成收敛，人工评估的真实感与美学得分提升超3倍。

当前主流扩散模型虽已引入奖励机制以贴近人类审美，但仍面临两大瓶颈：

腾讯混元升级AI绘画微调范式，图像真实感和美学评分提升3倍！-第1张图片-佛山资讯网

其一，优化轮次有限，易触发“奖励作弊”现象——即模型为片面追求高分而产出低质图像；
其二，需依赖离线更新奖励模型才能改善美学表现，导致实时调控能力薄弱，适应性受限。

针对上述挑战，团队提出两项核心技术突破。

Direct-Align 方法：通过预设噪声注入策略，支持从任意扩散时间步无损还原原始图像。扩散过程本质是噪声与目标图像间的连续插值，该方法预先建模噪声先验分布，并利用插值机制直接实现跨时间步重建，有效规避传统反向传播在早期阶段因梯度剧烈震荡引发的数值不稳定问题。

实验证明，即便仅完成5%的去噪进程（即极早期时间步），模型仍可准确复原图像的整体构图与粗略结构。更重要的是，该方法支持在整个扩散轨迹上开展端到端优化，突破了ReFL、DRaFT等方案仅能在后期阶段（如最后25%时间步）施加干预的局限。若仅在末段优化，极易诱发严重奖励黑客行为——例如模型过度迎合HPSv2对红色系的偏好，或PickScore对紫色调的倾向，从而牺牲图像真实性与多样性。

语义相对偏好优化（SRPO） 是另一项关键创新。传统多奖励融合策略仅通过缩放不同奖励值来平衡偏好，未从根本上统一优化方向。SRPO则将奖励信号重构为文本条件驱动机制：对同一张图像，分别使用正向提示词与负向提示词计算奖励得分，取二者差值作为核心优化目标，实现更鲁棒的语义对齐。

在实际部署中，仅需在原始提示前添加轻量控制短语，即可完成在线风格调控。实验表明，加入“Realistic photo”类引导词后，图像真实感提升约3.7倍，美学质量提升达3.1倍。SRPO还支持多种细粒度风格迁移，如明暗调节、漫画化转换等，操作简洁且效果显著。

控制强度与所用关键词在奖励模型训练语料中的出现频次高度相关：高频词（如“painting”）响应迅速、效果稳定；低频词（如“Cyberpunk”）则建议搭配高频词协同使用，以保障调控可靠性。

标签：腾讯混元腾讯 ai ai绘画