开yun体育网以与高级语义特征整合-开云体育最新网站 开云最新官方网站 - 登录入口
GPT-4o 带火的漫画风变装生成开yun体育网,当今有了开源版啦!
腾讯混元联袂 InstantX 团队同一冲破次元壁,开源定制化变装生成插件—— InstantCharacter。
以往针对变装运行的图像生成要领,都存在一定的劣势。
举例,基于适配器的有谋划天然基本杀青主体一致和文本可控,但在泛化性、姿势变化和作风颐养的灵通域变装方面仍然存在贫窭。基于微调则需对模子进行重新磨真金不怕火,从而铺张过长的本领。更无须说,用度上流的推理本领的微调。
而当今这个插件基于DiTs(Diffusion Transformers),能在保证推理轨则和文本可剪辑性的同期,圆善杀青变装个性化创作。
那么一说念望望它具体是如何杀青的?
要领先容
当代 DiTs 与传统的 UNet 架构比拟,展现出前所未有的保真度和容量,为生成和剪辑任务提供了更重大的基础。基于此,InstantCharacter 扩张了 DiT,从而用于强泛化性和高保确实变装运行图像生成。
InstantCharacter 的架构围绕两个关键立异张开:
1.可扩张适配器 :引诱了一个可扩张的适配器模块,灵验领会变装特征并与 DiTs 潜在空间无缝交互。
2.渐进磨真金不怕火战术:设想了一个渐进式三阶段磨真金不怕火战术,以顺应收罗的多功能数据集,使变装一致性和文本可剪辑性的分开磨真金不怕火成为可能。
可扩张的适配器设想
传统的定制适配器,举例 IPAdapter 或 ReferenceNet,在 DiT 架构中一样失效,因为它们是专为基于 U-Net 的模子设想的,枯竭可扩张性。
为了更好地顺应 DiT 模子,酌量员提议了一种可扩张的full-transformer 适配器,它算作变装图像与基础模子潜在生成空间之间的关键伙同,通过加多层深度和荫藏特征尺寸杀青可扩张性。
该适配器由三个编码器块构成:
1.通用视觉编码器:
最初哄骗预磨真金不怕火的大型视觉基础编码器来索要通用变装特征,从它们的灵通域识别才气中受益。
昔时的要领时常依赖于 CLIP,因为它对皆了视觉和文本特征。可是,天然 CLIP 梗概捕捉详细的语义信息,但它一样会丢失对保管变装一致性至关迫切的详备纹理信息。为此,酌量者用SigLIP替代 CLIP,SigLIP 在捕捉更细粒度的变装信息方面推崇出色。
此外,引入DINOv2算作另一个图像编码器来增强特征的隆重性,减少布景或其他侵扰成分导致的特征耗损。
终末,通过在通说念维度的拼接整合 DINOv2 和 SigLIP 特征,从而取得更全面的灵通域变装暗示。
2.中间编码器:
由于 SigLIP 和 DINOv2 是在相对较低的 384 分辨率下预磨真金不怕火和推理的,在处理高分辨率变装图像时,通用视觉编码器的原始输出可能会丢失细粒度特征。为了缓解这个问题,收受双流特征和会战术差别探索初级特征(low-level features)和区域级特征(region-level features)。
最初,径直从通用视觉编码器的浅层索要low-level features,捕捉在更高级次中时常丢失的细节。
其次,将参考图像分割成多个不类似的区块,并将每个区块输入视觉编码器以获取region-level features。
然后,这两种不同的特征畅达过专用的中间 transformer 编码器进行分层整合。具体来说,每个特征旅途都由孤立的 transformer 编码器单独处理,以与高级语义特征整合。随后,来自两个旅途的精炼特征沿着 token 维度伙同,从而设置一个全面的和会暗示,捕捉多档次的互补信息。
3.投影头:
终末,精炼的变装特征通过投影头投射到去噪经由,并与潜在噪声交互。通过本领步感知的Q-former杀青这小数,它将中间编码器输出算作键值对处理,同期通过留意力机制动态更新一组可学习的查询向量。颐养后的查询特征随后通过可学习的交叉留意力层注入去噪空间。最终,适配器不错杀青强身份保抓和复短文本运行的纯真顺应。
磨真金不怕火战术
为了灵验磨真金不怕火该框架,酌量者最初用心构建了一个高质料的数据集,包含 1000 万张万般化的全身东说念主类 / 变装图像,包括用于学习变装一致性的配对图像和用于杀青精准文本到图像对皆的非配对数据集。
其次,精粹设想了磨真金不怕火有谋划,以优化变装一致性、文本可控性和视觉保真度。为了杀青变装一致性,最初使用未配对数据进行磨真金不怕火,其中变装图像算作参考率领进行霸道建,以保抓结构一致性。同期酌量发现使用 512 的分辨率比 1024 更为高效。
在第二阶段,接续以低分辨率(512)进行磨真金不怕火,但切换到配对磨真金不怕火数据。为生成不同动作、姿势和作风的变装图像,酌量者通过将变装图像算作输入,生成新场景中的变装。这个磨真金不怕火阶段灵验搁置了复制粘贴效应,增强了文本可控性,确保生成的图像准确驯服文本条款。
终末一个阶段触及使用配对和非配对图像进行高分辨率长入磨真金不怕火。团队发现存限数目的高分辨率磨真金不怕火迭代不错显赫提升图像的视觉质料和纹理。这一阶段哄骗了高质料图像杀青高保真和文本可控的变装图像。
本质轨则
作家对基于 FLUX 的先进要领进行定性比较:OminiControl、EasyControl、ACE+ 和 UNO;以及大型多模态模子 GPT4o。为了评估,作家收罗了一组不存在于磨真金不怕火数据中的灵通域变装图像。
现存要领存在局限性:OminiControl 和 EasyControl 无法保留变装身份特征,而 ACE++ 仅在浅易场景中保抓部分特征,但在靠近动作导向的指示时推崇欠安。UNO 过度保抓一致性,这缩短了动作和布景的可剪辑性。不错看到,InstantCharacter 达到了与 GPT4o 特出的轨则,但它不是开源的。
比拟之下,InstantCharacter 长期推崇最好。具体而言,InstantCharacter 在保抓精准的文本可控性的同期,杀青了更出色的变装细节保留和高保真度,即使是针对复杂的动作指示。
InstantCharacter 还不错通过引入不同的作风 loras 来杀青纯确实变装作风化。如图所示,InstantCharacter 不错在吉卜力和 Makoto 作风之间切换,同期不影响变装一致性和文本可剪辑性。可是,Jimeng 和 GPT4o 很难纯真地保抓这些作风。
本文插件代码及状貌均已开源,饱读舞更多的东说念主积极参与相关责任探讨。
论文地址:https://arxiv.org/abs/2504.12395
代码地址:https://github.com/Tencent/InstantCharacter
状貌地址:https://instantcharacter.github.io/
一键三连「点赞」「转发」「小心心」
宽饶在驳倒区留住你的思法!
— 完 —
学术投稿请于责任日发邮件到:
ai@qbitai.com
标题注明【投稿】,告诉咱们:
你是谁,从哪来,投稿本色
附上论文 / 状貌主页蚁集,以及辩论姿首哦
咱们会(尽量)实时回话你
� � 点亮星标 � �
科技前沿进展逐日见开yun体育网