AIxiv专栏是呆板之心宣布学术、技巧内容的栏目。从前数年,呆板之心AIxiv专栏接受报道了2000多篇内容,笼罩寰球各年夜高校与企业的顶级试验室,无效增进了学术交换与传布。假如你有优良的任务想要分享,欢送投稿或许接洽报道。投稿邮箱:
[email protected];
[email protected]本文的重要作者来自北京航空航天年夜学、VAST 跟上海交通年夜学。本文的第一作者为北京航空航天年夜学硕士生黄泽桓,重要研讨偏向为天生式人工智能跟三维视觉。本文的通信作者为 VAST 首席迷信家曹炎培跟北京航空航天年夜学副教学盛律。近来,2D/3D 内容创作、天下模子(World Models)仿佛成为 AI 范畴的热点要害词。作为盘算机视觉的基本义务之一,多视角图像天生是上述热门偏向的技巧基本,在 3D 场景天生、虚构事实、具身感知与仿真、主动驾驶等范畴展示了普遍的利用潜力。近期多视角图像天生任务年夜多在 3D 数据集上微调文生图模子或视频天生模子,但这些方式在兼容年夜范围基本模子跟天生高辨别率图像方面面对诸多挑衅,表示在难以支撑更年夜基本模子(如 SDXL),难以天生超越 512 辨别率的多视角图像,以及高品质 3D 练习数据稀缺而招致的出图品质降落。总的来说,这些方式的范围性重要源自对基本模子的侵入性修正跟全模子微调的庞杂性。因而,北航、VAST、上海交通年夜学团队推露面向通用多视图天生义务的第一个基于 Adapter 的处理计划(MV-Adapter)。经由过程高效的新型留神力架构跟同一的前提编码器,MV-Adapter 在防止练习图像基本模子的条件下,实现了对多视图分歧性跟参考图像主体相干性的高效建模,并同时支撑对视角前提跟多少何前提的编码。总结来说,MV-Adapter 的功效如下:支撑天生 768 辨别率的多视角图像(现在最高)完善适配定制的文生图模子、潜伏分歧性模子(LCM)、ControlNet 插件等,实现多视图可控天生支撑文生跟图生多视图(然后重修 3D 模子),或以已知多少何领导来天生高品质 3D 贴图实现恣意视角天生论文标题:MV-Adapter: Multi-view Consistent Image Generation Made Easy论文链接:https://arxiv.org/abs/2412.03632名目主页:https://huanngzh.github.io/MV-Adapter-Page/代码堆栈:https://github.com/huanngzh/MV-Adapter在线 Demo:单图天生多视图:https://huggingface.co/spaces/VAST-AI/MV-Adapter-I2MV-SDXL笔墨天生二次元作风的多视图:https://huggingface.co/spaces/huanngzh/MV-Adapter-T2MV-Anime贴图 Demo 敬请等待MV-Adapter 后果演示在懂得 MV-Adapter 技巧细节前,先来看看它的现实表示。起首是笔墨天生多视角图像的才能。MV-Adapter 不只支撑练习时所采取的 SDXL 基本模子,还能适配经由定制练习后的文生图模子(比方二次元等作风模子)、潜伏分歧性模子(LCM)、ControlNet 插件等,年夜年夜晋升了多视图天生的可控性跟定制化水平,这是以往多视图天生模子难以做到的。MV-Adapter 还能支撑单张图像到多视角图像的天生,其天生的成果与输入图像存在高度的 ID 分歧性。上面是应用 MV-Adapter 从笔墨天生的多视角图像重修 3D 物体的成果,能够看到,由于 MV-Adapter 天生图像的多视角分歧性高,其重修的多少何成果也都较为杰出。上面是应用 MV-Adapter 从单张图像天生多视角图像后,重修 3D 物体的成果。别的,MV-Adapter 还支撑给已知 mesh 多少何天生对应贴图,上面是从笔墨前提跟单张图像前提天生的 3D 贴图成果,能够看到,其天生的贴图成果品质很高,且跟输入的前提婚配水平高。MV-Adapter 还能容易扩大至恣意视角天生,上面是天生 40 个俯仰角从低到高的成果,能够看到,只管视角数目晋升,MV-Adapter 仍能天生多视角分歧的图像。团体而言,MV-Adapter 做出了以下奉献:提出了面向通用多视图天生的第一个适配器处理计划,年夜年夜进步效力,且支撑更年夜标准的基本模子以取得更高的机能。引入了一个翻新的留神力架构跟通用的前提编码器,能够无效地对 3D 多少何常识停止建模,并支撑 3D 天生跟纹理天生等多种利用。MV-Adapter 能够扩大至从恣意视点天生图像,从而增进更普遍的卑鄙义务。 MV-Adapter 供给了一个解耦进修框架,为建模新范例的常识(比方物理或时序常识)供给了看法。多视图适配器 MV-AdapterMV-Adapter 是一种即插即用的适配器,它可进修多视图先验,无需停止特定调剂即可将其迁徙到文生图模子及其衍生模子中,使其在种种前提下天生多视图分歧的图像。在推理时,咱们的 MV-Adapter 包括前提领导器跟解耦的留神层,能够直接拔出定制化的基本模子中,以形成多视图天生器。通用的前提领导器为了支撑多视角图像天生义务,咱们计划了一个通用的前提领导器,可能同时编码相机跟多少何信息,从而为文生图模子供给差别范例的领导。相机前提化采取 “光芒图”(raymap)表现,相机的地位跟偏向信息被准确编码,以便与预练习模子的潜伏表现相婚配。多少何前提化则经由过程全局的多少何表现来领导天生,联合三维地位图跟法线图的细节信息,捕获物体的多少何特点,有助于进步图像的纹理细节与实在感。前提领导器采取轻量级的卷积收集计划,无效整合差别标准的多视角信息,确保模子可能在多个层级上无缝联合前提输入,进一步晋升天生后果跟顺应性。解耦的留神力层咱们提出了一种解耦的留神力机制,经由过程复制现有的空间自留神力层来引入新的多视角留神力层跟图像穿插留神力层。这一计划保存了原始收集构造跟特点空间,防止了传统方式对基本模子停止侵入式修正。在从前的研讨中,为了建模多视角分歧性,平日会直接修正自留神力层,这会烦扰到模子的进修先验并须要停止全模子微调。而咱们经由过程复制原有自留神力层的构造与权重,并将新层的输出投影初始化为零,从而确保新层能够自力进修多少何信息,而不会影响原有模子的特点空间。如许一来,模子可能在不损坏原有预练习特点的条件下,充足应用多少何信息,晋升多视角天生的后果。为了更高效地整合差别范例的留神力层,咱们计划了一种并行的留神力架构。在传统的 T2I 模子中,空间自留神力层与文本穿插留神力层经由过程残差衔接串联在一同,而咱们的计划则将多视角留神力层与图像穿插留神力层并行增加。这种并行架构确保了新引入的留神力层可能与预练习的自留神力层共享输入特点,从而充足继续原始模子的图像先验信息。详细来说,输入特点在经由自留神力层后,还会同时通报给多视角留神力跟图像穿插留神力层,容许这些新层与原始自留神力层并行任务,并在进修多视角分歧性跟图像前提天生时,无需从零开端进修。经由过程这种方法,咱们可能在不损坏基本模子特点空间的条件下,高效地扩大模子的才能,晋升天生品质跟多视角分歧性。多视角留神力机制的详细实现。为了满意差别利用需要,咱们计划了多种多视角留神力战略。针对 3D 物体天生,咱们使模子可能天生位于 0° 仰角的多视角图像,并采取行级自留神力。对 3D 纹理天生,斟酌到视角笼罩请求,除了在 0° 仰角天生四个平均散布的视角外,咱们还参加了来自高低偏向的两个视角。经由过程行级跟列级自留神力相联合,实现了视角之间信息的高效交流。而在恣意视角天生义务中,咱们则采取全自留神力,进一步晋升了多视角留神力层的机动性跟表示力。如许的计划使得天生后果愈加精致、丰盛,顺应了种种庞杂的多视角天生需要。图像穿插留神力机制的详细实现。为了在天生进程中更准确地领导参考图像信息,咱们提出了一种翻新的图像穿插留神力机制,在不转变原始 T2I 模子特点空间的情形下,充足应用参考图像的细节信息。详细而言,咱们采取预练习且被解冻的文生图 U-Net 模子作为图像编码器,将清楚的参考图像输入该 U-Net,并设置时光步 t=0,提取来自空间自留神力层的多标准特点。这些细粒度的特点包括了丰盛的主题信息,经由过程解耦的图像穿插留神力层注入到去噪 U-Net 中,从而应用预练习模子学到的深层表现,实现对天生内容的精准把持。这一方式无效晋升了天生品质,并使得模子在细节把持上愈加机动跟准确。试验成果文章起首评价了多视图天生的机能,与现无方法停止对照。详细来说,文章评价了由笔墨天生多视图、由单张图像天生的多视图的品质跟分歧性,能够看到,MV-Adapter 的成果都优于现存方式。文章还评价了应用 MV-Adapter 天生 3D 贴图的表示。从上面的成果能够看出,MV-Adapter 不论是天生的品质,仍是推理的速率,都到达 SOTA 程度。文章还对所提出的方式停止了融化试验,如下表所示,其验证了 MV-Adapter 练习的高效,以及其提出的并行留神力架构的无效性。别的,文章还在附录局部探究了以下内容:MV-Adapter 与 LoRA 的探讨跟剖析MV-Adapter 原生的图像修复才能MV-Adapter 的利用代价将 MV-Adapter 扩大至恣意视角图像天生的实现细节更多试验细节请参阅原论文。© THE END 转载请接洽本大众号取得受权投稿或追求报道:
[email protected]]article_adlist-->
申明:新浪网独家稿件,未经受权制止转载。 -->