西南交通大学龚勋:AIGC背景下基于昇思MindSpore的川西南纸本经图修复与重塑
西南交通大学龚勋:AIGC背景下基于昇思MindSpore的川西南纸本经图修复与重塑
项目实施背景
川西南地区是藏羌彝走廊的重要组成部分,汇聚了汉、藏、彝、羌等多个民族,文化底蕴深厚,自然景观壮丽,保存着大量的文化遗存,其中最具代表性的要属保存在纸本上的经图。这些经图内容丰富,形式多样,包括寺庙喇嘛手中经书的插图、民间宗教从业者手中的各种卦书卦图、建造坛城时绘制的草图、以绵纸绘制的指路经和送魂图等,记录着这一地区的宗教信仰、民俗风情、历史变迁,是藏羌彝走廊文化研究的珍贵资源。

由于年代久远,长期受到自然环境的损害,很多经图已经残破甚至不可辨析,难以进行良性的文化传播。自上世纪80年代以来,四川省民研院等学术机构就开始对川西南地区的民族文化进行广泛的调查研究。2018年,川内的民族学和旅游学专家们在冕宁、石棉、九龙、木里等地收集了大量的纸本经图图像资料,并对其进行了分类整理和研究。
修复经图成为迫切需解决的难题,目前川西南地区纸本经图的修复工作主要采用人工手段,通过以下三个步骤进行:(1)文化识别:尽可能识别其身份含义,对于缺失严重的图样需寻找对应的文化元素进行重绘;(2)线稿绘制:根据原作和其他参考资料进行线稿绘制;(3)填色与再制:根据原作进行填色与再制,最终形成数字化经图。

采取人工手段进行图像修复,不仅对绘画人员的美术功底有较高的要求,而且需要花大量的时间去调研文物时代背景、工艺特点,整个过程周期长,存在效率低下、质量不稳定和成本高等问题,因此需要采取更加智能、高效且可持续的保护方式。
本案例基于智能图像生成技术进行经图数字化修复,探索川西南纸本经图的活化路径和方法,对促进文物经图修复工作的创新和发展具有重要的社会价值和文化意义。
改革思路及举措
针对川西南纸本经图模糊、破损等问题,基于图像生成技术的快速发展,以及对文物保护和修复工作的迫切需求,本项目设计了如图4的技术路线来进行数字化图像修复。通过 昇思MindSpore 全场景AI框架的高效算力支持和算法优化能力,结合多模态生成技术,实现了从图像预处理、线稿提取、自动填色到三维建模的全流程智能化重建。

主要包括以下几个模块:
(1)图像预处理
图像矫正旨在改善图像的几何形状、颜色分布和光照情况,以提高图像的质量和可视化效果。
在本案例中使用图像矫正技术解决经图图像采集过程中存在的畸变、倾斜等问题。首先对图像进行透视变换,然后采用添加角点的方式在图像上生成角点,再通过对角点的拖拽使其从形变的状态达到图像矫正的状态。

本案例使用Real-ESRGAN模型,学习低分辨率与高分辨率图像间的映射关系,从而生成更高质量的图像。

(2)线稿提取
线稿图在数字化图像修复中提供结构信息,使修复人员能够更加准确地绘制缺失的细节和元素。提取线稿的核心难点是寻找“准确度”与“风格化”之间的平衡,本技术希望充分利用人工线稿作为先验知识,提出了将边缘检测与风格迁移相结合的方式。第一步,边缘检测得到粗略的线条,定义为草图;第二步,风格迁移得到理想线条,定义为线稿图。如果原图的部分内容已经丢失,不能检测到线条,也可以通过人工交互的方式去进行辅助修改,无需重新训练模型,简单有效。这种交互性的方法为生成最终线稿图提供了更大的灵活性和准确性,有利于最大限度地还原经图的结构和细节。

首先通过昇思MindSpore框架实现的DexiNed边缘检测模型提取经图的边缘草图。本案例充分利用了其内置的高效算子(如Conv2D, ReLU, MaxPool2D等)构建和优化了网络。在随后的风格迁移步骤中,我们则是利用了昇思MindSpore模型库中提供的CycleGAN模型。昇思MindSpore的动态图/静态图统一(PYNATIVE/GRAPH模式)特性方便了模型的调试与高效部署,而其自动并行与图算融合优化技术(如通过mindspore.ops中的融合算子替代多个基础算子组合)显著减少了模型在NPU服务器上的计算开销和内存占用,大幅提升了线稿生成的推理速度。

(3)填色再绘
本案例基于扩散模型的加噪和去噪特性,利用文生图大模型Stable Diffusion强大的图像生成能力,并结合LoRA、ControlNet和IP-Adapter等技术,提出了一种高效且低参数的纸本经图填色再绘方法,可以将提取到的线稿进行上色,得到最终的数字化图像,有效解决了风格不一致、佛像姿态变形和颜色失真等问题,显著提升了数字化生成任务的效率和精度。

先将LoRA技术应用于图像表示与文本描述相关联的交叉注意层进行高效参数微调,生成经图风格的图像;然后使用ControlNet模型将线稿作为条件控制,来维持原图中佛像的姿态或者是符号的形状,使生成图像更加可控和准确;最后,采用IP-Adapter适配器将原图像的特征融入生成图像中,提升图像的颜色分布准确性。

(4)3D建模
本案例在三维重建技术的基础上,引入了生成式扩散模型。借助图生图大模型,能够通过单张平面图生成该物体多个角度的法线图与色彩图,进一步完成对物体的建模。相较于手工建模,该方法将二维和三维技术相结合,在快速生成模型的同时,保证了三维物体的高质量细节与正确的色彩贴图。

首先去除图像的背景,只保留物体主体。接着将相机参数融入Unet网络,训练多角度视图生成扩散模型,使其能生成规定视角的物体图像。最后使用Nerf三维重建技术,对多视角图像进行三维建模,并对物体细节进行优化,从而生成高质量三维模型。

本案例首先通过图像矫正和超分辨率技术,解决了图像畸变、倾斜和分辨率较低的问题;利用边缘检测提取线稿,保持原图结构,通过文生图大模型进行填色再绘,得到经图风格,生成目标2D图像;结合生成式扩散模型和三维重建技术,实现三维模型的生成。本案例首次将上述技术应用于纸本经图的数字化修复,突破了传统数字化修复技术的局限,特别是在线稿提取等核心环节,昇思MindSpore提供的高效框架能力对保障修复效率和精准度起到了关键作用。
项目成果、创新点及成效
本案例的创新点主要包含以下几点:
(1)交叉融合创新
首次提出了川西南地区经图文物的自动化修复方案,将民族学领域的文化内涵和计算机领域的人工智能技术相结合,有效保护了这些濒临灭失的文物,为跨学科合作开辟了新的道路。
(2)技术研究创新
突破了传统数字化修复技术的局限性,提出了高质量的线稿提取方法,通过交互为生成最终线稿图提供更大的灵活性和准确性,最大限度地还原经图的结构和细节;提出了可控的填色再绘方法,根据原图和线稿自动生成经图风格图像;提出了从2D到3D 的转换方法,通过3D模型展示经图中的历史人物和宗教故事,提供更深入的文化体验等。以上举措为文物保护和修复工作提供了有效技术支持。
本案例的项目成果主要包含以下几点:
**创建高价值数据集:**成功创建了一个包含川西南经图文物的原图、线稿图和修复图的多层次数据集。该数据集为川西南地区经图文物的研究和保护提供了宝贵的资源。基于该数据集,艺术领域可以使用该数据集进行审美评估,计算机领域则可以训练和测试修复算法,提高修复的准确性和效率。
**研究成果形成软件工具:**本案例借助AI技术,实现了自动的数字化修复过程,设计开发了一款修复软件,该软件能够对输入的破损经图进行修复,具备多项关键功能,包括图像预处理、线稿提取、填色再绘以及3D建模完成最终的修复成果,支持交互式修改,允许用户参与修复过程,提高修复的准确度,同时也能满足不同修复需求。
**培养优秀AI人才:**通过校企合作,华为提供了开发者套件等设备,同时启智平台、昇思大模型平台具备NPU算力。昇思MindSpore充分发挥NPU算力优势,团队同学可以有充足的资源开展学习研究,参与多个竞赛,并取得了优异的成绩。






建设创新型智能平台:本案例积极推动了智能平台的创新建设,不仅使用了“西南交通大学城市交通智慧出行及智能调度平台”,还搭建了多台昇腾AI训练及推理服务器,支持了国内AI技术的应用与发展。
经验总结
本项目的具体推广及应用情况有如下三个方面:
(1)基于项目成果,团队获得了两项项目资助
团队获得了四川省文化和旅游厅2023年度的科研课题“四川藏羌彝走廊纸本经图的数字化保护与利用研究”。在该项目的支持下,团队持续以数字化的方式探索如何对四川藏羌走廊中纸本图像文献进行修复、重现和活化。
此外,团队还获得了文化和旅游部全国公共文化发展中心2024年度公共数字文化服务课题研究项目“AIGC智创时代下藏羌彝走廊图像文化遗产的修复与重塑研究”。在该项目支持下,团队首先将对AIGC数字修复平台进行的技术性研究,并开展人机协作下传统图像生成和重构的策略研究。

可见,项目的技术先进性和文化价值已获得相关部门高度认可,目前已经形成了以技术-艺术-文化为有效良性驱动的新研究方向。
(2)在国际会议中推广项目经验
在项目进行期间,团队于2022、2023年两次在国际会议“全球视野下的建筑文化遗产保护创新技术与应用国际研讨会”上发言,就本项目的成果与业内专家进行分享和探讨,取得了良好的推广效果。

(3)产出多篇优秀论文
团队产出相关领域的论文4篇:《基于元学习的藏羌彝走廊民族符号的图像识别方法研究》、《川西南纸本经图的文旅资源数字化研究与实践》、《藏羌彝走廊小族群文化艺术符号研究与数字化设计再现》、《多元融合:藏羌彝走廊民族符号的象征与美学价值研究》,其中《川西南纸本经图的文旅资源数字化研究与实践》、《藏羌彝走廊小族群文化艺术符号研究与数字化设计再现》两篇为北大核心期刊论文,4篇论文在知网累计下载量超过1500次,为从事相关研究的同行提供了丰富的研究基础。
经验总结
本案例取得了一定的成功,得益于以下几个关键因素:
**技术驱动:**人工智能技术发展迅猛 近年来,人工智能技术,特别是生成式AI取得了突破性的进展,可以根据文字描述生成图像、语音等数字内容,这为纸本图像修复和活化提供了强大的技术手段。
**方法创新:**学科交叉融合 计算机视觉技术为图像修复提供了强大的技术支撑,民族学文化和民族艺术则为修复工作注入了深厚的文化内涵,两者有机结合,实现了文物修复的科学性和艺术性的统一。
**机制创新:**产学研结合 高校提供技术支撑,企业提供设备资源和应用场景,产学研深度融合,促进了项目落地应用。这种合作模式,有效整合了各方优势,提高了资源利用效率,加速了技术成果的转化应用。
同时,本案例成果将可在如下方面进一步完善提升:
**技术成熟度有待提升:**部分技术仍处于研发阶段,需要进一步完善和优化,以提高稳定性和可靠性。
**应用范围有待扩充:**目前主要应用于川西南地区纸本经图的修复,亟需拓展应用范围,服务于更多文化遗产保护项目。
未来我们将持续研究经图特点,攻关相关关键技术,提升技术成熟度;积极开展与其他地区、其他类型文化遗产保护机构的合作,探索技术在不同领域的应用,扩大技术应用范围。相信通过不断的努力,川西南纸本经图数字化修复技术将取得更大进展,培养更多高素质AI人才,为文化遗产保护事业贡献更大的力量。
案例内容由项目负责人提供