[{"data":1,"prerenderedAt":263},["ShallowReactive",2],{"content-query-UpzbzaKyjB":3},{"_path":4,"_dir":5,"_draft":6,"_partial":6,"_locale":7,"title":8,"description":9,"date":10,"cover":11,"type":12,"category":13,"body":14,"_type":257,"_id":258,"_source":259,"_file":260,"_stem":261,"_extension":262},"/technology-blogs/zh/3760","zh",false,"","昇思MindSpore原生论文 | 基于GRPO的图像描述算法","论文标题    Group Relative Policy Optimization for Image Captioning","2025-06-13","https://obs-mindspore-file.obs.cn-north-4.myhuaweicloud.com/file/2025/06/20/51c46cf3fd00417bb0a85aaaf5f5efc1.png","technology-blogs","实践",{"type":15,"children":16,"toc":254},"root",[17,25,31,36,41,46,51,62,67,77,82,87,98,106,115,120,125,130,137,142,150,155,163,168,175,182,189,194,199,207,212,219,224,229,236,241,249],{"type":18,"tag":19,"props":20,"children":22},"element","h1",{"id":21},"昇思mindspore原生论文-基于grpo的图像描述算法",[23],{"type":24,"value":8},"text",{"type":18,"tag":26,"props":27,"children":28},"p",{},[29],{"type":24,"value":30},"论文标题",{"type":18,"tag":26,"props":32,"children":33},{},[34],{"type":24,"value":35},"Group Relative Policy Optimization for Image Captioning",{"type":18,"tag":26,"props":37,"children":38},{},[39],{"type":24,"value":40},"论文来源",{"type":18,"tag":26,"props":42,"children":43},{},[44],{"type":24,"value":45},"arXiv",{"type":18,"tag":26,"props":47,"children":48},{},[49],{"type":24,"value":50},"论文链接",{"type":18,"tag":26,"props":52,"children":53},{},[54],{"type":18,"tag":55,"props":56,"children":60},"a",{"href":57,"rel":58},"https://arxiv.org/abs/2503.01333",[59],"nofollow",[61],{"type":24,"value":57},{"type":18,"tag":26,"props":63,"children":64},{},[65],{"type":24,"value":66},"代码链接",{"type":18,"tag":26,"props":68,"children":69},{},[70],{"type":18,"tag":55,"props":71,"children":74},{"href":72,"rel":73},"https://github.com/mindspore-lab/models/tree/master/research/arxiv%5C_papers/Image%5C_Caption%5C_GRPO",[59],[75],{"type":24,"value":76},"https://github.com/mindspore-lab/models/tree/master/research/arxiv\\_papers/Image\\_Caption\\_GRPO",{"type":18,"tag":26,"props":78,"children":79},{},[80],{"type":24,"value":81},"昇思MindSpore作为开源的AI框架，为开发人员带来端边云全场景协同、极简开发、极致性能的体验，支持国内高校/科研机构发表1700+篇AI顶会论文。为鼓励基于昇思MindSpore进行原生创新，昇思开源社区转载、解读系列原生arXiv论文，本文为昇思MindSpore AI arXiv论文系列第7篇。",{"type":18,"tag":26,"props":83,"children":84},{},[85],{"type":24,"value":86},"作者：梁旭",{"type":18,"tag":26,"props":88,"children":89},{},[90,92],{"type":24,"value":91},"感谢各位专家教授与同学的投稿，更多精彩的论文精读文章和开源代码实现请访问Models。更多内容请访问： ",{"type":18,"tag":55,"props":93,"children":96},{"href":94,"rel":95},"https://gitee.com/mindspore/community/issues/I9W2Z3",[59],[97],{"type":24,"value":94},{"type":18,"tag":26,"props":99,"children":100},{},[101],{"type":18,"tag":102,"props":103,"children":105},"img",{"alt":7,"src":104},"https://obs-mindspore-file.obs.cn-north-4.myhuaweicloud.com/file/2025/06/20/48f090560590404cb221e89b656ac5b6.png",[],{"type":18,"tag":26,"props":107,"children":108},{},[109],{"type":18,"tag":110,"props":111,"children":112},"strong",{},[113],{"type":24,"value":114},"研究背景",{"type":18,"tag":26,"props":116,"children":117},{},[118],{"type":24,"value":119},"图像描述是结合计算机视觉与自然语言处理的多模态任务，旨在为图像生成自然语言描述。图像描述方法受机器翻译的启发，采用编码器-解码器架构。早期方法使用CNN（如ResNet）编码图像特征，使用LSTM自回归解码，但由于LSTM的顺序性限制了并行效率。随着Transformer在NLP的成功，其自注意力机制支持并行训练，现已成为解码器主流。目前图像描述算法的训练通常分两阶段，首阶段使用交叉熵损失，第二阶段采用SCST强化学习方法解决暴露偏差问题（训练与测试输入不一致）。",{"type":18,"tag":26,"props":121,"children":122},{},[123],{"type":24,"value":124},"但SCST算法目前存在一定的局限性，其仅依赖单一贪心解码作为基线，可能导致优势估计方差高，并且仅参考贪心解码，生成多样性受限，而缺乏KL散度的约束也容易导致训练崩溃。",{"type":18,"tag":26,"props":126,"children":127},{},[128],{"type":24,"value":129},"为了解决上述问题，本研究提出了一种基于GRPO强化学习的图像描述方法，利用MindSpore框架，为输入图像生成多个候选描述，计算每个描述的组内优势，结合KL散度，在保证准确性和稳定性的同时不断优化模型。",{"type":18,"tag":26,"props":131,"children":132},{},[133],{"type":18,"tag":102,"props":134,"children":136},{"alt":7,"src":135},"https://obs-mindspore-file.obs.cn-north-4.myhuaweicloud.com/file/2025/06/20/98e5055b31834f3cba3c0b44635629fb.png",[],{"type":18,"tag":26,"props":138,"children":139},{},[140],{"type":24,"value":141},"图1 模型结构",{"type":18,"tag":26,"props":143,"children":144},{},[145],{"type":18,"tag":110,"props":146,"children":147},{},[148],{"type":24,"value":149},"作者介绍",{"type":18,"tag":26,"props":151,"children":152},{},[153],{"type":24,"value":154},"论文第一作者梁旭，2020年获得北京邮电大学学士学位，目前是西安交通大学软件工程学院的硕士研究生，其研究成果在Neurocomputing与Computer Vision and Image Understanding等期刊上发表，熟练掌握MindSpore和PyTorch深度学习框架。",{"type":18,"tag":26,"props":156,"children":157},{},[158],{"type":18,"tag":110,"props":159,"children":160},{},[161],{"type":24,"value":162},"论文简介",{"type":18,"tag":26,"props":164,"children":165},{},[166],{"type":24,"value":167},"在计算机视觉领域，图像描述技术近年来受到越来越多的关注。图像描述的目标即使用深度学习、自然语言处理与计算机视觉等多个领域的知识和技术，为图片生成一句准确且流畅的文本描述。因此图像描述技术是一个典型的跨模态任务，其需要考虑模态之间的语义对齐。现有的图像描述方法通常采用编码器-解码器架构，并结合两阶段训练完成模型的训练，其中第一阶段采用交叉熵优化，第二阶段采用强化学习优化。目前图像描述在第二阶段采用的SCTS对模型完成优化，SCST的算法流程如下：对同一图像，模型生成两个句子：采样句子（Sampled Caption）：通过随机采样生成。贪心句子（Greedy Caption）：通过贪心搜索（每一步取概率最高的词）生成。然后计算两者的奖励值（通常采用CIDEr分数）。接下来计算其优势函数，优势函数定义为采样句子的奖励与贪心句子奖励的差值。最后通过最大化优势函数的期望更新模型参数：",{"type":18,"tag":26,"props":169,"children":170},{},[171],{"type":18,"tag":102,"props":172,"children":174},{"alt":7,"src":173},"https://obs-mindspore-file.obs.cn-north-4.myhuaweicloud.com/file/2025/06/20/5f8e62b9e4b945dea30084ecccd0d9b9.png",[],{"type":18,"tag":26,"props":176,"children":177},{},[178],{"type":18,"tag":102,"props":179,"children":181},{"alt":7,"src":180},"https://obs-mindspore-file.obs.cn-north-4.myhuaweicloud.com/file/2025/06/20/324d16213b27475eb1b9b358f703662e.png",[],{"type":18,"tag":26,"props":183,"children":184},{},[185],{"type":18,"tag":102,"props":186,"children":188},{"alt":7,"src":187},"https://obs-mindspore-file.obs.cn-north-4.myhuaweicloud.com/file/2025/06/20/4f038df8e63542cbaeea249fa0461a50.png",[],{"type":18,"tag":26,"props":190,"children":191},{},[192],{"type":24,"value":193},"图 2 GRPO计算公式",{"type":18,"tag":26,"props":195,"children":196},{},[197],{"type":24,"value":198},"可以看到GRPO的核心思想是通过对输入提示生成多个候选答案，然后通过组内对比的方式，不断优化模型，并且通过约束策略更新的幅度与KL散度，极大的保证了模型在训练过程中的稳定性。因此GRPO算法非常适用于图像描述领域。GRPO通过组内对比，即使整体奖励稀疏，模型仍能通过组内差异学习优化方向。例如，在生成错误描述较多的组中，相对优势可有效区分部分正确与完全错误的输出，最大限度的保证模型朝着正确的方向优化。此外相比于SCST仅采样一个答案，GRPO采样多组答案，组内多候选生成覆盖更广的解空间，结合KL散度约束，GRPO能在保证流畅性的同时提升多样性。",{"type":18,"tag":26,"props":200,"children":201},{},[202],{"type":18,"tag":110,"props":203,"children":204},{},[205],{"type":24,"value":206},"实验结果",{"type":18,"tag":26,"props":208,"children":209},{},[210],{"type":24,"value":211},"为了验证GRPO方法的性能，我们基于MindSpore框架，使用预先训练好的 ResNet50作为图像编码器，在MSCOCO2014数据集上进行了实验。MSCOCO2014数据集是图像描述中经常使用的数据集，其包含了丰富多样的图像和与之相关联的自然语言描述，共包含123287 张图像，其中 82783 张图片被划分到训练集，40504 被划分为验证集，每张图片有5个参考描述，涵盖了多种场景和主题，包括人物、动物、自然风景、室内环境等。在实际实验中，采用了“Karpathy”重新划分的数据集，其中113287张图像用于训练，5000张图像用于验证，5000张图像用于离线评估，这与目前的研究方法保持一致。其结果如表1所示。实验表明，GRPO在所有指标上都超过了SCST，这验证了我们方法的有效性。",{"type":18,"tag":26,"props":213,"children":214},{},[215],{"type":18,"tag":102,"props":216,"children":218},{"alt":7,"src":217},"https://obs-mindspore-file.obs.cn-north-4.myhuaweicloud.com/file/2025/06/20/3705dfd0896a403599e08b41c3f5e85b.png",[],{"type":18,"tag":26,"props":220,"children":221},{},[222],{"type":24,"value":223},"表 1基于 MindSpore 2.2.14 框架的 MSCOCO“Karpathy”拆分测试集上的实验结果。",{"type":18,"tag":26,"props":225,"children":226},{},[227],{"type":24,"value":228},"此外，为了验证SCST和GRPO算法的稳定性，我们使用Flickr8k数据集进行了实验。Flickr8k包含8,000张图像，其中6,000张用于训练，1,000张用于验证，1,000张用于测试。每张图片还有5个关联的标题。由于数据集仅包含少量图像，因此交叉熵优化后的模型能力可能会略弱。实验结果如表2所示。可以看出，GRPO在所有指标上都有所提高，而SCST在某些指标上有所下降。此外，在实验中，我们还发现SCST算法偶尔会崩溃，即验证集指标突然急剧下降，而GRPO算法非常稳定。即使基线模型稍弱，GRPO仍然可以稳步提升模型的性能，这也验证了它的稳定性。",{"type":18,"tag":26,"props":230,"children":231},{},[232],{"type":18,"tag":102,"props":233,"children":235},{"alt":7,"src":234},"https://obs-mindspore-file.obs.cn-north-4.myhuaweicloud.com/file/2025/06/20/99db43c95d324b9c8834c670508babe6.png",[],{"type":18,"tag":26,"props":237,"children":238},{},[239],{"type":24,"value":240},"表 2 基于 MindSpore 2.2.14 框架在 Flickr8k 测试数据集上的实验结果。",{"type":18,"tag":26,"props":242,"children":243},{},[244],{"type":18,"tag":110,"props":245,"children":246},{},[247],{"type":24,"value":248},"总结与展望",{"type":18,"tag":26,"props":250,"children":251},{},[252],{"type":24,"value":253},"本文在MindSpore的支持下，提出了一种基于GRPO强化学习的图像描述算法，该算法通过分组优化和KL散度约束解决了传统SCST的局限性。通过为每个图像生成多个候选描述并通过组内比较优化其相对质量，GRPO实现了更好的探索-开发权衡。KL散度约束有效防止了模型崩溃，大大提高了模型的稳定性。在MSCOCO2014和Flickr8k数据集上的实验结果表明，GRPO算法能够稳定高效地提高模型的能力。",{"title":7,"searchDepth":255,"depth":255,"links":256},4,[],"markdown","content:technology-blogs:zh:3760.md","content","technology-blogs/zh/3760.md","technology-blogs/zh/3760","md",1776506134695]