[{"data":1,"prerenderedAt":366},["ShallowReactive",2],{"content-query-3gKZkkMsHk":3},{"_path":4,"_dir":5,"_draft":6,"_partial":6,"_locale":7,"title":8,"description":9,"date":10,"cover":11,"type":12,"body":13,"_type":360,"_id":361,"_source":362,"_file":363,"_stem":364,"_extension":365},"/technology-blogs/zh/3824","zh",false,"","Bark模型论文解读，并基于MindSpore NLP推理复现","Bark 模型有望在更多领域实现更广泛的应用，为语音合成和音频生成任务提供更高效、更高质量的解决方案。","2025-09-02","https://obs-mindspore-file.obs.cn-north-4.myhuaweicloud.com/file/2025/09/04/286c796cf41549bca0521b6b4cde2bba.png","technology-blogs",{"type":14,"children":15,"toc":357},"root",[16,24,30,35,52,57,72,77,82,87,92,97,102,107,122,134,144,149,157,167,172,177,182,187,192,199,207,212,219,234,239,249,254,259,264,272,277,285,290,298,303,318,323,328],{"type":17,"tag":18,"props":19,"children":21},"element","h1",{"id":20},"bark模型论文解读并基于mindspore-nlp推理复现",[22],{"type":23,"value":8},"text",{"type":17,"tag":25,"props":26,"children":27},"p",{},[28],{"type":23,"value":29},"作者：weixu",{"type":17,"tag":25,"props":31,"children":32},{},[33],{"type":23,"value":34},"来源：开源实习",{"type":17,"tag":18,"props":36,"children":38},{"id":37},"_01-文本摘要",[39,45,47],{"type":17,"tag":40,"props":41,"children":42},"strong",{},[43],{"type":23,"value":44},"# 01",{"type":23,"value":46}," ",{"type":17,"tag":40,"props":48,"children":49},{},[50],{"type":23,"value":51},"文本摘要",{"type":17,"tag":25,"props":53,"children":54},{},[55],{"type":23,"value":56},"本文希望能够带大家稍微了解一下 Bark 模型及其背后的支撑论文 AudioLM，介绍如何在 MindSpore NLP 平台上加载和评估 Bark 模型，并通过实验比较了PyTorch 和MindSpore NLP 两种环境下的性能表现。本文旨在为研究人员和开发者提供对 Bark 模型及其应用的一部分理解，并展示其在不同硬件平台上的性能表现。",{"type":17,"tag":18,"props":58,"children":60},{"id":59},"_02-什么是bark模型",[61,66,67],{"type":17,"tag":40,"props":62,"children":63},{},[64],{"type":23,"value":65},"# 02",{"type":23,"value":46},{"type":17,"tag":40,"props":68,"children":69},{},[70],{"type":23,"value":71},"什么是Bark模型",{"type":17,"tag":25,"props":73,"children":74},{},[75],{"type":23,"value":76},"Bark 模型是由 Suno 公司开发的一款基于 transformer 的文本到音频模型。它能够生成高度逼真的多语言语音，支持包括英语、德语、西班牙语、法语、印地语、意大利语、日语、韩语、波兰语、葡萄牙语、俄语、土耳其语和中文在内的多种语言。此外，Bark 还能生成音乐、背景噪音和简单的音效，甚至可以模拟非语言交流，如笑声、叹息和哭泣。",{"type":17,"tag":25,"props":78,"children":79},{},[80],{"type":23,"value":81},"除此之外，Bark 模型的功能特性非常丰富。它不仅能够处理文本到语音的转换，还能生成多种音频内容，适用于多种应用场景。其多语言支持使得它在国际化项目中具有显著优势。此外，Bark 模型还提供了两个不同的模型大小（small 和 large），用户可以根据需求选择合适的模型。",{"type":17,"tag":25,"props":83,"children":84},{},[85],{"type":23,"value":86},"在一般情况下，Bark模型可以用于处理多种任务类型，包括但不限于：",{"type":17,"tag":25,"props":88,"children":89},{},[90],{"type":23,"value":91},"①文本到语音的转换",{"type":17,"tag":25,"props":93,"children":94},{},[95],{"type":23,"value":96},"②音频内容的生成",{"type":17,"tag":25,"props":98,"children":99},{},[100],{"type":23,"value":101},"③多语言语音合成",{"type":17,"tag":25,"props":103,"children":104},{},[105],{"type":23,"value":106},"④非语言交流的模拟",{"type":17,"tag":18,"props":108,"children":110},{"id":109},"_03-bark模型背后的支撑论文audiolm",[111,116,117],{"type":17,"tag":40,"props":112,"children":113},{},[114],{"type":23,"value":115},"# 03",{"type":23,"value":46},{"type":17,"tag":40,"props":118,"children":119},{},[120],{"type":23,"value":121},"Bark模型背后的支撑论文：AudioLM",{"type":17,"tag":25,"props":123,"children":124},{},[125,127,132],{"type":23,"value":126},"该论文的标题是",{"type":17,"tag":40,"props":128,"children":129},{},[130],{"type":23,"value":131},"AudioLM：a Language Modeling Approach to Audio Generation",{"type":23,"value":133},"，中文名：一种音频生成的语言建模方法。",{"type":17,"tag":25,"props":135,"children":136},{},[137,139],{"type":23,"value":138},"**1、**",{"type":17,"tag":40,"props":140,"children":141},{},[142],{"type":23,"value":143},"论文摘要",{"type":17,"tag":25,"props":145,"children":146},{},[147],{"type":23,"value":148},"AudioLM是一个能够生成具有长期一致性的高质量音频的框架。AudioLM将输入音频映射到一系列离散的标记，并将音频生成转化为该表示空间中的语言建模任务。我们展示了现有的音频标记器在重建质量和长期结构之间的不同权衡，并提出了一种混合标记方案以实现这两个目标。具体来说，我们利用在音频上预训练的掩蔽语言模型的离散激活来捕捉长期结构，并利用神经音频编解码器产生的离散代码来实现高质量合成。通过对大量原始音频波形进行训练，AudioLM学会了在给定简短提示的情况下生成自然且连贯的延续。在语音训练中，且无需任何转录或注释的情况下，AudioLM能够生成在语法和语义上合理的语音延续，同时保持说话者的身份和语调。此外，我们展示了我们的方法如何扩展到语音之外，通过生成连贯的钢琴音乐延续，尽管训练中没有任何音乐的符号表示。",{"type":17,"tag":25,"props":150,"children":151},{},[152],{"type":17,"tag":153,"props":154,"children":156},"img",{"alt":7,"src":155},"https://obs-mindspore-file.obs.cn-north-4.myhuaweicloud.com/file/2025/09/04/87c24a8801bc4d0690446ca99b04ab4e.png",[],{"type":17,"tag":25,"props":158,"children":159},{},[160,162],{"type":23,"value":161},"**2、**",{"type":17,"tag":40,"props":163,"children":164},{},[165],{"type":23,"value":166},"论文创新点",{"type":17,"tag":25,"props":168,"children":169},{},[170],{"type":23,"value":171},"从原始音频波形开始，本论文首先从一个使用自监督掩蔽语言建模目标预训练的模型中构建粗略语义标记。这些标记的自回归建模捕捉了局部依赖关系（例如，语音中的音素、钢琴音乐中的局部旋律）和全局长期结构（例如，语音中的语言语法和语义内容；钢琴音乐中的和声和节奏）。然而，这些标记导致重建质量较差。为了克服这一限制，除了语义标记外，我们还依赖由SoundStream神经编解码器产生的细粒度声学标记，这些标记捕捉了音频波形的细节，允许高质量合成。训练一个语言模型来生成语义和声学标记，同时实现高质量音频和长期一致性。",{"type":17,"tag":25,"props":173,"children":174},{},[175],{"type":23,"value":176},"1）提出AudioLM框架，分层方式结合语义和声学标记，以实现生成长期一致性和高质量的音频。",{"type":17,"tag":25,"props":178,"children":179},{},[180],{"type":23,"value":181},"2）通过与w2v-BERT以及SoundStream的对比，证明了模型的可辨别性和重建质量优势的互补性。",{"type":17,"tag":25,"props":183,"children":184},{},[185],{"type":23,"value":186},"3）模型可以不依赖文本标注，生成语音，句法和语义。只需要3s语音作为提示，即可生成训练期间未见过的语音，并保持说话人的声音，韵律，录音条件（混响、噪音）。",{"type":17,"tag":25,"props":188,"children":189},{},[190],{"type":23,"value":191},"4）为防御生成语音带来的潜在风险，还提出了一个分类器，用于识别合成音频和真实音频。",{"type":17,"tag":25,"props":193,"children":194},{},[195],{"type":17,"tag":153,"props":196,"children":198},{"alt":7,"src":197},"https://obs-mindspore-file.obs.cn-north-4.myhuaweicloud.com/file/2025/09/04/b140db177046437e9e977e407e2cd53b.png",[],{"type":17,"tag":25,"props":200,"children":201},{},[202],{"type":17,"tag":40,"props":203,"children":204},{},[205],{"type":23,"value":206},"3、论文实验表现",{"type":17,"tag":25,"props":208,"children":209},{},[210],{"type":23,"value":211},"论文通过基于以下任务的主观评估进一步验证了前一节的结果。评估者被要求收听一个正好10秒的样本，并判断它是人类语音的原始录音还是由我们的框架生成的合成延续。我们总共使用了100个样本，这些样本从LibriSpeech test-clean中随机选择，长度至少为10秒，以便我们可以在不引入任何填充的情况下将长度截断为正好10秒。一半的样本是真实的10秒话语，我们通过SoundStream压缩以匹配AudioLM输出的比特率，以便压缩伪影不能作为检测合成音频的线索。在剩下的另一半中，我们从样本的开头提取3秒的提示，并生成相应的正好7秒的延续（在与提示连接后，样本长度为10秒）。我们依赖10名通过英语熟练度筛选的评估者，并告知他们每个样本的前3秒是原始人类语音，因此他们的判断应基于前3秒后的部分。这个主观评估任务同时测试了多个期望的属性：i）生成的语言内容的语义和语法正确性；ii）延续在提示上下文中的声学一致性（说话者身份、语调、录音条件）以及iii）生成样本中没有生成伪影。根据收集的1000个评分，正确分配标签（原始与合成）的成功率为51.2%，根据二项式检验，这与随机分配标签（50%成功率）没有统计学上的显著差异（p = 0.23）。",{"type":17,"tag":25,"props":213,"children":214},{},[215],{"type":17,"tag":153,"props":216,"children":218},{"alt":7,"src":217},"https://obs-mindspore-file.obs.cn-north-4.myhuaweicloud.com/file/2025/09/04/73815a582291461ebb477d270eaffc42.png",[],{"type":17,"tag":18,"props":220,"children":222},{"id":221},"_04-在mindspore-nlp上加载bark模型",[223,228,229],{"type":17,"tag":40,"props":224,"children":225},{},[226],{"type":23,"value":227},"# 04",{"type":23,"value":46},{"type":17,"tag":40,"props":230,"children":231},{},[232],{"type":23,"value":233},"在MindSpore NLP上加载bark模型",{"type":17,"tag":25,"props":235,"children":236},{},[237],{"type":23,"value":238},"我们可以使用以下代码在MindSpore NLP环境下加载bark模型，代码来自lvyufeng老师，发布自MindSporelab的github页面。",{"type":17,"tag":240,"props":241,"children":243},"pre",{"code":242},"import scipy\nimport mindspore\nfrom IPython.display import Audio\nfrom mindnlp.transformers.models.bark import BarkModel, BarkProcessor\n\nvoice_preset = None\ndef main():\n    print(\"欢迎使用 Bark模型,输入下列任一数字选择你所需要的模型规模,或者输入stop提前终止程序\")\n    print(\"------------------------------------------------------------\")\n    print(\"|                 1. bark-small                            |\")\n    print(\"|                 2. bark-large                            |\") \n    print(\"------------------------------------------------------------\")   \n    print(\"注意: 如果你希望使用不同的说话人模式, 由于相应的模型无法直接下载\")\n    print(\"请自行下载后,并修改voice_preset使其指向文件对应的位置\")\n    choose = input(\"请输入你的选择:\")\n    if (choose == \"stop\"):\n        return 0\n    else:\n        if(choose != \"1\" and choose != \"2\"):\n            print(\"选择无效,即将退出\")\n            return 0\n        Processor = BarkProcessor.from_pretrained(\"suno/bark-small\") if choose==\"1\" else BarkProcessor.from_pretrained(\"suno/bark\")\n        Model = BarkModel.from_pretrained(\"suno/bark-small\") if choose==\"1\" else BarkModel.from_pretrained(\"suno/bark\")\n        Model.set_train(False)\n    while True:\n        inputs = input(\"请输入你想要让我说的话(可以带上大笑[laugh]等语气词):\")\n        if inputs == \"stop\":\n            return 0\n        inputs = Processor(inputs, voice_preset = voice_preset)\n        audio_array = Model.generate(**inputs,pad_token_id=10)\n        audio_array = audio_array.numpy().squeeze()\n        sample_rate = Model.generation_config.sample_rate\n        Audio(audio_array, rate=sample_rate, autoplay=True)\n        scipy.io.wavfile.write(\"bark_out_ms.wav\", rate=sample_rate, data=audio_array)\n\nif __name__ == \"__main__\":\n    main()\n",[244],{"type":17,"tag":245,"props":246,"children":247},"code",{"__ignoreMap":7},[248],{"type":23,"value":242},{"type":17,"tag":25,"props":250,"children":251},{},[252],{"type":23,"value":253},"本次测试的虚拟环境来自启智社区，软件环境是MindSpore2.5.0，MindSpore NLP版本为0.4.1。",{"type":17,"tag":25,"props":255,"children":256},{},[257],{"type":23,"value":258},"为了节约本次实验的运行时间，我们使用小的checkpoint，也就是“suno/bark-small”，同时用了ModelScope用来加载bark-small模型。",{"type":17,"tag":25,"props":260,"children":261},{},[262],{"type":23,"value":263},"TF的调试代码：",{"type":17,"tag":240,"props":265,"children":267},{"code":266},"import time\nimport psutil\nimport torch\nfrom modelscope import AutoProcessor, AutoModel\nimport scipy\n\ndef get_memory_usage():\n    process = psutil.Process()\n    mem_info = process.memory_info()\n    return mem_info.rss / (1024 * 1024)  # 返回MB\n\ndef evaluate_bark_on_cpu():\n    # 加载模型和处理器\n    processor = AutoProcessor.from_pretrained(\"mlx-community/bark-small\")\n    model = AutoModel.from_pretrained(\"mlx-community/bark-small\")\n    model.eval()\n    \n    # 测试输入\n    inputs = \"你好，欢迎使用Bark模型！\"\n    inputs = processor(inputs, return_tensors=\"pt\")\n   \n    # 测量内存占用\n    mem_before = get_memory_usage()\n   \n    with torch.no_grad():\n        start_time = time.time()\n        audio_array = model.generate(**inputs, pad_token_id=10)\n        end_time = time.time()\n    \n    mem_after = get_memory_usage()\n   \n    # 计算延迟和内存变化\n    latency = end_time - start_time\n    mem_usage = mem_after - mem_before\n   \n    return latency, mem_usage\n\nif __name__ == \"__main__\":\n    latency, mem_usage = evaluate_bark_on_cpu()\n    print(f\"CPU+torch延迟: {latency:.2f}秒\")\n    print(f\"CPU+torch内存占用: {mem_usage:.2f}MB\")\n",[268],{"type":17,"tag":245,"props":269,"children":270},{"__ignoreMap":7},[271],{"type":23,"value":266},{"type":17,"tag":25,"props":273,"children":274},{},[275],{"type":23,"value":276},"MindSpore NLP的调试代码：",{"type":17,"tag":240,"props":278,"children":280},{"code":279},"# npu_bark_eval.py\nimport time\nimport psutil\nimport mindspore\nfrom mindnlp.transformers.models.bark import BarkModel, BarkProcessor\nimport scipy\nimport numpy as np\n\ndef get_memory_usage():\n    process = psutil.Process()\n    mem_info = process.memory_info()\n    return mem_info.rss / (1024 * 1024)  # 返回MB\n\ndef evaluate_bark_on_npu():\n    # 加载模型和处理器\n    processor = BarkProcessor.from_pretrained(\"suno/bark-small\")\n    model = BarkModel.from_pretrained(\"suno/bark-small\")\n    model.set_train(False)\n   \n    # 测试输入\n    inputs = \"你好，欢迎使用Bark模型！\"\n    inputs = processor(inputs)\n   \n    # 测量内存占用\n    mem_before = get_memory_usage()\n    \n    start_time = time.time()\n    audio_array = model.generate(**inputs, pad_token_id=10)\n    end_time = time.time()\n    \n    mem_after = get_memory_usage()\n    \n    # 计算延迟和内存变化\n    latency = end_time - start_time\n    mem_usage = mem_after - mem_before\n    \n    return latency, mem_usage\n\nif __name__ == \"__main__\":\n    latency, mem_usage = evaluate_bark_on_npu()\n    print(f\"NPU+MindNLP延迟: {latency:.2f}秒\")\n    print(f\"NPU+MindNLP内存占用: {mem_usage:.2f}MB\")\n",[281],{"type":17,"tag":245,"props":282,"children":283},{"__ignoreMap":7},[284],{"type":23,"value":279},{"type":17,"tag":25,"props":286,"children":287},{},[288],{"type":23,"value":289},"运行结果：",{"type":17,"tag":240,"props":291,"children":293},{"code":292},"torch延迟: 18.07秒\ntorch内存占用: 1382.20MB\n---------------\nMindSpore NLP延迟: 16.42秒\nMindSpore NLP内存占用: 1401.32MB\n",[294],{"type":17,"tag":245,"props":295,"children":296},{"__ignoreMap":7},[297],{"type":23,"value":292},{"type":17,"tag":25,"props":299,"children":300},{},[301],{"type":23,"value":302},"可以看出，在同样生成一句话\"你好，欢迎使用Bark模型！\"时，MindSpore NLP组的生成延迟略低于torch组，但内存占用稍高，不过影响不大。",{"type":17,"tag":18,"props":304,"children":306},{"id":305},"_05-总结",[307,312,313],{"type":17,"tag":40,"props":308,"children":309},{},[310],{"type":23,"value":311},"# 05",{"type":23,"value":46},{"type":17,"tag":40,"props":314,"children":315},{},[316],{"type":23,"value":317},"总结",{"type":17,"tag":25,"props":319,"children":320},{},[321],{"type":23,"value":322},"未来，随着硬件技术的进一步发展和模型优化的深入，Bark 模型有望在更多领域实现更广泛的应用，为语音合成和音频生成任务提供更高效、更高质量的解决方案。同时，我们也期待MindSpore NLP 平台的持续更新和完善，为研究人员和开发者提供更强大的工具和支持。",{"type":17,"tag":25,"props":324,"children":325},{},[326],{"type":23,"value":327},"参考文献：",{"type":17,"tag":25,"props":329,"children":330},{},[331,333,341,343,349,351],{"type":23,"value":332},"1：",{"type":17,"tag":334,"props":335,"children":339},"a",{"href":336,"rel":337},"https://github.com/mindspore-lab/mindnlp/blob/master/llm/inference/bark/inference.py",[338],"nofollow",[340],{"type":23,"value":336},{"type":23,"value":342}," 2：",{"type":17,"tag":334,"props":344,"children":347},{"href":345,"rel":346},"https://arxiv.org/abs/2209.03143",[338],[348],{"type":23,"value":345},{"type":23,"value":350}," 3：",{"type":17,"tag":334,"props":352,"children":355},{"href":353,"rel":354},"https://arxiv.org/abs/2301.02111",[338],[356],{"type":23,"value":353},{"title":7,"searchDepth":358,"depth":358,"links":359},4,[],"markdown","content:technology-blogs:zh:3824.md","content","technology-blogs/zh/3824.md","technology-blogs/zh/3824","md",1776506135842]