[{"data":1,"prerenderedAt":267},["ShallowReactive",2],{"content-query-VBTF9ZSZGy":3},{"_path":4,"_dir":5,"_draft":6,"_partial":6,"_locale":7,"title":8,"description":9,"date":10,"cover":11,"type":12,"body":13,"_type":261,"_id":262,"_source":263,"_file":264,"_stem":265,"_extension":266},"/news/zh/3408","zh",false,"","Open AI又出王炸！黄金时代新增o1模型猛将！（资讯更新系列）","A：Hello，小麦（小Mi），请播报近期AI类新闻","2024-09-20","https://obs-mindspore-file.obs.cn-north-4.myhuaweicloud.com/file/2024/11/28/d2777cd5d7774d00a7a92629cac0eb71.png","news",{"type":14,"children":15,"toc":258},"root",[16,24,29,34,39,44,49,54,59,64,69,74,79,84,89,94,99,104,109,114,119,124,129,134,139,144,149,154,159,168,173,178,183,188,193,198,253],{"type":17,"tag":18,"props":19,"children":21},"element","h1",{"id":20},"open-ai又出王炸黄金时代新增o1模型猛将资讯更新系列",[22],{"type":23,"value":8},"text",{"type":17,"tag":25,"props":26,"children":27},"p",{},[28],{"type":23,"value":9},{"type":17,"tag":25,"props":30,"children":31},{},[32],{"type":23,"value":33},"B：1.OpenAI 发布 o1 模型具备类似人类的推理能力，大模型已经达到人类博士水平",{"type":17,"tag":25,"props":35,"children":36},{},[37],{"type":23,"value":38},"A：已达博士水平？这就是传说中的“straberry”吗？",{"type":17,"tag":25,"props":40,"children":41},{},[42],{"type":23,"value":43},"B：没错！OpenAI传说中的“草莓”不仅可以胜任更复杂的推理任务，在数学、代码和其他科学领域也能解决更难的问题。",{"type":17,"tag":25,"props":45,"children":46},{},[47],{"type":23,"value":48},"为了帮助大家更好地了解人工智能世界，MindSpore坛主决定这个资讯更新系列在给大家普及大事件新闻的同时，帮助大家更多地熟悉一些基础知识点，每次都能学到新的东西~~",{"type":17,"tag":25,"props":50,"children":51},{},[52],{"type":23,"value":53},"众所周知，人工智能（AI）是一个广泛的领域，涵盖了多个子领域和应用，其中就包括自然语言处理（NLP）。所以很明显，今天介绍下NLP~~",{"type":17,"tag":25,"props":55,"children":56},{},[57],{"type":23,"value":58},"自然语言处理（Natural Language Processing，简称NLP）是人工智能和语言学领域的一个分支，它致力于使计算机能够理解、解释、生成和处理人类语言。NLP的目标是缩小人类语言和计算机之间的差距，使计算机能够执行以下任务：",{"type":17,"tag":25,"props":60,"children":61},{},[62],{"type":23,"value":63},"1、语言理解：使计算机能够理解自然语言的意图、情感和语境。",{"type":17,"tag":25,"props":65,"children":66},{},[67],{"type":23,"value":68},"2、语言生成：使计算机能够生成自然语言，以进行有效的沟通。",{"type":17,"tag":25,"props":70,"children":71},{},[72],{"type":23,"value":73},"3、语言翻译：使计算机能够将一种语言翻译成另一种语言。",{"type":17,"tag":25,"props":75,"children":76},{},[77],{"type":23,"value":78},"4、信息抽取：从文本中提取有用的信息，如实体、关系、事件等。",{"type":17,"tag":25,"props":80,"children":81},{},[82],{"type":23,"value":83},"5、文本分类：将文本自动分类到预定义的类别中。",{"type":17,"tag":25,"props":85,"children":86},{},[87],{"type":23,"value":88},"6、情感分析：分析文本中表达的情感倾向，如积极、消极或中性。",{"type":17,"tag":25,"props":90,"children":91},{},[92],{"type":23,"value":93},"7、问答系统：构建能够回答用户问题的系统。",{"type":17,"tag":25,"props":95,"children":96},{},[97],{"type":23,"value":98},"8、文本摘要：生成文本的简短摘要，保留关键信息。",{"type":17,"tag":25,"props":100,"children":101},{},[102],{"type":23,"value":103},"9、语音识别：将语音转换为文本。",{"type":17,"tag":25,"props":105,"children":106},{},[107],{"type":23,"value":108},"10、语音合成：将文本转换为语音。",{"type":17,"tag":25,"props":110,"children":111},{},[112],{"type":23,"value":113},"NLP的关键技术和方法包括：",{"type":17,"tag":25,"props":115,"children":116},{},[117],{"type":23,"value":118},"1）词嵌入（Word Embeddings）：将单词转换为向量形式，以捕捉单词之间的语义关系。",{"type":17,"tag":25,"props":120,"children":121},{},[122],{"type":23,"value":123},"2）序列模型：处理文本数据的时间序列特性，如循环神经网络（RNN）、长短期记忆网络（LSTM）和门控循环单元（GRU）。",{"type":17,"tag":25,"props":125,"children":126},{},[127],{"type":23,"value":128},"3）注意力机制（Attention Mechanisms）：使模型能够关注输入序列中的特定部分。",{"type":17,"tag":25,"props":130,"children":131},{},[132],{"type":23,"value":133},"4）Transformer模型：一种基于自注意力机制的模型，用于处理序列数据，广泛应用于翻译、文本生成等任务。",{"type":17,"tag":25,"props":135,"children":136},{},[137],{"type":23,"value":138},"5）预训练语言模型：如BERT（Bidirectional Encoder Representations from Transformers）、GPT（Generative Pre-trained Transformer）等，它们在大量文本数据上进行预训练，然后在特定任务上进行微调。",{"type":17,"tag":25,"props":140,"children":141},{},[142],{"type":23,"value":143},"6）机器学习算法：包括监督学习、无监督学习和强化学习等，用于训练NLP模型。",{"type":17,"tag":25,"props":145,"children":146},{},[147],{"type":23,"value":148},"7）规则基础系统：使用语言学规则和启发式方法来处理语言。",{"type":17,"tag":25,"props":150,"children":151},{},[152],{"type":23,"value":153},"这里可以着重给大家介绍一下非常常见的BERT。BERT（Bidirectional Encoder Representations from Transformers）是由Google在2018年提出的一种预训练语言表示模型，它在自然语言处理（NLP）领域取得了革命性的进展。BERT的核心特点在于其双向训练机制，能够通过大量无标签文本数据学习深层次的双向语言表示。",{"type":17,"tag":25,"props":155,"children":156},{},[157],{"type":23,"value":158},"BERT模型的架构基于Transformer的编码器（Encoder）部分，由多层Transformer编码器堆叠而成。在较小的BERT模型中，包含12个编码器层，每个层有12个注意力头，词向量维度为768；而在较大的模型中，则包含24个编码器层，每个层有16个注意力头，词向量维度为1024。BERT的输入是三种嵌入的总和：WordPiece嵌入、位置嵌入和段落（Segment）嵌入。其中，WordPiece嵌入是对单词的表示，位置嵌入提供序列中单词位置的信息，段落嵌入则用于区分不同的句子或段落。",{"type":17,"tag":25,"props":160,"children":161},{},[162],{"type":17,"tag":163,"props":164,"children":167},"img",{"alt":165,"src":166},"cke_4140.png","https://fileserver.developer.huaweicloud.com/FileServer/getFile/cmtybbs/314/83a/847/44719f3f2731483a847e5aa558893e45.20240920073041.72144630004987530840019011313778:20240927020359:2400:5DE8AD76CF599AC5E859F3E892489D4441FED8D7CFAE45BF0D525409883036DB.png",[],{"type":17,"tag":25,"props":169,"children":170},{},[171],{"type":23,"value":172},"BERT的预训练包括两个主要任务：",{"type":17,"tag":25,"props":174,"children":175},{},[176],{"type":23,"value":177},"1. Masked Language Model (MLM)：在这一任务中，模型随机掩盖输入句子中的一些单词，然后尝试预测这些被掩盖的单词。在实际训练中，15%的单词会被掩盖，其中80%被替换为特殊的[MASK]标记，10%被随机替换为其他单词，剩余10%保持不变。",{"type":17,"tag":25,"props":179,"children":180},{},[181],{"type":23,"value":182},"2. Next Sentence Prediction (NSP)：这一任务要求模型预测两个句子是否是顺序的关系，即第二个句子是否是第一个句子的下文。这有助于模型学习句子间的关系。",{"type":17,"tag":25,"props":184,"children":185},{},[186],{"type":23,"value":187},"BERT的预训练过程使其能够捕捉到丰富的语言模式和关系，这使得它在微调（Fine-tuning）阶段能够适应各种NLP任务，如文本分类、命名实体识别、问答系统等。微调过程中，BERT模型的权重会根据特定任务的数据进行调整，以提高任务性能。",{"type":17,"tag":25,"props":189,"children":190},{},[191],{"type":23,"value":192},"BERT模型的成功在于其能够通过预训练学习到深层次的语言表示，这些表示包含了丰富的语义和句法信息。此外，BERT的双向训练机制使其能够更好地理解单词的上下文含义，从而在各种NLP任务中取得了显著的性能提升。",{"type":17,"tag":25,"props":194,"children":195},{},[196],{"type":23,"value":197},"好啦，今日知识点普及就到这，下面给大家带来最近的AI新闻~",{"type":17,"tag":199,"props":200,"children":201},"ol",{},[202,208,213,218,223,228,233,238,243,248],{"type":17,"tag":203,"props":204,"children":205},"li",{},[206],{"type":23,"value":207},"基于昇腾AI大集群，运营商伙伴基于昇思MindSpore AI框架成功实现了Llama3.1-405B大模型的训练。数据显示，本次模型训练性能与原生方案持平，训练效率及稳定性显著提升，展示了昇腾AI处理器与昇思AI框架软硬结合的强大能力。根据公开报道，Llama3.1-405B原生训练耗时持续54天，累计发生419次故障，平均每3小时产生一次，模型训练耗时长、稳定性要求高，如何优化训练性能、提升执行效率，同时提升稳定性，成为加速模型训练、提升模型精度的关键。面向训得快、训得稳等需求，昇思MindSpore提供了大模型开发套件、多维混合分布式并行、断点续训等能力，支持Llama3.1-405B又快又稳训练。",{"type":17,"tag":203,"props":209,"children":210},{},[211],{"type":23,"value":212},"李飞飞首次创业成立的空间智能公司终于官宣了，致力于构建大世界模型（LWM）来感知、生成3D世界并与之交互。World Labs公告中也指出，他们的首要目标是开发空间智能大世界模型（LWM），该模型可以从图像和其他模态理解、推理3D世界。未来，他们还期望训练出具有更广泛功能的模型，让这些模型在各个领域“和人们一起工作”。",{"type":17,"tag":203,"props":214,"children":215},{},[216],{"type":23,"value":217},"腾讯推出游戏视频模型GameGen-O，AI一键生成《黑神话·悟空》3A大作，该模型是一个专门生成开放世界视频游戏的Transformer模型。简单说，这个模型能够模拟各种游戏引擎功能，生成游戏角色、动态环境、复杂动作等等。当然也支持交互控制，用户可以通过文本、操作信号和视频提示来控制游戏内容。",{"type":17,"tag":203,"props":219,"children":220},{},[221],{"type":23,"value":222},"MagicLab机器人公司MagicLab的人形机器人更多技能技巧被摆到台前。除了在咖啡馆中进行高精度自主咖啡拉花，它还能为工厂员工分发夜宵、在室内外场景担任领路员。甚至能遛狗。该公式专注于通用机器人技术和AI技术，人形机器人只是它们产品线里的一员，仿生四足机器人、工业四足机器人、通用人形机器人等，都是这家公司计划中的一部分。瞄准的落地场景也很广泛，覆盖家庭、工业、商业等。",{"type":17,"tag":203,"props":224,"children":225},{},[226],{"type":23,"value":227},"OpenAI用o1开启推理算力Scaling Law，能走多远？数学证明来了：没有上限。斯隆奖得主马腾宇以及Google Brain推理团队创建者Denny Zhou联手证明，只要思维链足够长，Transformer就可以解决任何问题！他们证明了Transformer有能力模拟任意多项式大小的数字电路，用网友的话来说，CoT的集成缩小了Transformer与图灵机之间的差距，为Transformer实现图灵完备提供了可能，也就是说神经网络理论上可以高效解决复杂问题。",{"type":17,"tag":203,"props":229,"children":230},{},[231],{"type":23,"value":232},"开源版「Her」Moshi再引关注！Moshi是一款端到端实时音频模型，由一家法国创业团队Kyutai发布。不仅人人免费可玩，而且Moshi的代码、技术报告都已开源。发布的3个模型分别是Moshiko、Moshika，以及Mimi流语音编解码器。官方自称，他们对生成音频的主要贡献是多流建模技术（multi-stream modeling）。另外内心独白技术（Inner Monologue），它进一步提高了生成语音的质量，通过预测时间对齐的文本来增强Moshi的智能性，同时保持与流媒体的兼容性。",{"type":17,"tag":203,"props":234,"children":235},{},[236],{"type":23,"value":237},"9月 19 日，在2024杭州云栖大会上，随着通义大模型能力的全面提升，阿里云通义灵码迎来重磅升级。从一年前只能完成基础的辅助编程任务，进化到几句话就能完成需求理解、任务拆解、代码编写、修改BUG、测试等开发任务，最快几分钟可从0到1完成应用开发，提升数十倍开发效率。例如，真人程序员手动开发一个网页，通常需要1天的时间完成需求分解、写代码、测试等任务；现在，人类只需要输入需求，通义灵码5分钟就能完成整个过程。",{"type":17,"tag":203,"props":239,"children":240},{},[241],{"type":23,"value":242},"香港大学发布最新研究成果：智能交通大模型OpenCity。该模型根据参数大小分为OpenCity-mini、OpenCity-base和OpenCity-Pro三个模型版本，显著提升了时空模型的零样本预测能力，增强了模型的泛化能力。该模型结合了Transformer和图神经网络技术，以捕捉交通数据中的复杂时空关联。",{"type":17,"tag":203,"props":244,"children":245},{},[246],{"type":23,"value":247},"去年12月，Nature就刊登了一篇研究，可以用LLM预测一个人生活中即将发生的事件，就像预测句子中的next token一样。AI安全中心总监Dan Hendrycks联合加州大学伯克利分校的研究人员，开发了一个更强大的系统FiveThirtyNine，预测更宏观的社会事件，比如「Trump能否赢得2024年大选」。Nate Silver最新预测：Trump有64%的获胜几率。",{"type":17,"tag":203,"props":249,"children":250},{},[251],{"type":23,"value":252},"继OpenAI在5月发布会上展示「期货」GPT-4o的语音功能后，「AI语音助手」类的产品又成为了硅谷科技巨头的必争之地。紧跟着OpenAI开发布会的谷歌也马上宣布——Gemini将推出语音聊天模式Gemini Live。类似GPT-4o，Gemini Live不仅能实现随时打断的对话式交流，还有对设备屏幕的感知能力，可以实时解释用户的屏幕或视频信息。",{"type":17,"tag":25,"props":254,"children":255},{},[256],{"type":23,"value":257},"本期分享到此结束，所以大家可以在沙发留言详细介绍一下人工智能相关的其他介绍吗？或者直接发个技术干货也没毛病！审核通过有奖哦~",{"title":7,"searchDepth":259,"depth":259,"links":260},4,[],"markdown","content:news:zh:3408.md","content","news/zh/3408.md","news/zh/3408","md",1776506083802]