Open AI又出王炸！黄金时代新增o1模型猛将！（资讯更新系列）

2024/09/20

Open AI又出王炸！黄金时代新增o1模型猛将！（资讯更新系列）

A：Hello，小麦（小Mi），请播报近期AI类新闻

B：1.OpenAI 发布 o1 模型具备类似人类的推理能力，大模型已经达到人类博士水平

A：已达博士水平？这就是传说中的“straberry”吗？

B：没错！OpenAI传说中的“草莓”不仅可以胜任更复杂的推理任务，在数学、代码和其他科学领域也能解决更难的问题。

为了帮助大家更好地了解人工智能世界，MindSpore坛主决定这个资讯更新系列在给大家普及大事件新闻的同时，帮助大家更多地熟悉一些基础知识点，每次都能学到新的东西~~

众所周知，人工智能（AI）是一个广泛的领域，涵盖了多个子领域和应用，其中就包括自然语言处理（NLP）。所以很明显，今天介绍下NLP~~

自然语言处理（Natural Language Processing，简称NLP）是人工智能和语言学领域的一个分支，它致力于使计算机能够理解、解释、生成和处理人类语言。NLP的目标是缩小人类语言和计算机之间的差距，使计算机能够执行以下任务：

1、语言理解：使计算机能够理解自然语言的意图、情感和语境。

2、语言生成：使计算机能够生成自然语言，以进行有效的沟通。

3、语言翻译：使计算机能够将一种语言翻译成另一种语言。

4、信息抽取：从文本中提取有用的信息，如实体、关系、事件等。

5、文本分类：将文本自动分类到预定义的类别中。

6、情感分析：分析文本中表达的情感倾向，如积极、消极或中性。

7、问答系统：构建能够回答用户问题的系统。

8、文本摘要：生成文本的简短摘要，保留关键信息。

9、语音识别：将语音转换为文本。

10、语音合成：将文本转换为语音。

NLP的关键技术和方法包括：

1）词嵌入（Word Embeddings）：将单词转换为向量形式，以捕捉单词之间的语义关系。

2）序列模型：处理文本数据的时间序列特性，如循环神经网络（RNN）、长短期记忆网络（LSTM）和门控循环单元（GRU）。

3）注意力机制（Attention Mechanisms）：使模型能够关注输入序列中的特定部分。

4）Transformer模型：一种基于自注意力机制的模型，用于处理序列数据，广泛应用于翻译、文本生成等任务。

5）预训练语言模型：如BERT（Bidirectional Encoder Representations from Transformers）、GPT（Generative Pre-trained Transformer）等，它们在大量文本数据上进行预训练，然后在特定任务上进行微调。

6）机器学习算法：包括监督学习、无监督学习和强化学习等，用于训练NLP模型。

7）规则基础系统：使用语言学规则和启发式方法来处理语言。

这里可以着重给大家介绍一下非常常见的BERT。BERT（Bidirectional Encoder Representations from Transformers）是由Google在2018年提出的一种预训练语言表示模型，它在自然语言处理（NLP）领域取得了革命性的进展。BERT的核心特点在于其双向训练机制，能够通过大量无标签文本数据学习深层次的双向语言表示。

BERT模型的架构基于Transformer的编码器（Encoder）部分，由多层Transformer编码器堆叠而成。在较小的BERT模型中，包含12个编码器层，每个层有12个注意力头，词向量维度为768；而在较大的模型中，则包含24个编码器层，每个层有16个注意力头，词向量维度为1024。BERT的输入是三种嵌入的总和：WordPiece嵌入、位置嵌入和段落（Segment）嵌入。其中，WordPiece嵌入是对单词的表示，位置嵌入提供序列中单词位置的信息，段落嵌入则用于区分不同的句子或段落。

BERT的预训练包括两个主要任务：

1. Masked Language Model (MLM)：在这一任务中，模型随机掩盖输入句子中的一些单词，然后尝试预测这些被掩盖的单词。在实际训练中，15%的单词会被掩盖，其中80%被替换为特殊的[MASK]标记，10%被随机替换为其他单词，剩余10%保持不变。

2. Next Sentence Prediction (NSP)：这一任务要求模型预测两个句子是否是顺序的关系，即第二个句子是否是第一个句子的下文。这有助于模型学习句子间的关系。

BERT的预训练过程使其能够捕捉到丰富的语言模式和关系，这使得它在微调（Fine-tuning）阶段能够适应各种NLP任务，如文本分类、命名实体识别、问答系统等。微调过程中，BERT模型的权重会根据特定任务的数据进行调整，以提高任务性能。

BERT模型的成功在于其能够通过预训练学习到深层次的语言表示，这些表示包含了丰富的语义和句法信息。此外，BERT的双向训练机制使其能够更好地理解单词的上下文含义，从而在各种NLP任务中取得了显著的性能提升。

好啦，今日知识点普及就到这，下面给大家带来最近的AI新闻~

基于昇腾AI大集群，运营商伙伴基于昇思MindSpore AI框架成功实现了Llama3.1-405B大模型的训练。数据显示，本次模型训练性能与原生方案持平，训练效率及稳定性显著提升，展示了昇腾AI处理器与昇思AI框架软硬结合的强大能力。根据公开报道，Llama3.1-405B原生训练耗时持续54天，累计发生419次故障，平均每3小时产生一次，模型训练耗时长、稳定性要求高，如何优化训练性能、提升执行效率，同时提升稳定性，成为加速模型训练、提升模型精度的关键。面向训得快、训得稳等需求，昇思MindSpore提供了大模型开发套件、多维混合分布式并行、断点续训等能力，支持Llama3.1-405B又快又稳训练。
李飞飞首次创业成立的空间智能公司终于官宣了，致力于构建大世界模型（LWM）来感知、生成3D世界并与之交互。World Labs公告中也指出，他们的首要目标是开发空间智能大世界模型（LWM），该模型可以从图像和其他模态理解、推理3D世界。未来，他们还期望训练出具有更广泛功能的模型，让这些模型在各个领域“和人们一起工作”。
腾讯推出游戏视频模型GameGen-O，AI一键生成《黑神话·悟空》3A大作，该模型是一个专门生成开放世界视频游戏的Transformer模型。简单说，这个模型能够模拟各种游戏引擎功能，生成游戏角色、动态环境、复杂动作等等。当然也支持交互控制，用户可以通过文本、操作信号和视频提示来控制游戏内容。
MagicLab机器人公司MagicLab的人形机器人更多技能技巧被摆到台前。除了在咖啡馆中进行高精度自主咖啡拉花，它还能为工厂员工分发夜宵、在室内外场景担任领路员。甚至能遛狗。该公式专注于通用机器人技术和AI技术，人形机器人只是它们产品线里的一员，仿生四足机器人、工业四足机器人、通用人形机器人等，都是这家公司计划中的一部分。瞄准的落地场景也很广泛，覆盖家庭、工业、商业等。
OpenAI用o1开启推理算力Scaling Law，能走多远？数学证明来了：没有上限。斯隆奖得主马腾宇以及Google Brain推理团队创建者Denny Zhou联手证明，只要思维链足够长，Transformer就可以解决任何问题！他们证明了Transformer有能力模拟任意多项式大小的数字电路，用网友的话来说，CoT的集成缩小了Transformer与图灵机之间的差距，为Transformer实现图灵完备提供了可能，也就是说神经网络理论上可以高效解决复杂问题。
开源版「Her」Moshi再引关注！Moshi是一款端到端实时音频模型，由一家法国创业团队Kyutai发布。不仅人人免费可玩，而且Moshi的代码、技术报告都已开源。发布的3个模型分别是Moshiko、Moshika，以及Mimi流语音编解码器。官方自称，他们对生成音频的主要贡献是多流建模技术（multi-stream modeling）。另外内心独白技术（Inner Monologue），它进一步提高了生成语音的质量，通过预测时间对齐的文本来增强Moshi的智能性，同时保持与流媒体的兼容性。
9月 19 日，在2024杭州云栖大会上，随着通义大模型能力的全面提升，阿里云通义灵码迎来重磅升级。从一年前只能完成基础的辅助编程任务，进化到几句话就能完成需求理解、任务拆解、代码编写、修改BUG、测试等开发任务，最快几分钟可从0到1完成应用开发，提升数十倍开发效率。例如，真人程序员手动开发一个网页，通常需要1天的时间完成需求分解、写代码、测试等任务；现在，人类只需要输入需求，通义灵码5分钟就能完成整个过程。
香港大学发布最新研究成果：智能交通大模型OpenCity。该模型根据参数大小分为OpenCity-mini、OpenCity-base和OpenCity-Pro三个模型版本，显著提升了时空模型的零样本预测能力，增强了模型的泛化能力。该模型结合了Transformer和图神经网络技术，以捕捉交通数据中的复杂时空关联。
去年12月，Nature就刊登了一篇研究，可以用LLM预测一个人生活中即将发生的事件，就像预测句子中的next token一样。AI安全中心总监Dan Hendrycks联合加州大学伯克利分校的研究人员，开发了一个更强大的系统FiveThirtyNine，预测更宏观的社会事件，比如「Trump能否赢得2024年大选」。Nate Silver最新预测：Trump有64%的获胜几率。
继OpenAI在5月发布会上展示「期货」GPT-4o的语音功能后，「AI语音助手」类的产品又成为了硅谷科技巨头的必争之地。紧跟着OpenAI开发布会的谷歌也马上宣布——Gemini将推出语音聊天模式Gemini Live。类似GPT-4o，Gemini Live不仅能实现随时打断的对话式交流，还有对设备屏幕的感知能力，可以实时解释用户的屏幕或视频信息。

本期分享到此结束，所以大家可以在沙发留言详细介绍一下人工智能相关的其他介绍吗？或者直接发个技术干货也没毛病！审核通过有奖哦~

学习

核心框架

大模型套件

科学计算套件

领域套件

工具

模型库

生态资源

技术学习

专区

社区组织

贡献与成长

开发者活动

互动交流

活动

动态

Open AI又出王炸！黄金时代新增o1模型猛将！（资讯更新系列）

Open AI又出王炸！黄金时代新增o1模型猛将！（资讯更新系列）