Open AI又出王炸!黄金时代新增o1模型猛将!(资讯更新系列)
Open AI又出王炸!黄金时代新增o1模型猛将!(资讯更新系列)
A:Hello,小麦(小Mi),请播报近期AI类新闻
B:1.OpenAI 发布 o1 模型具备类似人类的推理能力,大模型已经达到人类博士水平
A:已达博士水平?这就是传说中的“straberry”吗?
B:没错!OpenAI传说中的“草莓”不仅可以胜任更复杂的推理任务,在数学、代码和其他科学领域也能解决更难的问题。
为了帮助大家更好地了解人工智能世界,MindSpore坛主决定这个资讯更新系列在给大家普及大事件新闻的同时,帮助大家更多地熟悉一些基础知识点,每次都能学到新的东西~~
众所周知,人工智能(AI)是一个广泛的领域,涵盖了多个子领域和应用,其中就包括自然语言处理(NLP)。所以很明显,今天介绍下NLP~~
自然语言处理(Natural Language Processing,简称NLP)是人工智能和语言学领域的一个分支,它致力于使计算机能够理解、解释、生成和处理人类语言。NLP的目标是缩小人类语言和计算机之间的差距,使计算机能够执行以下任务:
1、语言理解:使计算机能够理解自然语言的意图、情感和语境。
2、语言生成:使计算机能够生成自然语言,以进行有效的沟通。
3、语言翻译:使计算机能够将一种语言翻译成另一种语言。
4、信息抽取:从文本中提取有用的信息,如实体、关系、事件等。
5、文本分类:将文本自动分类到预定义的类别中。
6、情感分析:分析文本中表达的情感倾向,如积极、消极或中性。
7、问答系统:构建能够回答用户问题的系统。
8、文本摘要:生成文本的简短摘要,保留关键信息。
9、语音识别:将语音转换为文本。
10、语音合成:将文本转换为语音。
NLP的关键技术和方法包括:
1)词嵌入(Word Embeddings):将单词转换为向量形式,以捕捉单词之间的语义关系。
2)序列模型:处理文本数据的时间序列特性,如循环神经网络(RNN)、长短期记忆网络(LSTM)和门控循环单元(GRU)。
3)注意力机制(Attention Mechanisms):使模型能够关注输入序列中的特定部分。
4)Transformer模型:一种基于自注意力机制的模型,用于处理序列数据,广泛应用于翻译、文本生成等任务。
5)预训练语言模型:如BERT(Bidirectional Encoder Representations from Transformers)、GPT(Generative Pre-trained Transformer)等,它们在大量文本数据上进行预训练,然后在特定任务上进行微调。
6)机器学习算法:包括监督学习、无监督学习和强化学习等,用于训练NLP模型。
7)规则基础系统:使用语言学规则和启发式方法来处理语言。
这里可以着重给大家介绍一下非常常见的BERT。BERT(Bidirectional Encoder Representations from Transformers)是由Google在2018年提出的一种预训练语言表示模型,它在自然语言处理(NLP)领域取得了革命性的进展。BERT的核心特点在于其双向训练机制,能够通过大量无标签文本数据学习深层次的双向语言表示。
BERT模型的架构基于Transformer的编码器(Encoder)部分,由多层Transformer编码器堆叠而成。在较小的BERT模型中,包含12个编码器层,每个层有12个注意力头,词向量维度为768;而在较大的模型中,则包含24个编码器层,每个层有16个注意力头,词向量维度为1024。BERT的输入是三种嵌入的总和:WordPiece嵌入、位置嵌入和段落(Segment)嵌入。其中,WordPiece嵌入是对单词的表示,位置嵌入提供序列中单词位置的信息,段落嵌入则用于区分不同的句子或段落。

BERT的预训练包括两个主要任务:
1. Masked Language Model (MLM):在这一任务中,模型随机掩盖输入句子中的一些单词,然后尝试预测这些被掩盖的单词。在实际训练中,15%的单词会被掩盖,其中80%被替换为特殊的[MASK]标记,10%被随机替换为其他单词,剩余10%保持不变。
2. Next Sentence Prediction (NSP):这一任务要求模型预测两个句子是否是顺序的关系,即第二个句子是否是第一个句子的下文。这有助于模型学习句子间的关系。
BERT的预训练过程使其能够捕捉到丰富的语言模式和关系,这使得它在微调(Fine-tuning)阶段能够适应各种NLP任务,如文本分类、命名实体识别、问答系统等。微调过程中,BERT模型的权重会根据特定任务的数据进行调整,以提高任务性能。
BERT模型的成功在于其能够通过预训练学习到深层次的语言表示,这些表示包含了丰富的语义和句法信息。此外,BERT的双向训练机制使其能够更好地理解单词的上下文含义,从而在各种NLP任务中取得了显著的性能提升。
好啦,今日知识点普及就到这,下面给大家带来最近的AI新闻~
- 基于昇腾AI大集群,运营商伙伴基于昇思MindSpore AI框架成功实现了Llama3.1-405B大模型的训练。数据显示,本次模型训练性能与原生方案持平,训练效率及稳定性显著提升,展示了昇腾AI处理器与昇思AI框架软硬结合的强大能力。根据公开报道,Llama3.1-405B原生训练耗时持续54天,累计发生419次故障,平均每3小时产生一次,模型训练耗时长、稳定性要求高,如何优化训练性能、提升执行效率,同时提升稳定性,成为加速模型训练、提升模型精度的关键。面向训得快、训得稳等需求,昇思MindSpore提供了大模型开发套件、多维混合分布式并行、断点续训等能力,支持Llama3.1-405B又快又稳训练。
- 李飞飞首次创业成立的空间智能公司终于官宣了,致力于构建大世界模型(LWM)来感知、生成3D世界并与之交互。World Labs公告中也指出,他们的首要目标是开发空间智能大世界模型(LWM),该模型可以从图像和其他模态理解、推理3D世界。未来,他们还期望训练出具有更广泛功能的模型,让这些模型在各个领域“和人们一起工作”。
- 腾讯推出游戏视频模型GameGen-O,AI一键生成《黑神话·悟空》3A大作,该模型是一个专门生成开放世界视频游戏的Transformer模型。简单说,这个模型能够模拟各种游戏引擎功能,生成游戏角色、动态环境、复杂动作等等。当然也支持交互控制,用户可以通过文本、操作信号和视频提示来控制游戏内容。
- MagicLab机器人公司MagicLab的人形机器人更多技能技巧被摆到台前。除了在咖啡馆中进行高精度自主咖啡拉花,它还能为工厂员工分发夜宵、在室内外场景担任领路员。甚至能遛狗。该公式专注于通用机器人技术和AI技术,人形机器人只是它们产品线里的一员,仿生四足机器人、工业四足机器人、通用人形机器人等,都是这家公司计划中的一部分。瞄准的落地场景也很广泛,覆盖家庭、工业、商业等。
- OpenAI用o1开启推理算力Scaling Law,能走多远?数学证明来了:没有上限。斯隆奖得主马腾宇以及Google Brain推理团队创建者Denny Zhou联手证明,只要思维链足够长,Transformer就可以解决任何问题!他们证明了Transformer有能力模拟任意多项式大小的数字电路,用网友的话来说,CoT的集成缩小了Transformer与图灵机之间的差距,为Transformer实现图灵完备提供了可能,也就是说神经网络理论上可以高效解决复杂问题。
- 开源版「Her」Moshi再引关注!Moshi是一款端到端实时音频模型,由一家法国创业团队Kyutai发布。不仅人人免费可玩,而且Moshi的代码、技术报告都已开源。发布的3个模型分别是Moshiko、Moshika,以及Mimi流语音编解码器。官方自称,他们对生成音频的主要贡献是多流建模技术(multi-stream modeling)。另外内心独白技术(Inner Monologue),它进一步提高了生成语音的质量,通过预测时间对齐的文本来增强Moshi的智能性,同时保持与流媒体的兼容性。
- 9月 19 日,在2024杭州云栖大会上,随着通义大模型能力的全面提升,阿里云通义灵码迎来重磅升级。从一年前只能完成基础的辅助编程任务,进化到几句话就能完成需求理解、任务拆解、代码编写、修改BUG、测试等开发任务,最快几分钟可从0到1完成应用开发,提升数十倍开发效率。例如,真人程序员手动开发一个网页,通常需要1天的时间完成需求分解、写代码、测试等任务;现在,人类只需要输入需求,通义灵码5分钟就能完成整个过程。
- 香港大学发布最新研究成果:智能交通大模型OpenCity。该模型根据参数大小分为OpenCity-mini、OpenCity-base和OpenCity-Pro三个模型版本,显著提升了时空模型的零样本预测能力,增强了模型的泛化能力。该模型结合了Transformer和图神经网络技术,以捕捉交通数据中的复杂时空关联。
- 去年12月,Nature就刊登了一篇研究,可以用LLM预测一个人生活中即将发生的事件,就像预测句子中的next token一样。AI安全中心总监Dan Hendrycks联合加州大学伯克利分校的研究人员,开发了一个更强大的系统FiveThirtyNine,预测更宏观的社会事件,比如「Trump能否赢得2024年大选」。Nate Silver最新预测:Trump有64%的获胜几率。
- 继OpenAI在5月发布会上展示「期货」GPT-4o的语音功能后,「AI语音助手」类的产品又成为了硅谷科技巨头的必争之地。紧跟着OpenAI开发布会的谷歌也马上宣布——Gemini将推出语音聊天模式Gemini Live。类似GPT-4o,Gemini Live不仅能实现随时打断的对话式交流,还有对设备屏幕的感知能力,可以实时解释用户的屏幕或视频信息。
本期分享到此结束,所以大家可以在沙发留言详细介绍一下人工智能相关的其他介绍吗?或者直接发个技术干货也没毛病!审核通过有奖哦~