黄金时代持续疯狂输出，ChatGPT-4o升级版本闪亮登场~（资讯更新系列）

2024/05/31

基础知识

黄金时代持续疯狂输出，ChatGPT-4o升级版本闪亮登场~（资讯更新系列）

A：Hello，小麦（小Mi），请播报近期AI类新闻~

B：继ChatGPT 4.0之后，OpenAI推出ChatGPT-4o升级版本，并支持免费适用......

A：等等，新推的版本？小麦（小Mi），请详细介绍一下ChatGPT-4o。

B：o代表Omnimodel(代表全能模型之意)，ChatGPT-4o 旨在提供更加自然和高效的人机交互体验。和之前的版本相比，ChatGPT-4o 新特性支持多模态交互：不仅能够处理文本，还能同时接受音频和图像输入，并生成相应的输出；支持情感理解，可以通过分析用户的表情和语气，判断其情绪......

为了帮助大家更好地了解大模型，今天MindSpore论坛坛主将直接整期着重介绍大模型第一梯队主力军ChatGPT及其最新版本ChatGPT-4o~首先我们将根据其发布时间简单介绍下ChatGPT各版本信息。

ChatGPT是OpenAI开发的一种人工智能语言模型，它有几个不同的版本，每个版本都在前一个版本的基础上进行了改进和扩展。以下是目前已知的ChatGPT的版本：

1. GPT-1：这是最初的版本，使用了Transformer神经网络架构，并在大量文本数据上进行预训练。它采用了自回归模型来预测下一个词的出现概率，并使用beam search算法生成文本。

2. GPT-2：在GPT-1的基础上进行了改进，增加了更多的参数（从1.5亿增加到15亿），以提高性能。GPT-2能够生成更长的文本，更好地处理对话，并具有更好的通用性。

3. GPT-3：拥有1750亿个参数，能够非常准确地执行语言翻译、问答和自动文本摘要等任务。GPT-3是一个开放模型，可供用户访问并进行迭代和改进。

4. GPT-3.5：基于GPT-3模型的改进版，在结构和数据集上进行了优化，使得其在聊天任务上表现更好，目前访问ChatGPT官网可以免费使用该版本。

5. GPT-4：ChatGPT4使用了更深、更大的模型，比ChatGPT3.5具有更强的语言理解和生成能力。此外，ChatGPT4采用了一种新的预训练方式，使得其可以更好地学习上下文信息，并且可以更好地利用大规模数据集进行训练。

6. GPT-4o：OpenAI的一小步，人类”AI助理”的一大步。与现有模型相比，GPT-4o 的最大进步在于，它可以实时对音频、视觉和文本进行推理——换句话说，它让ChatGPT实现了真正意义上的多模态交互。

不难看出，目前疯狂被大家追捧的GPT版本一定是GPT-4o了！那么接下来MindSpore论坛论主就来好好带领大家了解一下GPT-4o的最新特性！

1）OpenAI发布了名为GPT-4o的新模型，其中"o"代表"Omni"，意味着全面或全体。GPT-4o是一个多模态模型，能够处理文字、语音、图片和视频，并且能够实时推理音频和视觉信息。

2）性能提升：GPT-4o在文本和代码能力上与GPT-4 Turbo相当，但在API响应速度上更快，价格更便宜50%。具体来说，速度提高了2倍，价格减半，限制速率提高了5倍。

3）响应快：基于GPT-4o的新ChatGPT（被称为Moss）在语音对话中几乎没有延迟，能够实时响应，甚至理解情绪和非语言的声音，如喘息和呼吸声。它还能够模拟不同的声音，包括机器人和唱歌的声音。

4）实时交互：能够进行直接的语音输入和输出，不再需要语音到文本的转换，5）视觉能力：还具备视觉能力，能够通过摄像头实时观察并理解所发生的事情。可以感知人的人的情绪，实时的和人对话。可以以视频的方式，感知我们写出来的数学题，并提供解决方式。同时，也可以辅助编程，简直是程序员的福音。

具体来说：

在5月14日的OpenAI春季发布会上，Mira Murati与团队成员Mark Chen和Barret Zoph共同展示了GPT-4o驱动的ChatGPT，突出了其在多种任务上的表现，特别是语音功能。简而言之，ChatGPT在搭载GPT-4o后，表现出了快速、全面和情感丰富的特点。用户在与ChatGPT交流时，可以随意打断对话，ChatGPT能够即时反应，避免了等待的尴尬。此外，当Mark表现出紧张和急促的呼吸时，ChatGPT能够察觉并建议他冷静下来，通过识别呼吸节奏来引导他进行深呼吸。

ChatGPT的即时翻译能力同样令人印象深刻，OpenAI团队在发布会上演示了英语和意大利语之间的无缝实时翻译，整个过程没有任何延迟。更有意思的是，ChatGPT在对话中不仅会使用情感丰富的语气词，还会与OpenAI团队进行幽默互动，表达感激之情。当它"看到"团队写下"I love ChatGPT"时，ChatGPT会以撒娇的语气回应，称赞他们”considerate”。

ChatGPT还具备与用户进行视频交流的能力。在一次演示中，Barret让ChatGPT尝试判断他的情绪状态。当他露出笑容时，ChatGPT立刻回应说："You look very happy, with a big smile on your face and a hint of excitement.(你看起来非常开心，笑容满面，还带着一丝激动)"。