紫东太初

简述

紫东.太初是中科院自动化所与MindSpore社区联合打造的全球首个图、文、音三模态大模型。紫东.太初将文本 + 视觉 + 语音 各个模型高效协同,实现超强性能,在图文跨模态理解与生成性能上都能领先目前业界的SOTA模型,高效完成跨模态检测、视觉问答、语义描述等下游任务。此外,视频理解与描述的性能更是实现了全球第一,在今年的两个国际大赛中,ACM Multimedia(国际多媒体大会) 和ICCV(国际计算机视觉大会)紫东太初都获得了第一名的成绩。

紫东.太初的发布将改变当前单一模型对应单一任务的人工智能研发范式,实现三模态图文音的统一语义表达,大幅提升文本、语音、图像和视频等领域的基础任务性能,并在多模态内容的理解、搜索、推荐和问答,语音识别和合成,人机交互和无人驾驶等商业应用中具有潜力巨大的市场价值。

全球首个三模态大模型“紫东.太初”——助力科研创新与应用孵化

以文生图

以图生音

以音生图

演示视频

紫东太初

全球首个三模态大模型