国内大模型领域进入乱战时代

大模型，又称为预训练模型、基础模型等，是指模型参数数量很大，需要大量计算资源才能训练的深度学习模型。这些模型通常包括数千万甚至数百亿、数千亿个参数，其中常见的大模型包括BERT、GPT、ResNet等。大模型的优点在于它们可以更好地学习数据中的复杂特征，从而提高模型的准确性和泛化能力。然而，由于这些模型需要大量计算资源来训练，因此它们的训练时间往往非常长，需要使用大量的计算资源，如GPU或TPU。

chszs

1217人浏览 · 2023-04-12 09:22:59

chszs · 2023-04-12 09:22:59 发布

国内大模型领域进入乱战时代

2023.4.12
版权声明：本文为博主chszs的原创文章，未经博主允许不得转载。

什么是大模型

大模型，又称为预训练模型、基础模型等，是指模型参数数量很大，需要大量计算资源才能训练的深度学习模型。这些模型通常包括数千万甚至数百亿、数千亿个参数，其中常见的大模型包括BERT、GPT、ResNet等。

大模型的优点在于它们可以更好地学习数据中的复杂特征，从而提高模型的准确性和泛化能力。然而，由于这些模型需要大量计算资源来训练，因此它们的训练时间往往非常长，需要使用大量的计算资源，如GPU或TPU。

为了训练大模型，需要使用高性能计算机或云计算平台。这些平台可以提供大量的计算资源，从而加速训练过程。此外，还需要使用优化算法和技术，如分布式训练、混合精度训练、梯度累积等，以提高训练效率和准确性。

国内大模型的现状

截止2023年4月上旬，国内已有很多家公司发布/或预发布大模型。我搜集了大部分数据，根据宣布时间排序，大致情况如下：

OpenAI的GPT-3.5/4（国外）
Google的Bard（国外）
百度的文心一言
华为的大模型盘古
清华大学发布大模型ChatGLM，开启内侧
阿里发布大模型通义千问
- 阿里达摩院上线“文本生成视频大模型”：目前仅支持英文输入，已开放试玩
- 蚂蚁集团与清华大学签署合作协议，将合作研究“安全通用大模型”和“下一代互联网应用安全技术”
商汤科技发布多模态多任务通用大模型“书生2.5”，迈向AGI通用人工智能
360宣布：基于360GPT大模型开发的人工智能产品矩阵“360智脑”率先落地搜索场景，将面向企业用户开放内测
科大讯飞：将于5月6日发布“1+N认知智能大模型”及应用产品
毫末智行推出全球首个自动驾驶认知大模型DriveGPT，4月公布最新进展
商汤科技推出“日日新SenseNova”大模型体系，发布自研中文语言大模型应用平台“商量SenseChat”
昆仑万维：即将发布国产大语言模型“天工”3.5，将于4月17日启动邀请测试
有赞上线大模型驱动AI产品“加我智能”，支持图文推广和活动策划两大场景
腾讯混元系列AI大模型还在研发中
字节跳动组建大模型团队：朱文佳带队，搜索、智创两部门牵头。
搜狗创始人王小川宣布开启人工智能大模型领域创业：成立新公司“百川智能”，已获得5000万美元启动资金
京东陆续发布了10亿级的K-plug模型、百亿级的Vega模型等一系列领先的大模型，并拟于今年发布千亿级的言犀大模型。
达观数据研发“曹植”大语言模型，致力于国产GPT模型
澜舟科技完成数亿元融资，推出孟子MChat可控大模型
复旦大学研发MOSS大模型，拟4月中旬开源
中科院自动化研发紫东太初大模型，能够实现视觉、文本、语音三个模态间的高效协同，性能全球领先。
北京智源人工智能研究院发布万亿参数的超大规模智能模型“悟道2.0”