国内大模型领域进入乱战时代

  • 2023.4.12
  • 版权声明:本文为博主chszs的原创文章,未经博主允许不得转载。

什么是大模型

大模型,又称为预训练模型、基础模型等,是指模型参数数量很大,需要大量计算资源才能训练的深度学习模型。这些模型通常包括数千万甚至数百亿、数千亿个参数,其中常见的大模型包括BERT、GPT、ResNet等。

大模型的优点在于它们可以更好地学习数据中的复杂特征,从而提高模型的准确性和泛化能力。然而,由于这些模型需要大量计算资源来训练,因此它们的训练时间往往非常长,需要使用大量的计算资源,如GPU或TPU。

为了训练大模型,需要使用高性能计算机或云计算平台。这些平台可以提供大量的计算资源,从而加速训练过程。此外,还需要使用优化算法和技术,如分布式训练、混合精度训练、梯度累积等,以提高训练效率和准确性。

国内大模型的现状

截止2023年4月上旬,国内已有很多家公司发布/或预发布大模型。我搜集了大部分数据,根据宣布时间排序,大致情况如下:

  1. OpenAI的GPT-3.5/4(国外)
  2. Google的Bard(国外)
  3. 百度的文心一言
  4. 华为的大模型盘古
  5. 清华大学发布大模型ChatGLM,开启内侧
  6. 阿里发布大模型通义千问
    • 阿里达摩院上线“文本生成视频大模型”:目前仅支持英文输入,已开放试玩
    • 蚂蚁集团与清华大学签署合作协议,将合作研究“安全通用大模型”和“下一代互联网应用安全技术”
  7. 商汤科技发布多模态多任务通用大模型“书生2.5”,迈向AGI通用人工智能
  8. 360宣布:基于360GPT大模型开发的人工智能产品矩阵“360智脑”率先落地搜索场景,将面向企业用户开放内测
  9. 科大讯飞:将于5月6日发布“1+N认知智能大模型”及应用产品
  10. 毫末智行推出全球首个自动驾驶认知大模型DriveGPT,4月公布最新进展
  11. 商汤科技推出“日日新SenseNova”大模型体系,发布自研中文语言大模型应用平台“商量SenseChat”
  12. 昆仑万维:即将发布国产大语言模型“天工”3.5,将于4月17日启动邀请测试
  13. 有赞上线大模型驱动AI产品“加我智能”,支持图文推广和活动策划两大场景
  14. 腾讯混元系列AI大模型还在研发中
  15. 字节跳动组建大模型团队:朱文佳带队,搜索、智创两部门牵头。
  16. 搜狗创始人王小川宣布开启人工智能大模型领域创业:成立新公司“百川智能”,已获得5000万美元启动资金
  17. 京东陆续发布了10亿级的K-plug模型、百亿级的Vega模型等一系列领先的大模型,并拟于今年发布千亿级的言犀大模型。
  18. 达观数据研发“曹植”大语言模型,致力于国产GPT模型
  19. 澜舟科技完成数亿元融资,推出孟子MChat可控大模型
  20. 复旦大学研发MOSS大模型,拟4月中旬开源
  21. 中科院自动化研发紫东太初大模型,能够实现视觉、文本、语音三个模态间的高效协同,性能全球领先。
  22. 北京智源人工智能研究院发布万亿参数的超大规模智能模型“悟道2.0”

于此同时

郭嘉对擅自提供ChatGPT访问服务的公司和个人进行了打击。
chatgpt服务

一些预测

  1. 一拥而上的大模型,带来的结果会是:伴随用户试用过程中的嘲笑/调侃而慢慢退出市场(有ChatGPT行业标杆的衬托),丢人丢面。
  2. 垂直行业类的大模型在专门的领域内有超越ChatGPT的可能(专业vs通用),满足行业用户的需求而长期存在。
  3. 随着资本的涌入,追赶OpenAI的步伐会加快,但中短期内缩小不了差距*(年底GPT-5就会发布)。
  4. 乱战时代存活下来的头部企业能喝汤,其它公司的投入打水漂。
Logo

华为开发者空间,是为全球开发者打造的专属开发空间,汇聚了华为优质开发资源及工具,致力于让每一位开发者拥有一台云主机,基于华为根生态开发、创新。

更多推荐