01、引言

无论是近期自己在研习大模型及其应用的过程中,还是在与相关专业人士交流时,关于大模型私有化部署的讨论并不少见:

在这里插入图片描述
在OpenAI的官方文档中,也将微调(fine-tuning)列作其文本生成模型的能力之一:

在这里插入图片描述
在使用百度千帆大模型平台的过程中,也能看到大模型调优的服务/功能支持:

在这里插入图片描述
想来对于这个话题,屏幕前的你也一样,或多或少有所好奇,又或者正在实践之中。

私有化部署大模型产品以及进行行业版/企业版微调或领域知识增强,本质上是为了实现两个主要目标:

  • 增强数据安全与隐私保护: 在当前的数字化时代,数据安全和隐私保护已成为企业面临的重要挑战之一。私有化部署允许企业将AI模型部署在内部服务器或私有云环境中,这样可以更好地控制数据的存储和处理,避免敏感信息泄露给第三方或公有云服务提供商。此外,私有化部署还使企业能够遵守地域性数据保护法规。
  • 提高模型的针对性和有效性:通用AI模型虽然在多个领域都有不错的表现,但往往缺乏对特定行业或企业独特需求的深入理解。通过行业版或企业版的微调/领域知识增强,可以将模型训练或调整以适应特定的业务场景和数据特点,如使用特定行业的术语、处理行业特有的交互模式等。这种针对性的优化可以显著提高模型在特定应用场景中的性能,如提高客服对话系统在银行或保险领域的准确率和用户满意度。

微调 OpenAI 文本生成模型可以使它们更好地用于特定应用程序,但这需要仔细投入时间和精力。

OpenAI

那么,什么是大模型的私有化/精调?怎样进行大模型的私有化/精调?

本文试图给出初步的答案,请随我一同探索一番。

02、基本概念

什么是大模型私有化

大模型私有化(Model Private Deployment)指的是将预训练的大型人工智能模型(如GPT、BERT等)部署到企业自己的硬件环境或私有云平台上。与公有云服务或模型即服务(Model-as-a-Service)相比,私有化部署能够给企业带来更高级别的数据安全性和自主控制能力。

在这里插入图片描述
在这里插入图片描述
对数据隐私和安全要求高、需要自主控制AI模型运行环境的企业而言,或者在特定地理位置因法律法规限制不能使用公有云服务的情况下,这种需求是确实存在的。而且可能是中国的“国情”如此,想要私有化的诉求相比欧美的企业的比例会更高(纯个人看法)。

出于数据隐私和安全的考虑,特别是对于那些处理敏感信息的企业,如金融、医疗等行业。私有化部署确保了数据在本地处理,避免了数据传输过程中的泄露风险,同时也帮助企业符合严格的数据保护法规。

这个概念和将企业的应用部署在公有云、私有云还是本地机房上,其实道理是一样的。所以我想不需要过多赘述。

什么是大模型精调

类似于GPT、GLM、Gemini、Llama、Baichuan、ERNIE等这样的通用的预训练大模型,通常基于广泛的公开文献和网络信息训练,缺乏许多专业知识和行业数据的积累,因此在行业针对性和精准度方面存在不足。

在这里插入图片描述
在这里插入图片描述
精调(也称微调,Model Fine-Tuning)是在预训练的大型AI模型基础上,通过在特定任务上的进一步训练,使模型更好地适应特定的应用场景或数据集。这个过程涉及使用较小的、特定领域的数据集对模型进行再训练,以调整模型参数,提高其在特定任务上的表现。

通过精调,可以将通用的大模型优化为更适合企业特定需求的模型,如提高在特定行业术语理解、客户交流中的准确率等。这不仅能够提升用户体验,还能够提高业务效率和效果。
精调适用于几乎所有希望利用AI模型解决具体业务问题的场景,包括但不限于客户服务自动化、内容推荐、情感分析、文档自动审核等。
既然说到这里,就插个题外话,一些要自研和训练通用大模型的厂商不仅缺乏专业知识和行业数据,也缺通用知识,所以“卖数据”也是一门好生意:

国内开始大模型竞赛开始后,八友科技是第一波获益的企业之一,很多客户找到梁斌购买数据进行模型训练。“大模型客户购买我们的数据就是用硬盘拷贝数据,对我们来说成本很低,原来堆在仓库不值钱的东西一下子就值钱了。”梁斌透露,公司目前已经有50多个大模型客户,客单价约在50万至60万元,目前公司大模型数据销售收入已接近3000万元。

模型从通用到定制化

回归到大模型精调本身,如果从适用性的角度出发,我自己理解可以按照“通用大模型→行业大模型→企业大模型”这样分层递进的方式来划分,以反映模型应用的深度和专业化程度的增加:

通用大模型(General-Purpose Models):这一层次保持不变,指的是具有广泛通用能力的模型,适用于多种基础任务和领域。我们所熟知的GPT无疑就是其中的佼佼者:

在这里插入图片描述
行业大模型(Industry-Specific Models)或领域专用大模型(Domain-Specific Models):针对医疗、法律或教育等特定领域,又或者银行业、保险业、制造业、电商业等特定行业的需求,进行更深入的优化和定制,这一层次的模型相比通用大模型,具有更专业的行业/领域知识,能够更好地处理领域内的特定问题,理解并应对行业特有的挑战和需求。比如:

  • BioBERT:一个专为生物医学文献搜索和分析优化的BERT模型。通过在生物医学文献上的进一步训练,BioBERT能够更准确地理解医学术语和概念,广泛应用于疾病关联分析、药物发现等研究领域。

在这里插入图片描述

  • chatLaw:一个开源法律大型语言模型,使用大量法律新闻、法律论坛、法条、司法解释、法律咨询、法考题、判决文书等原始文本来构造对话数据

在这里插入图片描述

  • 子曰大模型:网易有道团队推出的、定位为“场景为先”的教育垂类大模型,能够作为基座模型支持诸多下游任务,向所有下游场景提供语义理解、知识表达等基础能力,针对教育场景下的各个应用,包括口语教练、家庭老师、文档助手等都做了相应的适配和增强。

在这里插入图片描述

  • EcomGPT:达摩院NLP团队为了提高模型在电商任务上的泛化能力推出的电商领域大模型,其构造了一个电商指令数据集EcomInstruct,包括122个训练任务/数据集(held-in),约150万条数据,以及12个评估任务(held-out):

在这里插入图片描述
在这里插入图片描述

  • BloombergGPT:一个 500 亿参数的语言模型,支持金融行业内的各种任务。彭博的研究人员开创了一种混合训练法,将金融数据与通用数据集结合起来训练模型,以达到在金融基准上取得最佳结果,同时在通用LLM基准上也保持足够的竞争力。例如它可以用于生成 Bloomberg 查询语言:

在这里插入图片描述

  • LightGPT:恒生电子自主研发的专为金融领域打造的大语言模型。基于海量金融数据训练而来,对金融相关问题的理解比通用大模型更有优势。2000亿中文tokens的加持,80+中文金融任务的打磨,金融多领域应用场景覆盖,更专业;学习中国的金融法律法规,更符合中国金融市场的监管要求;支持私有化/云部署,支持API调用,推理端仅需一机两卡部署:

在这里插入图片描述

  • 盘古金融大模型:华为在盘古大模型100多种模型能力之上,通过五类金融数据注入千亿级的金融Tokens;与金融机构和伙伴共创,沉淀上千个细分场景模板;融合了100多个行业标准、规范等行业知识库;构建了数据、模型、内容等全流程安全合规能力,打造面向金融行业的大模型。

在这里插入图片描述

  • 轩辕大模型:百度(度小满团队)在1760亿参数的BLOOM大模型基础上训练而来,在金融名词理解、金融市场评论、金融数据分析和金融新闻理解等任务上,效果相较于通用大模型大幅提升,表现出明显的金融领域优势。为了提升轩辕大模型对金融领域问题的理解能力,度小满将自身业务中积累的金融领域的千亿tokens的中文预训练数据集用来训练模型。该数据集涵盖了金融研报、股票、基金、银行、保险等各个方向的专业知识。

在这里插入图片描述

  • CodeGeeX和GitHub Copilot:编程领域的专用大模型产品,专注于编程和软件开发领域,它们理解和生成代码,帮助开发者提高效率和创新,在特定任务(如代码生成、补全、优化)上有着很强的专业化能力:

在这里插入图片描述
在之前的文章中,例如AI+BI、AI+智能客服的应用,本质上也可以理解为领域大模型(面向特定应用场景的任务支持)。

在这里插入图片描述

为什么要学AI大模型?

2024人工智能大模型的技术岗位与能力培养随着人工智能技术的迅速发展和应用 , 大模型作为其中的重要组成部分 , 正逐渐成为推动人工智能发展的重要引擎 。大模型以其强大的数据处理和模式识别能力, 广泛应用于自然语言处理 、计算机视觉 、 智能推荐等领域 ,为各行各业带来了革命性的改变和机遇 。

大模型岗位需求

大模型时代,企业对人才的需求变了,AIGC相关岗位人才难求,薪资持续走高,AI运营薪资平均值约18457元,AI工程师薪资平均值约37336元,大模型算法薪资平均值约39607元。
在这里插入图片描述

掌握大模型技术你还能拥有更多可能性

• 成为一名全栈大模型工程师,包括Prompt,LangChain,LoRA等技术开发、运营、产品等方向全栈工程;

• 能够拥有模型二次训练和微调能力,带领大家完成智能对话、文生图等热门应用;

• 薪资上浮10%-20%,覆盖更多高薪岗位,这是一个高需求、高待遇的热门方向和领域;

• 更优质的项目可以为未来创新创业提供基石。

如何学习大模型 AI ?

由于新岗位的生产效率,要优于被取代岗位的生产效率,所以实际上整个社会的生产效率是提升的。

但是具体到个人,只能说是:

“最先掌握AI的人,将会比较晚掌握AI的人有竞争优势”。

这句话,放在计算机、互联网、移动互联网的开局时期,都是一样的道理。

我在一线互联网企业工作十余年里,指导过不少同行后辈。帮助很多人得到了学习和成长。

我意识到有很多经验和知识值得分享给大家,也可以通过我们的能力和经验解答大家在人工智能学习中的很多困惑,所以在工作繁忙的情况下还是坚持各种整理和分享。但苦于知识传播途径有限,很多互联网行业朋友无法获得正确的资料得到学习提升,故此将并将重要的AI大模型资料包括AI大模型入门学习思维导图、精品AI大模型学习书籍手册、视频教程、实战学习等录播视频免费分享出来。

在这里插入图片描述

第一阶段(10天):初阶应用

该阶段让大家对大模型 AI有一个最前沿的认识,对大模型 AI 的理解超过 95% 的人,可以在相关讨论时发表高级、不跟风、又接地气的见解,别人只会和 AI 聊天,而你能调教 AI,并能用代码将大模型和业务衔接。

  • 大模型 AI 能干什么?
  • 大模型是怎样获得「智能」的?
  • 用好 AI 的核心心法
  • 大模型应用业务架构
  • 大模型应用技术架构
  • 代码示例:向 GPT-3.5 灌入新知识
  • 提示工程的意义和核心思想
  • Prompt 典型构成
  • 指令调优方法论
  • 思维链和思维树
  • Prompt 攻击和防范

第二阶段(30天):高阶应用

该阶段我们正式进入大模型 AI 进阶实战学习,学会构造私有知识库,扩展 AI 的能力。快速开发一个完整的基于 agent 对话机器人。掌握功能最强的大模型开发框架,抓住最新的技术进展,适合 Python 和 JavaScript 程序员。

  • 为什么要做 RAG
  • 搭建一个简单的 ChatPDF
  • 检索的基础概念
  • 什么是向量表示(Embeddings)
  • 向量数据库与向量检索
  • 基于向量检索的 RAG
  • 搭建 RAG 系统的扩展知识
  • 混合检索与 RAG-Fusion 简介
  • 向量模型本地部署

第三阶段(30天):模型训练

恭喜你,如果学到这里,你基本可以找到一份大模型 AI相关的工作,自己也能训练 GPT 了!通过微调,训练自己的垂直大模型,能独立训练开源多模态大模型,掌握更多技术方案。

到此为止,大概2个月的时间。你已经成为了一名“AI小子”。那么你还想往下探索吗?

  • 为什么要做 RAG
  • 什么是模型
  • 什么是模型训练
  • 求解器 & 损失函数简介
  • 小实验2:手写一个简单的神经网络并训练它
  • 什么是训练/预训练/微调/轻量化微调
  • Transformer结构简介
  • 轻量化微调
  • 实验数据集的构建

第四阶段(20天):商业闭环

对全球大模型从性能、吞吐量、成本等方面有一定的认知,可以在云端和本地等多种环境下部署大模型,找到适合自己的项目/创业方向,做一名被 AI 武装的产品经理。

  • 硬件选型
  • 带你了解全球大模型
  • 使用国产大模型服务
  • 搭建 OpenAI 代理
  • 热身:基于阿里云 PAI 部署 Stable Diffusion
  • 在本地计算机运行大模型
  • 大模型的私有化部署
  • 基于 vLLM 部署大模型
  • 案例:如何优雅地在阿里云私有部署开源大模型
  • 部署一套开源 LLM 项目
  • 内容安全
  • 互联网信息服务算法备案

学习是一个过程,只要学习就会有挑战。天道酬勤,你越努力,就会成为越优秀的自己。

如果你能在15天内完成所有的任务,那你堪称天才。然而,如果你能完成 60-70% 的内容,你就已经开始具备成为一名大模型 AI 的正确特征了。

这份完整版的大模型 AI 学习资料已经上传CSDN,朋友们如果需要可以微信扫描下方CSDN官方认证二维码免费领取【保证100%免费

在这里插入图片描述

Logo

华为开发者空间,是为全球开发者打造的专属开发空间,汇聚了华为优质开发资源及工具,致力于让每一位开发者拥有一台云主机,基于华为根生态开发、创新。

更多推荐