大模型创业领域与应用模式

国内AIGC创业领域

2023年AIGC创业领域，相关创业公司呈现出以下趋势:

与 2022 年受到 Stable Diffusion 和 ChatGPT 刺激后快速涌现出的生产力工具方向的创业公司不同，2023 年有更多比例的新公司聚焦在底层技术的创新上，更多大模型公司和 infra 工具链公司在以技术大拿为主的创始人主导下成立。反映在数据上，具体表现为聚焦在底层技术的创业公司占比从 14% 提升到了 29%，而生产力工具型的应用公司占比则从 65% 下降到 46%。此外，在生产力工具的方向上，不同于此前仅微调 Stable Diffusion 等开源模型的创业公司，最新涌现的创业公司往往由更高级别的AI 人才领导。

大模型创业公司开始分化，在通用大模型创业公司方兴未艾的同时，许多面向特定行业的垂直大模型公司开始出现，主要聚焦在医疗、电商、科研、工业、自动驾驶和机器人等方向。

具备行业属性的智能助手方向的创业企业开始增加，如求职、招聘、求学、法律、健康、购物、企业知识问答等方向的个人助手和员工助手方向的创业公司持续涌现，这代表着在经过一段时间对 ChatGPT、Stable Diffusion 的熟悉后，具备更强行业知识和资源的行业老炮型创始人逐渐进入生成式 AI 领域。

2022年到现在国内AIGC领域创业趋势从基于通用大模型搞各类应用开始逐渐转向垂直大模型和底层技术领域；

https://p6-juejin.byteimg.com/tos-cn-i-k3u1fbpfcp/2fab279a0bcc49748e8d3735ac479489~tplv-k3u1fbpfcp-jj-mark:0:0:0:0:q75.image#?w=1928&h=1156&s=439371&e=png&b=fdf6f4

通用大模型与垂直大模型

通用大模型

作为模型层公司代表的 OpenAI，2020 年发布的 1750 亿参数的 GPT-3 曾一度是 AI 历史上最大的机器学习模型，相比于 15 亿参数量的 GPT-2，GPT-3 参数量提高约 117 倍，预训练的数据量也从 50 GB 提高到 570 GB。2023 年 3 月，OpenAI 发布的 GPT-4 则再次扩展了深度学习的边界，结合多模态能力达到了里程碑式的效果，并在各种专业和学术基准上表现出可以与人类媲美的水平。可以说，GPT-3 打响了大模型竞争的第一枪，而 ChatGPT 和 GPT-4 的出现进一步加速了大模型主导权的竞争，是否拥有一个大语言模型底座对于大模型企业后续进一步优化出更好的模型至关重要。ChatGPT 是 OpenAI GPT-3.5 优化后的模型和产品化体现，其背后的技术从 2018 年的 GPT-1(2018)开始，逐渐经过GPT-2(2019)，GPT-3(2020)逐渐达到里程碑式的突破，此后 2 年内 GPT-3 又经过两次重要迭代，引入基于人类的反馈系统(RLHF)后形成 ChatGPT。从 ChatGPT 的发展可以看出，对于模型层公司来说，技术的演进极为重要，公司需要极强的技术掌舵人和融资能力来保障研发投入的稳定性。

此外，通过对海外市场的观察，当前大模型竞赛中，由高级别 AI 人才主导的创业公司更加领先，例如OpenAI, Anthropic 和 Cohere 等公司。同样，类似 Adept,Inflection 和 Character.ai 等公司以极快速度实现了极高的估值，也表明顶级的 AI 人才正在通过研发大模型来构建有壁垒的应用，以此参与到生成式 AI 领域的竞赛中，而市场也更青睐这些顶级 AI 人才创立的公司。

https://p3-juejin.byteimg.com/tos-cn-i-k3u1fbpfcp/c7f6e1129da64f04ace001766e0acf1f~tplv-k3u1fbpfcp-jj-mark:0:0:0:0:q75.image#?w=1914&h=1056&s=257761&e=png&b=ffffff

https://p9-juejin.byteimg.com/tos-cn-i-k3u1fbpfcp/f5d130b907e24da0bdf00d53fe955e60~tplv-k3u1fbpfcp-jj-mark:0:0:0:0:q75.image#?w=1856&h=902&s=694802&e=png&b=fcfafa

垂直大模型

垂直大模型企业往往不会作为模型提供商来存在，更多的是“自建大模型的垂直应用”的模式。除了创业公司以外，有兴趣研发垂直大模型的组织主要还有互联网公司、AI 1.0 企业和行业龙头等。对于自研垂直模型的企业，行业数据尤为重要，拥有高质量的行业数据和私有数据，是针对特定行业优化大模型表现的关键。以彭博自研的BloomBergGPT 为代表，金融行业数据超过了公开数据，占比达到 51%。因此，最终模型效果在很多在金融任务上有出色的表现。

目前构建面向垂直行业的模型有以下三种方式:

在已经完成训练的通用大模型基础上，结合大量自身的行业数据进行微调(fine-tuning)，在此之前是否对通用大模型进行蒸馏、后续是否外挂知识库则视情况而定。
通过改变数据的分布，结合更多特定行业的数据进行预训练，直接打造行业大模型。
通过自定义一种专属语言，并用(文本，专属语言)这样的 pair 对大模型进行 fine-tuning，并将生成的专属语言输入到自研的 AI 模型中，完成【用户输入 – 大模型 – 专属语言输出 – 自有 AI 模型 – 业务结果输出】的全过程。

大模型应用形态

目前大多数的基于大模型的应用不需要从头训练大模型，只需要直接利用底座模型的能力，叠加对于场景和行业的深刻理解，就可以支持相关业务。

根据 AI 能力来源及其占比，这些应用大致可以分为三类: