top of page

零贰壹研报|ChatGPT


本期分析师:

刘丛源

零贰壹研究院

资深分析师



前言


近期人工智能研究公司OpenAI推出的聊天机器人模型CHAT-GPT不断出圈,微软以290亿美元估值,向OpenAI投资100亿美元,一切均指向人工智能模型的新范式“生成式AI模型(Generative Model)。


此前的决策式AI模型(Discriminant Model)是根据已有数据进行分析、判断、预测,典型应用为内容的智能推荐(短视频)、自动驾驶等;而生成式AI更强调学习归纳后进行演绎创造,生成全新的内容,本质是对生产力的大幅度提升和创造,已催生了营销、设计、建筑和内容领域的创造性工作,并开始在生命科学、医疗、制造、材料科学、媒体、娱乐、汽车、航空航天进行初步应用,为各个领域带来巨大的生产力提升。


OpenAI


2019年,微软开始与OpenAI合作。到2021年,微软已经向OpenAI投资了10亿美元。而在2023年,微软又向OpenAI投资了100亿美元。

据微软宣布,其新的与OpenAI的合作计划将包括以下内容:

  • Supercomputing at scale

微软将增加对专业超级计算机系统的开发和部署的投资,以加速OpenAI在独立AI研究方面的突破性进展。微软还将继续构建Azure的AI基础设施,以帮助客户在全球范围内构建和部署各自的AI应用程序。

  • New AI-powered experiences

微软将在其消费者和企业产品中部署OpenAI模型,并引入基于OpenAI技术的新型数字体验。其中包括微软的Azure OpenAI服务,该服务使开发人员能够通过直接访问OpenAI模型来构建尖端的AI应用程序。

  • Exclusive cloud provider

作为OpenAI的独家云供应商,Azure将为OpenAI在研究、产品和API服务中的所有工作负载提供支持。


此外,微软还计划将ChatGPT整合到其搜索引擎必应(Bing)中,提高必应在搜索引擎市场中的占有率。同时,Chat-GPT的功能也将被引入Office,用于生成和问答部分文本。


自2016年以来,微软一直致力于将Azure打造成世界级的AI超级计算机。微软和OpenAI一起推动云超级计算技术的前沿,于2020年推出了其第一台Top-5超级计算机,并随后大规模构建了多个AI超级计算系统。OpenAI现在使用这些基础设施来训练其突破性的模型,这些模型已经在Azure中部署,以支持GitHub Copilot、DALL·E2和ChatGPT等项目。

资料来源:微软,Semafor,Theinformation


AI


AI模型可大致分为决策式/分析式AI(Discriminant/Analytical AI)和生成式AI(Generative AI)两类。

  • 决策式AI

学习数据中的条件概率分布,根据已有数据进行分析、判断、预测,主要应用模型有用于推荐系统和风控系统的辅助决策、用于自动驾驶和机器人的决策智能体。目前技术成熟,应用广泛,能显著辅助与提高非创造性工作效率。广泛应用于推荐系统、风控系统、决策智能体等方向,具体产品如人脸识别、精准广告推送、金融用户评级、智能辅助驾驶等。

  • 生成式AI

学习数据中的联合概率分布,并非简单分析已有数据而是学习归纳已有数据后进行演技创造,基于历史进行模仿式、缝合式创作,生成了全新的内容,也能解决判别问题。生成式AI从2014年开始快速发展,近期发展速度呈指数级爆发,能在部分领域应用落地,目前广泛应用于内容创作、科研、人机交互以及多个工业领域,具体产品如文案写作、文字转图片、视频智能配音、智能海报生成、视频智能特效、代码生成、语音人机交互、智能医疗诊断等。

资料来源:Learn Open CV,海外独角兽


2016年,人工智能技术全面爆发,决策式AI开始大规模应用,包括推荐系统、计算机视觉、自然语言处理等。全球人工智能市场规模从2016年的约600亿美元发展到2021年的近3000亿美元,在推荐系统、计算机视觉、自然语言处理等技术加持下,亚马逊、字节、商汤、特斯拉等公司快速发展。

资料来源:沙利文


生成式AI


Gartner将生成式AI列为最有商业前景的人工智能技术。根据其发布的2022年人工智能技术成熟度曲线,预计生成式AI2-5内将进入生产成熟期,发展潜力与应用空间巨大:2025年,生成式AI产生的数据将占到所有数据的10%,而2021年生成式AI产生的数据不到所有数据的1%,30%的大型组织出站消息将由生成式AI生成,50%的药物发现与研发将使用生成式AI;至2027年,30%的制造商将使用生成式AI提高产品研发效率。


红杉资本官网9月19日发布的文章《生成式AI:充满创造力的新世界》中提到:“生成式AI有潜力产生数万亿美元的经济价值”。


Coatue发布的《AI2022:爆发》认为规模化突破使得AI在短时间内变得指数级强大,其应用场景迅速突破。2022年10月,StabilityAI完成1.01亿美元融资,估值10亿美元,投资方包括Coatue、Lightspeed Venture Partners和O'Shaughnessy Ventures。公司由前英国对冲基金经理Emad Mostaque于2020年成立。2022年10月,Jasper完成1.25亿美元融资,估值达15亿美元,投资者包括Coatue、Bessemer Venture Partners、IVP等多家机构。2019年,OpenAI获得微软10亿美元投资,2021年OpenAI估值已达200亿美元。


多家生成式AI公司进入Madrona、高盛、微软、亚马逊网络服务和Pitch Book联合发布的2022年智能应用前40名榜单(Intelligent Applications 40,IA40)。IA40招募了来自40多家顶级风险投资和投资公司的50多名风险投资人,提名并投票选出塑造智能应用未来的顶级公司,这些公司自成立以来募资超160亿美元,今年募资超过50亿美元,其中包括Runway、Jasper、Copy.ai在内的14家生成式AI相关公司,占比达35%。




技术-前期架构、模型、数据、算力的积累与提升


架构改进:深度神经网络的学习能力和模型的大小呈正相关,但规模越大训练难度越高,需要对结构进行改进,拥有更强并行性的Transformer架构带来了深度神经网络参数量从最早的几万到目前的数千亿的跃升。


模型发展:GPT-3、CLIP、Diffusion、DALL·E2等模型的提出极大提升了AI处理NLP、跨模态、生成问题的能力。

数据增多:拥有的优质训练数据越多,算法从中学习的效果越好。随着数字时代的到来,生成数据的工具和软件越来越普遍,数据总量呈指数增长,可供AI训练的数据质量和数量均有很大提升。


算力提升:大规模深度学习模型的参数和数据量达到了一定量级,需要相应算力的支撑,目前,大规模模型的训练算力是原来的10到100倍。

资料来源:COMPUTE TRENDS ACROSS THREE ERAS OF MACHINE LEARNING,Google Scholar

主要模型


  • 变分自编码器(Variational Autoencoder,VAE)

2013年由Diederik P. Kingma和Max Welling提出,编码器将原始高维输入转换为对潜在空间的概率分布描述,从中采样输入解码器,得到新生成的结果,可用于图像生成、语音合成等,生成的图像较为模糊。

资料来源:freeCodeCamp,Google Scholar


  • 生成式对抗网络(Generative Adversarial Nets,GAN)

2014年由Ian J. Goodfellow等人提出,模型由生成器和判别器组成,以图像生成为例,生成器输入训练噪声后生成图像,判别器用来判断图像是真实的还是由生成器生成的,随着训练不断进行,生成器水平提升,判别器不再分辨图像真伪,固定生成器对判别器进行驯良,直到判别器能够分辨图像真伪,固定判别器再次训练生成器,不断循环,获得生成效果好的生成器。GA


资料来源:freeCodeCamp,Google Scholar


  • Transformer

2017年由Google团队提出,采用自注意力机制,按输入数据各部分重要性的不同而分配不同的权重,仅用attention来做特征抽取,网络结构的进化带来了参数量和模型层数的提高,引起了生成式AI技术能力的质变;并行化优势允许其在更大的数据集上进行训练,这也促成了GPT等预训练模型的发展。


资料来源:中国信通院,Google Scholar


  • 视觉Transformer(ViT)

2020年由Google团队提出,将Transformer应用在图像分类领域。ViT将输入图片分为16x16个patch,再将每个patch投影为固定长度的向量送入Transformer,后续操作与原始Transformer相同。ViT通过将人类先验经验知识引入网络结构设计,获得了更快的收敛速度、更低的计算代价、更多的特征尺度、更强的泛化能力,能够更好地学习和编码数据中蕴含的知识,正在成为视觉领域的基础网络架构。以ViT为代表的视觉大模型赋予了AI感知、理解视觉数据的能力,提升了AI的感知能力。

资料来源:中国信通院,Google Scholar


  • GPT

2018年由OpenAI提出,参数量1.17亿,预训练数据量约5GB,基于Transformer模型充分利用海量无标注文本进行预训练,赋予文本大模型在小数据集、零数据集下的理解和生成能力,提升了生成式AI的认知能力。2020年GPT-3推出,参数量达1750亿,预训练数据量达45TB,除自然语言推理、句子关系判断、问答、常识推理、分类等常见NLP任务外,GPT-3在撰写文章、编写SQL语句、编写JavaScript代码等困难任务也有优异表现,入选了《麻省理工科技评论》2021年“十大突破性技术”。


资料来源:中国信通院,OpenAI,Google Scholar


  • CLIP

2021年由OpenAI提出,利用文本信息监督视觉任务自训练,训练数据集为40亿个“文本-图像”对,采用Transformer模型对图像的patch序列进行建模,将不同模态的原始数据映射到统一或相似的语义空间,实现不同模态信号间的相互理解,拥有寻找不同模态数据间关系的能力,基于此能够实现不同模态数据间转化与生成,进一步可以根据图片生成对应语言描述也可以根据语言提示生成对应的图片,极大丰富了生成式AI技术的应用广度,为AIGC带来了更多的可能性。


资料来源:中国信通院,OpenAI,Google Scholar


  • 扩散模型(Diffusion model)

扩散模型的概念最早在2015年“Deep Unsupervised Learning using Nonequilibrium Thermodynamics”中被提出。2020年“Denoising Diffusion Probabilistic Models”中提出DDPM模型用于图像生成。扩散模型通过给图像增加高斯噪声破坏训练数据来学习,找出逆转噪声过程的方法,利用学习到的去噪声方法实现从随机输入中合成新的图像。该算法在分子图生成中可以进行药物分子和蛋白质分子的生成。


资料来源:OpenAI ,雷锋网,Google Scholar,腾讯科技,中信建投


  • DALL·E2

2022年4月由OpenAI提出,基于CLIP实现文本与图像的联系,基于Diffusion从视觉语义生成图像,使用先验模型实现从文本语义到相应视觉语义的映射,最终实现以下功能:

  1. 根据文本生成图片;

  2. 将图像扩展到画布之外;

  3. 根据文本对图像进行编辑,实现添加或删除元素;

  4. 给定一张图片生成保持原风格的变体。





资料来源:OpenAI ,雷锋网,Google Scholar,腾讯科技,中信建投


国内ChatGPT发展现状


国内有许多公司正在向ChatGPT和AIGC领域发展。其中,百度的动机非常明确,即维护其搜索业务护城河,并在下一代搜索引擎市场中抢占有利地位。百度ChatGPT业务的开展得益于其大量投入搜索引擎业务问答样本,样本量级足够。京东、阿里、拼多多等公司已经开始在智能客服方向上做出尝试。


字节跳动也在逐渐进入AIGC领域,并在内部应用其生态场景,从原来依靠UGC等生产者进行内容分层转变为往AIGC方向迁移。此外,一些创业型公司也已经开始崭露头角,如聆心智能推出的AI乌托邦,其开放式对话与ChatGPT相似。


虽然国内大多数公司都正在靠拢虚拟入、AIGC等概念,但目前还没有ChatGPT的替代品问世,同时仍存在一些技术发展瓶颈。这主要是由以下四个原因造成的:

  1. 国内缺少基础模型,缺乏模型迭代积累。ChatGPT依赖于InstructGPT,其优势为1:106,远超其他模型,包括国内模型。

  2. 国内缺少实际数据。除了百度有天然用户搜索问答训练样本外,其他公司都缺乏足够的数据。

  3. 国内缺乏技术积累。ChatGPT的发展过程中,数据处理、清洗、标注、模型训练、推理加速等方面都具有技术难点,并且对结果有较大影响。此外,包括国内大厂在内,强化学习框架仍未出现大规模使用场景。

  4. 国内创新性土壤还需发展。整体商业环境较为急躁,但投入与产出需要花费一些时间。

bottom of page