作者|36氪 刘雨洁、王与桐
编辑|石亚琼
2022年的热门词汇有什么?AIGC当之无愧位列其中,甚至将名列前茅。
从5月的DiscoDiffusion和DALLE2引起的AI作画潮流,到11月的chatGPT在一周内完成了百万用户注册,期间海内外出现了无数个AIGC的产品和创业公司,共同掀起了AI创作的热潮。
不得不说,在整个AIGC浪潮中,美国一直主导着技术,并将其开源;中国的产品和技术更多在跟随美国的步伐。其实,AIGC的概念也来自于中国本土——在美国,更常见的说法是GenerativeAI,即生成式AI。
其实,AIGC是GenerativeAI的子集。因此在本文中,我们将用GA来统称这一年的生成式AI的进展。
AI领域还有一个名词叫做AGI(通用人工智能),可以被理解为一个强人工智能的终极目标,其目的是系统性地解决方案,执行人类能够完成的“任何”任务。而想要实现AGI,生成式AI是不可或缺的一步。或者说,当下人类最有可能接近创造AGI的方式,就是将一个个碎片化的生成式AI能力,集成在一个智能平台上,来模拟AI的智力和高度适应性。
AGI早在几十年前的科幻作品中就已经有了很多不同的展现形式,其共同的特点是有着强大的自然语言理解(NLU)能力,这就是今天掀起生成式AI风浪的主要技术。
其实,AIGC也好,生成式AI也好,虽然是在今2022年获得关注,但并不是2022年才出现的。
底层技术已经默默突破了几年,之所以生成式AI会在2022年出现在更多普罗大众面前,归根结底是背后的技术再上了一步台阶,可以向公众发布以供广泛使用。
以大语言模型(largelanguagemodels,以下简称“LLM”)为基础的text-to-X(文本到任意)技术再在2022年有了突破性进展,分别在text-to-image(文本到图片)、AI-generated-text(AI生成文字)、text-to-video(文本到视频)、generativecode(生成式代码)等领域出现了值得全球关注的应用。
技术在2022年取得突破性进展,并将其开源,将AI结果产出的时间大大缩短,产出精度更强。比如OpenAI所用的GPT技术,其GPT1在2017年就已经出现,现在chatGPT所采用的GPT3.5则是在2022年出现。
尽管从2014年AlphaGO战胜柯洁开始,人类对于AI就抱有最大的希望,此后不停出现“AI元年”的说法,但过去几年,AI的应用和底层技术都没有实现更大的突破,这又让大家对于AI心灰意冷。
到2022年,AI成为生产工具,带来了商业化价值,或许才终将迎来“AI元年”。
一、创投:烧钱的未来,注定是少数人的游戏
在GPT-3发布的两年内,风投资本对AIGC的投资增长了四倍,在2022年更是达到了21亿美元。
正如前文所说,GA底层技术的突破,创造出了更多细分赛道,比如DiscoDiffuison和StableDiffusion正在加快艺术创作的速度,copy.ai和Jasper在通过AI完成文案写作,Mutable.ai和GithubCo-pilot以AICoding的方式提高编程效率。
细分赛道越多,意味着想象空间越大。而一级市场最擅长为想象空间买单。
当然,其中一部分取得融资的公司采用的的确是时下最先锋的GA模型,比如种子轮获得1.01亿美元的StabilityAI,但很多获得融资的公司,也不过是用以往的AI模型蹭上了热度而已。这加大了投资人和机构的判断难度,自然会导致一级市场在短期内,比如2023年的混乱。
之所以使用最新模型的GA创业公司比例不高,除了一部分公司想要“走捷径”直接偷换概念外,大模型的训练,原本就是烧钱、砸人还不一定有成效的事情。以2022年先后推出AIArt赛道明星项目DALLE2和对话式AI爆款的chatGPT的母公司openAI来说,其大模型GPT1从2017年就开始训练,直到GPT3出现才逐渐变得易用、好用。而chatGPT之所以风靡全球,是因为其背后是比GPT3更高级的GPT3.5。
根据公开资料,GPT-3训练的仅是硬件和电力成本高达1200万美元(约7500万人民币),GPT3.5只高不少。
如此高额的投入、大量的迭代时间,显然并不是初创公司能够完成的。
这就决定了,初创公司只能依靠开源的模型,进行在具体应用侧的创新。可是这样一来,壁垒变低,对于客户和用户来说,选项也变多了,那么应用创新的商业价值就会变低。技术价值和商业价值都不够的情况下,一级市场自然不会买单。
其实在2022年,就已经出现了此类现象,在国内在AIArt领域出现了不少用户量大的创业项目,但是融资情况并不容乐观。
2023年或许会延续2022年的创投趋势:创业项目层出不穷,但是一级市场只买单有技术壁垒和商业前景的个别项目;当然,总体数量会比前些年更多。
GAmapping,来源LeonisCapital风险投资基金
二、AIArt:从高门槛变成无门槛
2023年趋势
2月,DiscoDiffusion开始流行,Diffusion底层技术对GAN彻底革新
DiscoDiffusion是在2022年2月初开始流行的一个AI图像生成程序,可以根据描述场景的关键词渲染出对应的图像,可以在GoogleDrive直接运行,也可以部署到本地运行。
但在那时,人们尚未意识到,DiscoDiffusion的出现,是2022年一整年AIArt狂热潮的开始。
上图为国内最大的平面设计师社区UISDC上首次出现关于DiscoDiffusion的科普文章,设计师是对图像创作工具最敏感的群体之一,彼时大多数C端用户还并不知道这一“黑科技”的存在,即使知道,也会因为它复杂的调试环境失去参与测试的欲望。
但之后,随着更多AIArt模型和工具的成熟,门槛越来越低,越来越多C端用户开始了解并使用相关的工具。
AIArt在2022年以来的热度,是因为一种呈现为文字转图像(text-to-image)特性的崭新交互方式,正在向大众宣告AIArt正在进入一个“民主化”的时代。使用文字描述,或者基于画面意象和故事,或者基于艺术家风格、构图、色彩、透视方法等专业名词,就能在数十秒内生成完整的绘画作品,这让艺术创作成为了一件像跑步一样的事:人人都会跑步,只不过是专业的人跑得更快。
还原到底层技术方面,则是一场Diffusion对GAN的彻底革新。
传统AIArt的的技术原理是生成对抗网络(GAN)或VAE等,目前,GAN作为上一代AIArt工具与平台最主流的图像生成模型,在模型训练方面已经有了很大的突破,但在实际应用的过程中仍然拥有严重的结构性问题。
随着热度升温,可能会取而代之的是Diffusion。DenoisingDiffusionModels(去躁扩散模型)作为一种基于分数的生成模型,是一种非常强大的新型生成模型。其工作原理就是通过反复地向训练数据添加高斯噪声来破坏训练数据,然后通过反转添加噪声的过程来学习如何取回数据。Diffusion还提供大量样本多样性和学习数据分布的准确模式覆盖,这意味着Diffusion适用于具有大量不同和复杂数据的学习模型,从而解决了GAN的问题。Diffusion缓慢改变输入数据将数据映射到噪声的正向变换,通过学习的、参数化的反向过程来完成数据生成。该过程从随机噪声开始,一次一步地进行清理。
Diffusion对图像生成效果的提升十分显著,数字生成的痕迹也得到了有效削弱,用户自己可选执行步数,步数越多图像越精细的特点也激起了更多的“硬核”需求。
Diffusion对图像生成步骤
这也就是为什么AIArt工具其实从很早之前就有了,但此前的图像效果经常会有“太假”或者不够完整等种种问题,甚至不如直接用Photoshop做一些风格化处理,因此这些作品也就失去了如今Diffusion时代作为艺术品的收藏与分享价值。
通过指数级爆发的帖子和作品展示,以DiscoDiffusion、StableDiffusion、DALL-E2、MidJourney这些算法和工具为代表的生成器,已经成为了AI生成向C端落地、以及更广阔的元宇宙世界的先发力量。
4月,DALLE2被推出
DALLE2可以从自然语言的描述中创建逼真的图像和艺术,上线于2022年4月6日,由OpenAI开发。
OpenAI在四月份推出了DALL-E2,DALLE2可以从自然语言的描述中创建逼真的图像和艺术,超过150万用户测试了这个模型,2022年9月,公司将它推向了市场。
微软为OpenAI提供资金,以换取其作品的独家商业版权,并将该模式整合到AzureAI-as-a-service平台中。
8月,StabilityDiffusion上线
作为解决了DiscoDifusion的技术痛点的追随者,StabilityAI也加大了赌注,于8月22日上线。并推出了开源的扩散模型(StableDiffusion)。
StabilityAI是一家创立于2019年的人工智能初创公司,总部位于伦敦,致力于构建以AI为技术载体的解决方案。
StableDiffusion是时下最先锋、也是最流行的AI绘画机器学习模型,由StabilityAI开发,Web演示版本搭载于AI开源社区Huggingface。StableDiffusion的预训练模型是一个文本至图像的AI模型。根据文本提示,StableDiffusion能够生成逼真的512x512像素的图像以描述提示中的场景。
在模型权重公开发布之前,它的代码已经发布,模型权重也有限发布给了研究社区。在最新的版本中,任何用户都可以在消费者级别的硬件中下载并运行StableDiffusion。除了文本至图像的生成,该模型还支持图像至图像的风格转换以及图像质量提升。在发布该版本的同时,StableAI还发布了beta版本的API以及模型的WebUI,名为DreamStudio。
StableDiffusion基于名为潜在扩散模型(latentdiffusionmodels,LDMs)的图像生成技术。与其他的流行的图像合成方法不同,如生成对抗网络(generativeadversarialnetworks,GANs)和DALL-E使用的自动回归技术,LDMs通过在一个潜在表示空间中迭代“去噪”数据来生成图像,然后将表示结果解码为完整的图像。
LDM是由LudwigMaximilianUniversityofMunich的机器视觉与学习(MachineVisionandLearning)研究组开发的,并在最近的IEEE/CVF计算机视觉和模式识别会议(ComputerVisionandPatternRecognitionConference)上发表的一篇论文中进行了阐述。在2022年早些时候,InfoQ曾经报道过Google的Imagen模型,它是另一个基于扩散的图像生成AI。
StableDiffusion模型支持多种操作。与DALL-E类似,它能够根据所需图像的文本描述,生成符合匹配该描述的高质量图像。它还可以根据一个简单的草图再加上所需图像的文本描述,生成一个看起来更逼真的图像。
MetaAI也发布了名为Make-A-Scene的模型,具有类似的图像至图像的功能。
10月18日,StabilityAI融资成为独角兽,更掀起热潮
10月18日,在上线不足两月的时间里,StabilityAI获得由在Coatue和LightspeedVenturePartners领投的1.01亿美元融资,投后估值超过10亿美元。
上线两个月就成为独角兽,足以见得市场对于StabilityAI以及AI作画的认可。这也引发了一级市场对于AI作画的强关注。
同样在10月,微软开始将由DALLE2提供支持的生成人工智能技术,集成到其Bing搜索引擎、Edge浏览器和新的MicrosoftDesignerforOffice。
2022年的商业化进展:欲速则不达
由于AIArt在受到越来越多关注的同时,开发门槛越来越低,全球范围内AIArt的创业公司和产品也在10月、11月密集出现。
在11月初打开ProductHunt(一个发现新产品的平台,开发者可以提交自己的产品,网站会依据大众的投票数量产生每日榜单),会发现每天都有新的AI作画产品上线,并且这些AI作画产品,都在每天榜单的前几名。
2022年11月3号,ProductHunt榜单第一名就是AI作画产品
2022年11月2号,ProductHunt第二名是需要付费的AI作画产品
其中,AvatarAI推出10天以来,销售额已经突破10万美元(销量为2943,平均售价33美元)。
AvatarAI销售额
不仅美国如此,在中国也是这样,盗梦师、无界、皮卡智能、TIAMAT等也在10~11月里受到了广泛关注,盗梦师小程序甚至达到了日增5万用户的规模。
层出不穷的AI作画产品背后,是全球从业者和C端群众对于新技术的好奇和热捧。从GoogleTrends和百度指数上,在10月AI作画搜索指数的暴涨,就可见一斑。
GoogleTrends美国区“AIArt”热度
AIArt,火烧得太快、来得太突然,法规完善、生态体系、用户认知等等一个赛道长期发展所要具备的要素,在AI作画赛道都稍显空白,这或许会带来商业化短期的混乱。
一类玩家,以AvatarAI这类产品为例,30美元打包一沓头像,固然能赚到快钱,但是如何在不伤害猎奇心理消费者的情况下保持长期商业价值是AvatarAI不得不考虑的问题。
另一类玩家,不以收费为前提,仅是提供工具免费给用户使用,那么在早期获得病毒式增长后,又该如何获得收入维持后续发展?
还有一类玩家,或许并没有明确的商业化目标,其出发点或许只是热爱,但部分AIArt产品已经伤害了艺术家的版权,正在全球范围内引起相关讨论。
而目前的混乱,或许是由于这个原本技术突破困难、应该有较高门槛的行业,因为开源,而变得低门槛,投机者几乎能以零成本去“追逐风口”。作为长期具有ToC价值的领域,开源一定程度上“放纵”了AIArt在商品层面的混乱。
未来,AIArt想要获得更长久的商业发展,需要在C端用户有足够的认知的同时,玩家探索toB的商业价值。
三、AI-GeneratedText:基于真实需求,最有想象力的商业应用
2023年趋势
LaMDA:当AI有了意识,搜索引擎也可以“说人话”
2022年6月,Google的一名工程师声称LaMDA可能有自己的感觉,可能“还隐藏着一个感知的心灵”。这让LaMDA一度陷入争议。
LaMDA在2021年I/O大会上首次亮相,是Google“迄今为止最先进的对话式人工智能”,即与2022年12月红遍全球的ChatGPT有着相同的语言模型技术和原生应用场景。2022年5月11日,Google在2022年I/O大会上公布了LaMDA2。作为Google一直在研究的最先进的大数据模型之一,与GPT-3不同的是,LaMDA没有被配置为执行任何特定任务,LaMDA是“对话训练”,本质上是一个以聊天为导向的LLMs。
在引起了不少社会上的讨论后,Google回应到:LaMDA和公司近几年的大型AI项目一样,都经过了多次严格的AI道德方面的审核,对其内容、质量、系统安全性等进行了多方面的考量。
2022年早些时候,Google也专门发表了一篇论文,公开了LaMDA开发过程当中的合规细节。其中提到,“在AI群体内,对于具备感知的AI/通用AI的长期可能性,确实有一些研究。然而在今天把对话模型来拟人化,这样做是没有意义的,因为这些模型是没有知觉的。不过,这些系统能够基于数以百万计的句子来模仿交流的方式,并且在任何有趣的话题上都能够扯出有意思的内容。”
在ChatGPT赶在2023年到来之前意料之外地迅速爆发之后,LaMDA只能以其竞争对手的形式在市场上被动出现。正如在另一个AI赛道内,Google强大的AIArt模型DreamBooth,也是几乎在StabilityAI获得融资成为独角兽的前夕,才以一个定制化编码功能更强大的标准曝光在公众视野之下。同样,从技术上来说,LaMDA被认为拥有“对抗ChatGPT所需的一切”。
在一些投资人与用户高呼ChatGPT能够“杀死传统搜索引擎”之后,另一群人寄托在LaMDA身上的希望,情节变得更加跌宕起伏。
Google和OpenAI都是全球久负盛名的AI梦工厂,区别是前者成为科技巨头已久,且在垄断用户搜索查询流量的同时,也主导了多个AI生成赛道的诞生和迭代。而后者则在2022年连续推出了DALLE2和ChatGPT两个现象级生成式AI工具,未来几年内有望做出最庞大的AI生成平台。
因此,LaMDA和ChatGPT的竞争更有可能是生态级别的。抛开前文所讨论的人工智能恐怖谷、科技伦理学等问题,从长期来看,作为“巨头之子”,LaMDA的机会很可能集中在以下几点:
首先,“打败Google的,只可能是Google”。就像社交帝国腾讯用微信“打败”了QQ一样,Google几十年来在搜索引擎领域的绝对话语权,使其在对话式AI在搜索领域的应用上,也具有不可撼动的优势。
目前,Google在搜索引擎中使用FeaturedSnippets(精选片段)为用户的问题引用答案,这是其商业化手段之一,也是广受用户诟病的一点。
相比来说,ChatGPT之所以被列入“杀死Google搜索”的候补名单,是因为其擅长为更复杂、更完整的问题生成答案,同时不会像Google一样试图将用户引导到其他页面,提供了更清爽的用户体验。但极致的用户体验有些时候也会成为商业化的阻碍,由于对话式AI中的“竞价广告”可能要比Google的SEO要隐蔽得多,且不直接显示数据引用来源的AI表面上无需对搜索结果负责,因此潜在威胁也是可想而知的。
前两天,全球最大产品发现社区ProductHunt上已经出现了导购项目,专门收集ChatGPT回答的“某一分类下最好的品牌”。如果对话式AI未来更加泛滥地应用于品牌营销,或者商家发明出一套规则能让自己的品牌名更多地被AI模型抓取,它的内容可信度会不会成为昙花一现呢?如果坚持“真实”和“专业”,又怎样实现在搜索领域的变现?
在这个问题上,LaMDA和ChatGPT面对的商业化难题是一样的,但毫无疑问作为搜索巨头的Google,会有更完善的解决方案。
其二,MUM(MultitaskUnifiedModel,多任务统一模型)、PaLM(路径语言模型)等其他Google自研AI模型的支持和集成。ChatGPT之所以现在看起来更像是一个工具或者“写邮件神器”,是因为技术和模型已经是时下最先进的了,服务和体验却仍然是单点维度的,距离生态利器还有很长的路要走。
而在这一点上,Google已经有所考虑。比如,除了LaMDA之外,Google还强调了MUM的重要性。多模式模型允许人们“跨不同类型的信息进行提问”,也就是说,将图片、音频、视频等媒介形式结合文字来提问。
Google提供的一个搜索示例:用户给自己的登山靴拍了张照片,问“我可以穿这个登富士山吗?”MUM则能够通过理解图像等内容和查询背后的意图进行判断,并推荐装备列表和博客文章。
目前,Google已经将MUM技术添加到了GoogleLens,后者为Google推出的一款支持图片对象检索的现实搜索应用。
总体来说,在LaMDA始终位于技术前列的情况下,至少在搜索和对话式领域,Google将比一切竞争对手都更接近产品化和商业化。
其实,AI自然对话的能力基于对人类说话口吻的模仿,本就是为了让信息和计算从根本上更易于被人们访问和使用,这种软性提效与工业硬件升级等硬性提效的最大区别,就是它与人类的行为和语言体系是一种寄生关系。换句话说,不具备商业能力的AI模型代表着长期投入能力差,缺少时效性价值,从而损害“搜索”的核心价值。
早在2022年5月份,GoogleCEOSundarPichai就重申了对话式自然语言处理的最大价值是“数字民主化”。至少在研发转产品的目标上,LaMDA比2022年大多数生成式AI工具都要明确,那就是让Google搜索未来能够像人类一样回答问题。
“仓促行事对于搜索领域来说似乎并不明智,因为世界需要始终如一的正确。”
OpenAI的chatGPT引起全球狂热
11月30日,人工智能实验室OpenAI发布了自研的聊天机器人——ChatGPT,它比其他任何可供公众互动的聊天机器人都要先进,在聊天外,可以当成搜索引擎、论文生成器、代码生成器、翻译等多个实用角色,成为人类的生活工作助手。
其价值被广泛认可,上线5天后,注册人数突破百万,而到达这个数字,推特用了两年。
因为ChatGPT的火爆,OpenAI在大语言训练模型领域的积累也逐渐被看到——ChatGPT采用最新的GPT3.5模型,模型中首次采用RLHF(从人类反馈中强化学习)方式。
OpenAI最初于2017年提出的GPT1,其采取的是生成式预训练Transform模型(一种采用自注意力机制的深度学习模型)。GPT1的方法包含预训练和微调两个阶段,预训练遵循的是语言模型的目标,微调过程遵循的是文本生成任务的目的。2020年的GPT3,训练参数是GPT-2的10倍以上,给GPT训练读过文字和句子后可接续问题的能力,同时包含了更为广泛的主题。
现在的ChatGPT则是由效果比GPT3更强大的GPT-3.5系列模型提供支持,这些模型使用微软AzureAI超级计算基础设施上的文本和代码数据进行训练。
具体来说,ChatGPT在一个开源数据集上进行训练,训练参数也是前代GPT3的10倍以上,还多引入了两项功能:人工标注数据和强化学习,相当于拿回了被GPT3去掉的微调步骤,实现了在与人类互动时从反馈中强化学习。
ChatGPT自己回答与前代GPT3的能力区别
尽管目前ChatGPT还存在很多语言模型中常见的局限性和不准确问题,但毋庸置疑的是,其在语言识别、判断和交互层面存在巨大优势。
NotionAI:一个更加AGI的可能性
2022年11月,全球独角兽Notion发布了NotionAI的Alpha版本,这也是知识管理工具与生成式AI工具的进一步结合。
从功能上来说,NotionAI与ChatGPT、Jasper等工具类似,都是根植于LLM在2022年的技术爆发,服务于text-to-text应用下的重复性或创造性写作。而从应用环境来看,NotionAI的创新性在于,它完全融合于Notion文档内部,这也就意味着人工智能协作又少了一步“冷启动”的时间。
图片来自NotionAI官网,可以看出,Notion用户在文档中输入“/”(也是Notion区块式笔记的基础基础逻辑)即可调用不同功能的NotionAI,包括Continuewriting(续写)、Helpmewrite(text-to-text生成内容)、Brainstormideas(列出bulletpoints)等。在功能定位上,Notion将AI列为了写作助手的角色,比起ChatGPT更加接近Grammarly。
其实,无论是ChatGPT还是NotionAI,目前为止都还没有办法直接生成一篇原创且可发表的内容,但它们能够很好地帮助用户“跳过初稿阶段”,直接进入对文字的改进和完善阶段。与此同时,所有LLM的应用工具都在迅速改进,使得语义理解能够从句子到段落,再到逻辑关系更加复杂的语境,从而更好地理解和编写各种文本。
NotionAI的机会有三点:
第一,Notion的平台特性能够与LLM的技术特性更好地融合。众所周知,目前的生成式AI最需要的就是更多更详细的语境。在我们使用ChatGPT的时候,得到的文字内容经常会以“由于没有更详细的数据支持,我只能尝试理解需求”之类的声明作为开头。
而作为一个综合了笔记、项目管理等用户个人知识内容的Workspace(工作区),Notion为每位用户存储了大量逻辑结构和关联性更强的文本内容,比ChatGPT等聊天式AI更容易获取大量的上下文语境素材,从而实现更精准的需求理解和对于用户语言风格的模仿等。
第二,NotionAI符合生成式AI目前最重要的两个竞争条件。尽管Notion计划“缓慢而谨慎”地推出他们的AI工具,但由于AI并不是一项一劳永逸的技术,其核心竞争壁垒来自于数据质变、用户需求理解和模型的完善性,因此用户量和在时间上占先,对于生成式AI来说是非常重要的两点。
作为数字协作领域的独角兽,用户量和C端口碑是Notion一直以来引以为傲的亮点。从入局时间来看,ChatGPT在11月底引发了AI写作的全球热潮,NotionAI与之基本同期,没有错过时间红利。
第三,存在于知识库内部的AI工具有更多呈现形式。从应用场景来看,以聊天机器人形式出现的ChatGPT似乎更像是一个用来展现技术能力的demo,它还在寻找广泛的领域场景和合作商。与之相比,Notion在协作领域的巨大影响力,则已经为NotionAI注脚好了未来的可能性。在一个巨大的知识管理工作区内部,AI除了辅助写作的用途,还能集成搜索、连接日历与任务管理、回答用户的问题并粘贴知识库中的信息等。
用NotionAI生成表格
综上,刚刚被“交到用户手中”就立刻引发了热议的NotionAI,也让我们重新想起了AGI的概念。其实,Notion本身能够从一众产品精度做得越来越“卷”的笔记应用中取得不可忽视的地位,并建立最庞大的第三方模版市场和社区,就是基于其一体化文本协作的理念和高度集成性。
四、VideoAI:创业公司层出不穷
2023年趋势
虽然文本到图像的生成式AI是2022年AI领域的最大新闻之一,但“文本到视频”无疑将会接班成为2023年的新技术焦点。目前,在AI视频领域,捕捉远程依赖关系等决定性的技术仍具有挑战性,但AI视频在2022年年底已经实现了对于部分短视频的覆盖。2023年,也许“我们将无法区分视频是由人还是AI生成的。”
此外,2022年以来,生成式AI在影音技术方面的应用,也越来越详细地描述着元宇宙将如何出现。虽然在C端没有出现像StableDiffusion和ChatGPT一样现象级的工具,且各AIArt厂家围绕text-to-video所做的布局,常常被看作是text-to-image的形态拓展,但在各类短视频、长视频占据用户大量时间的互联网环境下,AI视频工具的商业化路径也要比前者清晰得多,比如应用在营销等领域。
虽然制作最好的视频总是需要创造力和人性化的触觉,但人工智能软件可以用来减少处理所占用的大量时间。
也因此,不少VideoAI赛道的公司在2022年获得一级市场的关注。
2月,以色列AI技术研发商HourOne宣布完成2000万美元A轮融资,该公司计划利用这笔资金扩大其自助服务平台Reals,允许企业在几分钟内从文本中自动创建以人为主导的视频。
10月,Descript宣布完成了由OpenAI领投的新一轮融资,估值达到了5.5亿美金。Descript是一家音频转录编辑器,会将音频转录下来的文字放到Word文档中,然后编辑人员或音频制作人可以像修文档一样剪辑音频。
12月,图片和视频AI编辑软件提供商runway完成5000万美元C轮融资,投后估值达到5亿美元。
同样在12月,家视频搜索和分析云基础设施提供商TwelveLabs宣布获1200万美元种子轮追加融资,该公司推出一套云原生API,可与该公司的人工智能视频搜索工具集成,使开发人员能够对海量视频进行搜索。
不过,抛去对于技术层在2023年能够实现爆发的乐观预期,如果基于文本的视频生成模型仍然需要1-2年才能达到以假乱真的效果,那么此类模型也许需要2-3年才能在商业应用和企服领域真正发挥作用。在此之前,这些模型可能适用于对保真度和可控性要求较低的场景,如C端用户在娱乐创作平台上的猎奇式创作。
五、AICoding:开始小规模应用
2023年趋势
当今世界,毫无疑问不仅仅由物理世界组成,由代码组成的互联网世界已经成为人类赖以生存的世界之一,这从中美等各个国家互联网公司位列前沿的市值可见一斑。
因此,AI编写代码也被倾注了最大的期望。
AI对工业的“妄图染指”,开启了AI在良莠不齐的生产环境中漫长的应用过程,而这也是AI回报周期过长的原因之一。由于人类只能从已经存在的历史中去提炼参照系,在被称为“信息革命”、“数字革命”的新世纪洪流中,代码一直以来所对应的就是像蒸汽、电力一样的工业生产力新单位。
不过,与以往不同,开发在科技世界的构建中比以往的工人取得了更高的地位和经济话语权。随着数字经济的发展,编程人才逐渐被细化到各行各业、各个技术体系中去,从价值层级来分,他们的工作也可以被拆分为创造和解决需求两个部分。
近年来,随着科技门槛一再降级,每当有CRM、无代码等看似“反程序员价值”的产品出现,人们就会热议“程序员的工作很快就要被替代了”。2022年跟随LLM掀起水花的AICoding也是同理。
在过去,这种“不再被需要”也许只是一种乌托邦式的幻想或自嘲,大多数人都明白,更多的数字生产力被解放,就会有更多的创造导向型领域出现人才缺口。可直到2022年,飘荡在全球互联网上空的裁员危机,似乎是在倒逼着这一口号重新回到了从业者的焦虑范围内。
AICoding则正是在这种情况下开始小规模地应用于业界。
2022年2月,DeepMind推出了AlphaCode,这是一款用12种编程语言对8600万个程序进行预训练的Transformer,并针对编码竞赛的内容进行了微调。
通过推理,它产生了一百万种可能的解决方案,并过滤掉了不佳的解决方案。通过这种方式,它在10次编程竞赛中击败了一半以上的参赛者。
6月,GitHub开放了Copilot的访问权限,这是一个能够实时提供代码建议的自动完成系统。虽然学生和经过验证的开源开发者可以免费访问,但用户需要支付订阅费。
11月,“万能助手”chatGPT出现,不少用户开始尝试用chatGPT编写代码。像简单的shell脚本,makefile等,ChatGPT确实能处理,但更复杂的编程需求,chatGPT会给出错误答案。开发者可以把AI生成的代码拿来进行修改,以节省时间。
但同时,AIcoding的隐患也在随着技术门槛降低而攀升。
TheRegister的一份报告显示,斯坦福大学计算机科学家发现,与完全靠自己做事的程序员相比,使用GithubCopilot等人工智能编码工具的程序员创建的代码安全性较低。
除了已经暴露出的版权问题、安全隐患之外,AI编程还有很多已知或未知的痛点,比如提高了人才筛选难度,
比起AIArt、AI写作等领域,AI编程主要有如下三个特点:
1. 其应用环境往往不是C端用户的猎奇心理和“科技民主化”的目的,而是用于实际的工作项目中,准确性要求更高,对版权等商业信息更敏感;
2. 编写结果可能会涉及到复杂的函数,无法像AIArt一样让任何人都能够以肉眼判断,有较大的应用和试错成本;
3. 编程本身可以说是一个比较庞大复杂的母领域,而是多个语言领域的泛概念,因此所针对的领域、需求和实现难度也不同。
这些特点决定了AICoding在短期内会更多地用于科技巨头的内部构建,并且由于代码是这些公司的主要商业资产,其内部孵化或投资的项目,可能并不会被竞争对手所接受。虽然目前以DeepMind为代表的头部服务商呼声很高,但AICoding本质来说也并不是一件具有技术壁垒的事,大公司各筑城池的局面不难想象。
此外,由于AICoding和无码化趋势的现阶段目的,同样都是为企业的IT部门解放生产力,其对于大多数业务类型的公司来说,降本增效的空间也难免会被进行对比。AICoding虽然是自动生成代码,但其商业逻辑也是主要服务于程序员,目前还很难做到离开“人脑”工作。就像AIArt在热潮退去之后,也会逐渐成为艺术家等专业人员的灵感工具一样。
但其降本矛盾在于,如果是freelancer或独立开发者,AICoding工具毫无疑问能够帮助他们提高效率,但大多数程序员作为企业员工,可能自身并不会愿意被“人工智能”间接降薪。但从长期来看,随着数字经济下的编程基础教育进一步完善,各类开发工程师的分工也趋于细化,届时AICoding将大有可为。只不过,这一点希冀很难惠及到即将到来的2023年。
相比来说,无码化工具的出现则是为了解构程序员的价值和工作属性。毕竟在程序员普遍“高薪”的情况下,在同一个业务需求下,把程序员换成业务运营人员,至少在人力方面就已经做到了降本。
不过,好消息是,2022年的最后一个季度,AlphaCode等AI编码工具似乎遭受了前所未有的业界争议。在科技和创投界,法律、商业、社会道德对于新生事物的争议通常代表着希望,虽然AI编码在2023年也不可能直接代替那些“螺丝钉型”码农,但大面积的智能优化代码服务,可能会成为另一个企业服务的热点。
六、LLM:作为底层技术,没有巨头缺席
没有一家巨头缺席LLM,更加说明了LLM进入较为成熟的阶段。
11月15日,Meta公司发布大型语言模型Galactica,并宣称它“可以总结学术论文,解决数学问题,生成维基百科文章,编写科学代码,标记分子和蛋白质,以及更多功能。”
但上线仅3天,该模型就在巨大争议中撤回。它虽然能生成一些貌似通顺的学术文本,但文本中的信息是完全错误的——貌似合理的化学方程,描述的是实际上并不会发生的化学反应;格式合规的引文参考的是子虚乌有的文献;甚而种族主义、性别歧视的观点,也能通过模型生成的文本而被包装成“科学研究”。
Google于去年推出“LaMDA”(对话应用程序语言模型)。LaMDA是Google一直在研究的最先进的LLMs之一,与GPT-3不同的是,它没有被配置为执行任何特定任务,LaMDA是“对话训练”。
它本质上是一个以聊天机器人为导向的LLMs,2022年6月,Google的一名工程师声称LaMDA可能有自己的感觉,可能“还隐藏着一个感知的心灵”。这让LaMDA一度陷入争议。
由于LaMDA仍处于封闭测试阶段,只有少数用户可以使用,因此关于它的性能几乎没有披露。但是LaMDA只有1370亿个参数,与前面讨论的GPT-3的1750亿个参数相差甚远。虽然用于训练LLMs的数据量并不是其性能和准确性的唯一驱动因素,特别是考虑到GPT-3和LaMDA是为不同的功能而创建的,但两者中参数数量的差异确实引起了人们对LaMDA是否是ChatGPT或广义上的GPT-3的有力竞争者的更大审查。
LaMDA证明了Google在LLM竞赛中并没有完全出局。
2021年10月,微软和英伟达正式推出由DeepSpeed和Megatron驱动的Megatron-Turing自然语言生成模型(MT-NLG),声称有5300亿参数,在当时宣传这是训练的最大最强的解码语言模型。不过在2022年并没有取得更新的进展。
微软在生成式AI方面始终参与度不低。2022年大火的chatGPT,其背后模型GPT3.5就是在微软AzureAI超算基础设施(由英伟达V100GPU组成的高带宽集群)上进行训练,同时微软在考虑对OpenAI进行新一轮投资。
国内,互联网大厂也走在大模型训练的前沿,各大厂在超大规模AI模型训练的爆发主要集中在2021年,国内超大模型研发虽然比国外公司晚,但是发展却异常的迅速。在2022年,也有一些进展。
百度文心大模型已经形成“模型层+工具与平台层+产品与社区层”的整体布局,于2022年全新发布11个大模型,包括5个基础大模型、1个任务大模型、5个行业大模型;全面升级文心大模型开发套件、文心API;新发布和升级基于文心大模型的2大产品,AI作画产品“文心一格”和产业级搜索系统“文心百中”。
去年,阿里达摩院先后发布多个版本的多模态及语言大模型,在超大模型、低碳训练技术、平台化服务、落地应用等方面实现突破。其中使用512卡V100GPU实现全球最大规模10万亿参数多模态大模型M6,同等参数规模能耗仅为此前业界标杆的1%,极大降低大模型训练门槛。2022年9月,阿里巴巴fault最新‘通义’大模型系列,其打造了国内首个AI统一底座,并构建了通用与专业模型协同的层次化人工智能体系。
近年来,大型语言模型的参数数量保持着指数增长势头。据预测,OpenAI开发中的最新大型语言模型GPT-4将包含约100万亿的参数,与人脑的突触在同一数量级。由此,出现了一个新的人工智能口号:“规模就是一切”。
大数据模型花销
七、结语:商业化,生成式AI在2023年最大的课题
在生成式AI技术取得突破性进展、应用井喷式出现、用户与其距离越来越近的2022,我们不得不关心,GA到底是未来AI进入人类生活的开始,还是如此前一样昙花一现。
目前,不少人对生成式AI的质疑主要在以下几点:
1、现在AI的生成内容大多数还达不到直接商用的标准,仍然需要大量的模型微调,以及人的行业经验的辅助、补充、加工。
2、AI生成控制方式相对普通人来说,还有一定门槛。
3、AI的生成结果在版权方面存在模糊性。
4、行业过热,会导致不成熟的AI激增,良莠不齐的应用和鱼龙混杂的市场很可能会让C端用户和企业客户失去判断信心,同时带来数据安全隐患。
但以上问题只能限制生成式AI无法在短期内成为普惠的技术,并不代表生成式AI没有价值。其评判标准应该是,AI技术能否变现,能否带来商业价值,使其成为一个成熟的产业。
在技术方面,2023年,更好的基础模型值得期待,比如能够以更高效或更紧凑的方式表示复杂数据的稀疏模型。它可以更快计算且需要更少的内存来储存,从而带来成本上的进一步普惠化。除此之外,更精准的数据收集能力也意味着在审核、消除偏见信息等方面投入更大的努力。
在2022年,技术开源尽管带来了一些不必要的混乱,但毋庸置疑,这也让更多原本没有能力的开发者加入了战场,加快了生成式AI的商业化步伐。
在目前最大的、每天更新的AI应用目录FUTUREPEDIA网站里可以发现,目前最受关注的AI应用多是文本生成和图片生成相关的应用。这和2022年的风口趋势一致。
但同时我们也注意到,在文本和图像之外,最受关注的AI应用,是市场营销工具。如果说文本、图像应用是普适的、不对toBtoC进行区分的应用方向,那么市场营销是商业价值更加明确的toB方向。
FUTUREPEDIA营销方面的应用
或许我们可以判断,生成式AI接下来一年的商业化进展,将有三条路:
一,成为用户量足够大的C端工具,如Google,依靠流量赚钱;
二,成为足够好用的细分工具,如Adobe,靠特定人群的固定需求赚钱;
三,成为特定赛道的企业服务软件,比如服务营销、开发等需求量极大的赛道。
无论是哪条路,在2022年都已有雏形和早期沉淀。
时间不对
是不是商业化应用没有突破更准确些?
这个点文章没有证明
责任编辑:韦子蓉