一秒修复《富春山居图》，AI绘画火了

一秒修复《富春山居图》，AI绘画火了-创新湾

本文来自微信公众号：东四十条资本（ID：DsstCapital），作者：刘燕秋，原文标题：《AIGC火了，VC正在催FA推案子》，头图：东四十条资本。

我输入关键词：冬日海面，鲸鱼，甜甜圈，c4d渲染，装饰管线。

十分钟后，群里的机器人给我发过来一张色彩瑰丽且颇具想象力的图片：鲸鱼从冬日微微冒烟的海面浮出，棕褐色的甜甜圈似海里巨大的岩石。

作为一个带有猎奇心理的试用者，我很满意。

老实说，我发出的指令只是一些我喜欢的东西构成的词汇，我并没有想过这些组合在一起会是什么样子，但仅靠文字描述，AI就帮我具体地描绘了一个理想世界（头图）。

这是最近火爆的AIGC概念的一次生动应用。

所谓AIGC（AI-generated content），按照中金7月发布的研究，指的是一种通过AI技术来自动或辅助生成内容的生产方式。通过输入指令，人类让AI去完成冗杂的代码、绘图、建模等任务，从而生成内容。

红杉美国的两位合伙人最近也在一篇题为《Generative AI: A Creative New World》的文章里写道：机器开始尝试创造有意义和美丽的东西，这个新类别被称为“生成式AI（Generative AI）”，这意味着机器正在生成新的东西，而不是分析已经存在的东西。

“人人都能成为创作者”，过去我们一再使用类似的话语，表达技术演进给内容生产带来的变革。如果说短视频一类工具的出现降低了表达的门槛，那么AI工具的应用无疑让这句话更为贴近现实，其商业前景同样广阔。中关村大数据产业联盟发布的《中国AI数字商业展望2021-2025》报告预测，到2025年，中国AI数字商业核心支柱产业链规模将达到1853亿元，其中AI数字商业内容产业规模将达到495亿元。

海外，人工智能艺术家和艺术品迅速涌现。谷歌、微软、Meta等科技公司扎堆AI绘画，Disco Diffusion、DALL-E 2、Stable Diffusion、Midjourney、Make-A-Scene、NUWA等平台正在重新定义设计的想象力。

国内也已经暗流汹涌。在今年7月的百度世界大会上，AI用时1秒就复原了《富春山居图》残卷，应用的正是百度开发的飞桨和文心大模型技术。以TIAMAT为首的一些脱胎于中文环境的生成式AI生成内容平台也转入爆发式增长。

每一波小趋势的出现无一例外总能牵动投资人的情绪。“今年七八月份开始，这个赛道慢慢火起来了，从9月份到现在，铺天盖地到处都是AIGC。”有从业者向我透露。

海外的AIGC赛道已经跑出了独角兽。10月18日，Stable Diffusion背后的Stability AI宣布获得1.01亿美元来自Coatue和光速的投资，投后估值攀升至10亿美元。

我了解到的消息是：一个还在内测阶段的AI生成内容平台已经被十余家美元基金围猎；不少VC都在催FA给他们推类似的项目；一些原来业务更To B的公司也推出了面向C端的产品，比如，9月底，AI模特图片解决商ZMO推出用文字驱动Photoshop的新产品，这家公司已经拿到高瓴、金沙江和GGV的钱。

“AI在细分领域的应用一直是DCM关注的主题，在DCM的Portfolio里不仅有弘玑Cyclone这种RPA+AI公司，还有专注在AI药物研发的星药科技，AI工业视觉的阿丘科技等，快手中也大量应用了AI推荐机制。大概在去年年底，我们关注到国外的技术进展和代表性的内容生产公司，开始密切关注用户端的内容生成工具。”DCM投资人告诉我。上周，生成式AI平台TIAMAT宣布完成数百万美元天使轮融资，DCM也是本轮的投资方。

那么，还是要回到一个关键问题，AI生成绘画为什么在2022年火了？一个随之而来的老生常谈的问题是，文字工作者之后，这回该轮到插画师失业了吗？

AI绘画，为什么在2022年火了？

简单来说，这波AI绘画产品的流行背后是关键技术的突破，转折发生在去年年底到今年年初。

TIAMAT创始人青柑告诉我，团队从去年下半年开始一直在做CV和NLP相关的东西。过去业内已经开发了很多生成图像的技术模型，但当时在全球技术社区里，大家的统一认知是，接下来会是Diffusion模型的未来。

这个模型有何特别之处？

过去在AI领域，NLP涉及到的是自然语言处理，可能应用在自动续写小说、剧本等领域，而图形领域主要研究的是CV、CG、视觉识别或者自动驾驶。但图形是一种模态，文字是另一种模态，两个模态之间的互相理解和应用是难以跨越的技术难题。

此前应用较多的是由 Open AI提出的CLIP模型，这个模型使用已经标注好的”文字-图像”训练数据，一方面对文字进行模型训练，同时对图像进行另一个模型的训练，不断调整两个模型内部参数，使得文字特征值和图像特征值能让对应的”文字-图像”确认匹配。

但这个在2021年上半年提出的模型一直没有很好的落地应用场景，直到2021年下半年结合了Diffusion模型。事实上，学界早就提出了Diffusion模型，只是过去没有人把它应用在文本到图像之间的网络。

现在，这道技术上的门槛被迈了过去。CLIP + Diffusion 模型不仅可以支持从文字直接生成图像，而且图像的水准已经成熟到可以在商业场景落地，于是，正如我们看到的，大量AI绘图应用扎堆出现。

这是Diffusion模型主导的时代，它构成市面上所有AI生成图像的底层技术，但每一个公司可以在上面开发出自己的框架和模型，因此生成的图像质量也各不相同。这就好比Diffusion是若干砖头，大家都在拿它搭房子，但搭出的房子五花八门。今年初率先走红的AI绘画平台 Disco Diffusion是第一个基于CLIP + Diffusion 模型的产品，开源的Stable Diffusion则是很多人眼中目前市面最强产品。

“更好的模型，更多的数据，更多的算力”，在《Generative AI: A Creative New World》中，红杉的两位合伙人对生成式AI流行的原因进行了更全面地概括。

他们总结了这一领域经历的四波浪潮：

第一波浪潮：小模型（Small Models）占主导地位（2015年前）

第二波浪潮：规模竞赛（2015年-至今）

第三波浪潮：更好、更快和更便宜（2022+）

算力变得更便宜，新技术如扩散模型（Diffusion Models），降低了训练和运行所需的成本。

第四波浪潮：杀手级应用出现（现在）

“正如移动设备通过GPS、摄像头和网络连接等新功能释放了新类型的应用程序一样，我们预计这些大型模型将激发生成式AI应用程序的新浪潮。就像十年前移动互联网被一些杀手级应用打开了市场一样，我们预计生成式AI的杀手级应用程序也会出现，比赛开始了。”他们预判。

“众神之战”开启，谁是AI绘图之神？

去年年底，TIAMAT开始在各社交平台发布图片，同时向粉丝征集名字。TIAMAT就是投票出来的结果。这个名字的含义是，古巴比伦神话中的创世神，“象征用自然语言驱动生成内容，并以此创造一个世界”TIAMAT创始人青柑说到。

竞争激烈，已经有人将AI绘图的涌现比作“众神之战”，那么，谁是这个行业里真正的“神”？

今年8月，国外博主Eliso比较了DALL-E 2 、Stable Diffusion和Midjourney 三个AI图像生成程序。他发现，DALL-E 2 生成的图像通常能最大限度地遵循提示；Stable Diffusion对某些提示效果更好，而对另一些提示效果更差，但可以通过修改更精确的描述以使其正常工作；Midjourney 风格非常独特，但有时与输入的关键词不符。他的结论是：如果你只想使用这些 AI 中的任何一个，最好的选择是Midjourney 。如果不想付费使用，最好的选择是Stable Diffusion，只需要申请就能免费使用。

这当然是一个主观的结论。从用户的角度，UI、易用性、使用成本以及对关键词的理解程度等都是可比较的维度，逐一审视，当下的软件在不同应用场景下都各有其优缺点。

从专业的层面，决定一个AI图像生成产品形态的有三个维度。

其一是模型，这需要应用大量数据训练，这是一个花费高昂的过程。

国外，谷歌、Meta、微软等大厂都是AI内容生成的积极探索者，国内的互联网公司中，百度已经上线了中文版的AI绘画工具“文心·一格”，拥有海量数据的大厂在这一赛道会有先发优势吗？

在青柑看来，国内大厂在模型上有一些进展，但在语义理解方面未必有海外成熟。这跟数据息息相关，用于训练的模型数据必须非常“干净”，必须是“有效的、匹配的、可增强的数据”。具体来说，光有图片不行，一张图片旁边必须配一句对图像精准的描述才算合格。从这个层面说，大厂如果没有提前收集、整理数据，那么跟创业公司几乎是在同一起跑线上。“可能会有一些数据积累的优势，但也需要花费时间和成本校对那些数据。”

每个公司都有自己数据接入的方式，但从结果上看就是，谁能更快速地获得更多有效数据，谁的壁垒就会越来越高。

其二是工具，这涉及到如何使用模型，比如在交互方式上，是用文本去调动图像生成还是图像加文本调动图像生成？

其三是社区，海外的平台一般都会配套创作者社区，因为谁在使用工具是一件很重要的事情。搭建在Discord上的Midjourney拥有超过百万人的社区，Midjourney创始人曾在采访中这样描述社区的重要性：“社区内有数百万人在制作图像，每个人都在互相模仿，产生新的美学。它们不是AI美学，而是新的有趣的人类美学。”

社区不仅是激发创作灵感的地方，在很大程度上也影响着AI生成图片的风格。“我们可以在社区里观察到，用户每天在发什么样的图，生成什么样的图，将图片用于什么样的场景中，再不断根据反馈来调整模型。”青柑告诉我。

和海外产品相比，TIAMAT目前的技术壁垒体现在对中文语义的理解上。生成图像的本质还是创造内容，内容就会有其生长和使用的文化土壤。如果你想用AI绘图复现心里的《桃花源记》，不管在积累的数据还是自然语言理解方面，海外的平台都并不能很好地达成这些目的。

比起英文，中文在自然语言理解的难度会陡然提高，如何消除歧义，更好地理解和表达中文语境，同时破解更复杂含蓄的“意境”，是TIAMAT团队最近想突破的难题。

诞生之初，AI绘画就伴随争议

像所有新技术一样，在令人惊叹的同时，AI绘画从诞生之初就伴随争议。其中一个争议，是版权及伦理问题。

为规避版权争议，TIAMAT和Midjourney都谨慎地在素材库中使用无版权的图片。但有熟悉这些工具的博主称，目前市面上所有AI工具生成的图片，即使付费，都只是“理论上可商用”，仍存在一定风险，风险主要来源于描述词会引来画风抄袭的争议。设计师努力创造一种特定的风格，但如果他们的作品被AI当做素材，会发生什么？

这种担忧并非多虑。《麻省理工技术评论》9月发布了一篇文章：数字艺术家 Greg Rutkowski 因为看到他的绘画风格被AI图像生成平台复制而不安，指向的正是刚发布不久的Stable Diffusion——生成式AI从网上抓取数据来训练自己的模型，有时会未经在世艺术家允许就收集他们的艺术作品。类似的声音已经在国内出现，画师九度乐最近在微博上抨击了这一现象，“难道以后发图要打上满屏的水印了吗……谁也不想自己辛苦半个月磨出来的图被AI拿去当素材库了”。

但从法律的层面，认定构成侵权行为并非易事。有熟悉相关法律的人士告诉我，所谓的“画风”更偏重主观感受上的归类，认定侵权先要明确权利，同时主张被侵权一方要承担主要的举证责任，和文字相比，构成更复杂的图片需要提供更充分翔实的证据支持。“AI的学习模式类似于一个‘运动员的集训’，配比数以百万计的‘如果’，才有可能出现期待的‘那么’或者‘结果’。不是因果论，是结果论。”

从伦理上讲，如果想将在世艺术家的作品用作素材，最好的做法是获取其授权，但因为AI绘画仍处于发展早期，这样的实践还不太多。

那个更具普世性的争议是，AI取代人工会不会构成对从业者的威胁？

8月，一幅由Midjourney自动生成的画作《太空歌剧院》在美国的一个美术竞赛中获得了一等奖，但因该作品由AI绘图工具完成，引发不少艺术家的指责。我无意围绕相关争议再展开讨论。AI生成图像之于构图创造力就像摄影之于绘画，把摄影作品和油画作品放在一起比较，这本身就不够合理。

但我们关心AI绘画的未来走向以及技术嬗变对人类带来的长期影响。这并非杞人忧天，已经有给AI打杂的精修插画师工种诞生了。就我个人的体验而言，AI绘画的质量、甚至其创造力和想象力都不一定比人类画师差，只是从工具的角度，现阶段AI对人类需求的理解还不够准确，生成的图像并不能完全匹配提示词。

这当然与技术的发展阶段有关。李彦宏曾判断AIGC将走过三个发展阶段：

第一个阶段是“助手阶段”，AIGC用来辅助人类进行内容生产；

第二个阶段是“协作阶段”，AIGC以虚实并存的虚拟人形态出现，形成人机共生的局面；

第三个阶段是“原创阶段”，AIGC将独立完成内容创作。

“我的出发点肯定不是做一个东西把自己的兴趣爱好替代掉，对吧？”青柑毕业于中科院上海科技大学，学的是计算机专业，但她在中学时代是个美术生，差点就去参加艺考。

她更喜欢跟我谈论“人机比”的说法，会思考未来在不同的行业里，人和机器的比例会是什么样。以Excel表格为例，过去是人来绘制表格并计算，现在人只要输入数据，其他的工作Excel都能代劳。在她眼中，内容生产行业正在发生类似的事情，只是人机比例不同，Excel让人的比例降得很低，但在内容生产领域，人仍然占据更高的比例。

AI内容生成平台的目的，是将人从机械劳动中解脱出来，释放人的创作想象力。目前，TIAMAT排队内测的用户在2万左右，C端用户覆盖设计师群体、游戏和影视从业者以及部分技术从业者。在To B端，时下央视网、《时尚芭莎》、《嘉人》发布的一系列主视觉均出自TIAMAT，TIAMAT也已经和知名IP版权方、头部游戏厂商等深度合作，提供概念设计、场景设计等，也能提供更潮流的营销方案和广告图像，同时也可以接入电商行业的工作流，帮助其提高效率和质量。

另一个关键的问题是，毕加索之所以是毕加索，是因为绘画理念的革新，AI可以做到这一点吗？它能输出真正的艺术家作品，还是只能生产仿品？

“TIAMAT现在每天生成的图像大概有十几万张，和人类学习绘画的过程类似，我们观察到，当把很多流派融合起来的时候，AI会创造一个新的流派。”这是青柑给我的答案。大胆预测，一方面，未来的艺术史中可能会出现AI流派。另一方面，AI生成的图像也会反向影响人类的审美，当我们越来越多地在生活中看到由AI生成的诡谲繁复的图像，人对美的定义也会渐渐变化。

前两天她还被TIAMAT生成的图像惊艳到。当时她输入的关键词是，人工智能预言的未来，生成的图像里，一个人站在繁复的像代码块堆叠起的历史长河里，似在凝望着未来。

prompt时代，也许离我们并不遥远了

回到开头的那张图，我不会画画，但我给AI输入了指令，最终的作品算是我的创作吗？

我很心虚。

但青柑认为，答案是不容置疑的。“人的主观性一定是第一步，人先有一个想法，然后映射到真实世界里，AI只不过是中间的映射器。”

生成式AI经由数据集模仿人类的想象力，数亿张图片的容量比个体记忆的容量要大得多。它们是出色的数据挖掘者，但至少在现阶段，它们仍然缺乏意识。

在DCM投资人George眼中，人类拥有自由意志，并乐于借助工具来表达和诠释，AI生成内容平台就是人类发明的一种新的内容生产工具。“人类文明发展的轨迹就是不断通过技术的演变，发明新的工具，然后用新的工具去跟世界连接，人和人之间互相连接，所以我们认为，AI生成内容是一个结构性的变革，是一种科学和艺术、人和机器的耦合。”

如果去想象其未来，TIAMAT这样的平台有可能发展成综合的AI内容创作平台。大家一开始都是通过prompt（在机器中输入关键词）的方式，书写一种人机耦合的语言来生产内容，但将来可以用的内容媒介会越来越多，人们在生产内容之后还会存储并回来搜索，在这个过程中产生更多反馈机制。

“从百度的搜索机制，到头条的推荐机制，到现在更新方式的prompt，是不是能通过它去引领一个新的内容生产创作的范式呢？”George抛出了一个面向未来的问题。

图片界的“今日头条”——这是我看到的某AI绘图平台写在BP上的定位。

无论如何，技术还在不断迭代。Make-a-scene已经支持上传简单的草图来生成图像；Stable Diffusion 很可能在一年之内就能在智能手机上运行；一些模型已经开始着手动态视频生成，比如，YouTube 上的创作者DoodleChaos最近使用 Disco Diffusion V5.2 Turbo 制作了一段完整的音乐视频。

在百度世界大会上，李彦宏预言，未来十年，AIGC将颠覆现有内容生产模式，可以实现以“十分之一的成本”，以百倍千倍的生产速度，去生成AI原创内容。

也许，“prompt一下”的时代离我们并不遥远了。

本内容为作者独立观点，不代表创新湾立场。如有异议，请联系创新湾。创新湾聚焦新科技、新产业，相关内容欢迎投稿。（投稿或转载请联系创新湾小编微信：EnnoBay2020）

一秒修复《富春山居图》，AI绘画火了-创新湾

领先一步看见未来

创新湾ID：EnnoBay