爱诗科技王长虎：全球用户量最大的国产AI视频生成产品，是怎么炼成的？

文章正文

发布时间：2024-05-01 16:06

2024 中国生成式 AI 大会于 4 月 18-19 日在北京举行，在大会首日的主会场开幕式上，爱诗科技创始人兼 CEO 王长虎博士以《AI 视频生成——用像素构建星辰大海》为题发表演讲。

王长虎深耕计算机视觉与 AI 领域 20 年，曾任微软亚洲研究院主管研究员，2017 年初加入字节跳动，而后担任字节跳动 AI Lab 总监，从 0 到 1 支撑了抖音、TikTok 等国民级视频产品的建设与发展。2023 年 4 月，他创办 AI 视频大模型创企爱诗科技。

爱诗科技在今年 1 月上线的海外版产品 PixVerse，是当前全球用户量最大的国产 AI 视频生成产品，国内版（爱诗视频大模型）也在今年 3 月上线内测。上线 88 天，PixVerse 达成了一千万次视频生成量的里程碑。

今年 2 月，Sora 横空出世，点燃了大众对视频生成的热情，也为深耕该领域的从业者带来了前所未有的机遇和挑战。在技术层面上，Sora 验证了 DiT 架构在视频生成中的 Scaling Law（规模定律），并证实了这个方向的可行性。在王长虎看来，追赶 Sora 的窗口期在一年前，也就是爱诗科技成立的 2023 年。

过去一年，视频大模型经历着量变到质变。王长虎认为，中国在短视频领域领先全球，同时短视频也是最贴近用户的内容形态。目前视频生成技术还没有到 ChatGPT 时刻，他称自己有一支在全球 AI 视频领域最能打硬仗、打胜仗的团队，希望最大程度降低视频创作门槛，实现技术普惠。

以下为王长虎的演讲实录：

过去这一年，视频生成领域进展迅速，从无人问津到众所周知。今天借这个机会，希望能跟大家聊一聊过去一年我的一些体会和浅见。

大家应该非常熟悉这个视频了。今年大年初七凌晨，Sora 横空出世，进一步激发了大众对 AI 视频生成的热情。很多评论、解读铺天盖地而来，很多大 V、大佬们也纷纷发言，包括马斯克、周鸿祎以及各种媒体。

大年初七一大早，我被微信吵醒了，很多投资人、朋友、家人、同事纷纷发来问候，好像又碰到那句话：" 元芳你怎么看？"

当时最令我开心的是这条，我们公司一位优秀的候选人第一时间给我发信息，说 " 我要加入你们 "，因为视频生成这件事 " 太大了、太重要了，时不我待 "。

这是一张当时在国外互联网上广为流传图片——一众视频生成模型膜拜 " 新王 "Sora。看到这张图后，我的心情很复杂。

我们的产品叫 PixVerse，很荣幸 " 跪 " 在了第一排，跟 Runway、Pika、SVD 等当时最好的视频生成产品放到一起，也是这张图里面唯一一家中国公司。

但另一方面，我们前面有一个巨人，还需要进一步超越它。

有人问我，Sora 出现之后你会不会焦虑？中美之间的视频大模型差距会不会越来越大？爱诗作为创业公司，接下来路怎么走？

在我看来，Sora 的出现是 2024 年春节期间我收到的最好的礼物。

一、Sora 验证了 DiT 架构，追赶 Sora 的窗口期在一年前

我们是在去年整个视频生成行业还非常冷的时候，加入这个赛道的，并且在 Sora 出来之前，产品实测效果已经走到全球视频生成第一梯队。

这就像一个人在戈壁徒步，已经走在最前面，需要继续探索的时候，突然看到前面有一些脚印，那时候的感觉一定是非常开心。

一方面，这验证了这个方向大概率是对的；另一方面，前面还有一个人能让你继续超越。因此，强大的对手是沙漠中的水源。

对于 Sora 的解读非常多，我就不详细展开了。在我看来，Sora 最大的贡献就是验证了 DiT（Diffusion Transformer）在视频生成中的 Scaling Law（规模定律）。

在基础计算量的时候，AI 生成的视频惨不忍睹，随着计算量加倍至 32 倍，生成视频几乎可以以假乱真，这更坚定了我们做视频生成的信心。

毋庸置疑，Sora 的出现推动了整个行业的进步和发展。但是很遗憾，至今为止我也没有机会试一下 Sora，我们想在座的绝大多数人都没有试过。

当前，Sora 只是一场 "卖家秀"，也特别期待有一天我们可以看到更多的 "买家秀"。Sora 出来之后，我们可以看到很多大厂、初创公司都去做视频生成了，要超越 Sora。

有人问我，超越、追赶 Sora 的最佳窗口期是多长时间？

在我看来，追赶 Sora 的窗口期是在过去这一年，是在视频生成行业很冷的那一年，是在 Sora 出来之前，整个业界对这个方向还不那么认可的一年。

二、视频生成去年不被看好，仍带领抖音 AI 视频团队 All in

回到一年前，我们可以看一下这个行业有多冷。

一年前的今天，OpenAI、Anthropic 分别获得了 100 亿美金、10 亿美金的融资，国内的很多大语言模型创企也纷纷拿到第一桶金数亿美金，更大的一笔钱还在融资计划中。

再看视频大模型。一年前，做视频大模型的公司，一只手都可以数得出来。国外 Runway 已经成立五年，拿到 2 亿美元融资；Pika 刚刚出现，拿到 2000 万美金；爱诗拿到数百万美元融资。

视频大模型和大语言模型相比，就像蚂蚁和大象一样。

去年上半年，我们聊了一些投资人。一位行业大佬第一时间打钱，成为了我们的天使领投，但更多投资人对这个方向可能看的还不是很清楚，也不是很认可。我们得到一些非常现实的建议，有人说大模型在中国没前途，还不如回家上班，或者建议尽快变现。

当时确实有非常多的选择，是继续创业还是回家？如果创业选择哪个赛道？是先做文生图，还是先做文生视频？

那时候，视频生成没有什么开源模型，需要从头去建设，且生成质量惨不忍睹。而 AI 图片生成产品 Midjourney 已经走出来了，每个月有数千万美元 MRR（月度经常性收入），有开源模型，所以很多创业公司都去做文生图。

如果选择视频生成，是做大模型还是做应用层？当时很多朋友找到我，说可以一起做游戏、电商、广告，能够很快变现。

但是在我看来，视频是最重要、也是离用户最近的一类内容。过去若干年，我们可以看到抖音、TikTok 这样的短视频产品，已经成为全球最重要、用户量最大的国民级产品，无论是下载量还是使用时长。

我们都知道抖音、TikTok 是中国团队做出来的，服务于全球。很有幸我和我的核心伙伴们从 2017 年开始，从 0 到 1 支撑了抖音、TikTok 这些产品背后的视频 AI。所以在 AI 视频生成领域，我们是全球最能打硬仗、打胜仗的团队，于是决定是 All in AI 视频生成。

三、给初创公司取个浪漫的名字，想用 AI 做最高级的内容

去年这个时候，在 Sora 出来之前，引用张一鸣的说法，这是一种 "务实的浪漫"。我们没有选择最容易的事情，而是选择当时可能非主流、非共识，但我们认为是正确的事情。做视频大模型是有生命力的，是面向未来的。

我们公司也取了一个有点浪漫的名字——爱诗，" 爱 " 是 AI 的意思，" 诗 " 是可以流芳千古的、最高级的内容，" 爱诗 " 的意思是用 AI 做最高级的内容。

去年 4 月份我们公司成立，7 月份开始训练大模型，经过大约几个月的时间，技术上已经成为全球第一梯队。今年 1 月份我们的产品 PixVerse 在海外上线，发展很快速。Sora 出来之前，我们在年前已经拿到了数亿元的第二轮融资。

这是去年 8 月，我们第一次训练好的一个完整模型生成的视频，时间很短，动作也很小，但是对我们来说是一大步。

有人问我，大语言模型跟视频大模型区别在什么地方？

在我看来，语言和视觉是两类完全不同的内容，语言是在人类出现之后才出现的，是人类文明的结晶，它已经对信息做了高度抽象和概括；而视觉在人类出现之前，山在那里、水在那里，它是更原始的东西。

当大模型出现之后，人们对大模型的期待是模拟人脑，是新的硅基生命，是人内部的东西。而视频生成大模型出现之后，人们的期待是什么？是对世界进行模拟、建模。

视频生成本质上是理解这个世界，然后做影像呈现，这种呈现经历了从记录到生成的演进过程，这里我们列举了三个影像记录历史中很重要的时刻。

在三万多年前，人类已经在岩壁上去呈现自己看过的一些群狮奔跑的画面；1826 年，法国的摄影先驱制作了第一张可以长期展现的照片；1872 年，人类历史上第一个视频出现了，它源于两个美国人关于马飞奔过程中蹄子是否同时腾空的探讨。从视觉的呈现到视频的生成看起来很远，事实上离我们很近。

小时候过年，我的父亲总会给我做各种各样的灯，其中有一种灯叫 " 走马灯 "。我们要点燃蜡烛，蜡烛推动热气上升，带动轴轮的转动，轴轮上面会绑上一些剪纸，烛光通过剪纸映射到最外边一层的屏上，走马灯就呈现了这样动态的效果。右边的连环画是我很快乐的童年记忆，也是一种原始的 " 视频生成 "。

当抖音、快手这样的短视频产品逐渐成为主流，越来越频繁影响我们的生活的时候，我们可以看到视频生成技术也逐渐出现了。

最早期阶段是检索生成，即视频里的每一个片段都是从海量数据中检索而来，不是纯粹生成的，通过自动或者人工方式拼接在一起，现在在短视频平台里面也可以看到这样的视频。

第二阶段是部分生成，我们在玩抖音、TikTok 的时候会看到里面有很多特效，其中有一个特效 " 控雨 "，用户录制视频的时候用手掌可以控制雨让它停掉，并且有一些微动。这类视频总是有一个原始的视频，在这个基础上做一些局部生成，包括特效里面的美颜、动漫风、换个狗头、加个猫耳朵都是这样。

最后是我们现在提到的真正意义上的视频生成，是凭空生成的。

视频生成技术可以追溯到十年前，GAN（生成对抗网络）的出现开始。之后的若干年，局部生成领域大放异彩，虽然有很多通用生成、文生视频的技术出现，但是效果也很差。

直到 Diffusion 扩散模型的成功，2023 年出现了非常多的文生视频的技术、产品，有谷歌的 VideoPoet、英伟达的 Video LDM、Runway 的 GEN-2，还有 Pika 以及我们的 PixVerse。

但是 2024 年 Sora 出现，表明过去这一年无论是数据量、计算量还是参数量都有非常大的提升。

这里我选了几个模型，2023 年 7 月份发布的 AnimateDiff、2023 年 12 月发布的 VideoPoet 以及 2024 年 2 月发布的 Sora，其中关于 Sora 参数都是道听途说，有可能不准，也有可能比较保守。我们看到一年之内，这些参数都有巨大的提升，这也带来了视频生成产品的提升。

四、上线 88 天生成 1000 万次，PixVerse 已解决多镜头一致性问题

我们在去年 11 月份初发布了 PixVerse 测试版，今年 1 月份正式发布了 Web UI 的版本，提供了文生视频、图生视频以及我们首创的 Character to Video，用户只要上传一张照片就可以成为视频的主角，可以解决多镜头的一致性问题。

最后一张视频大家能看出是谁吗？这是我们开发出这个模型之后生成的第一个视频，我自拍一下输进去，让它生成一个我在跑步的视频，" 他 " 的身材比我好多了。生成后我第一时间发到我们健身群里面，告诉大家我的 " 健身效果显著 "。

现在已经有很多的创作者用 PixVerse 替代摄像机、演员、布景来创作大片。中间一张图是一个俄罗斯用户在今年 1 月份创作的一个 AI 科幻片 Last Mission，每个镜头都是 PixVerse 做的，这也是在海内外有广泛影响的影片。

很多国内用户也在用我们的产品。前段时间我们受邀到一个省级电视台去交流，惊讶地发现有很多编导已经在用 PixVerse 做 AI 视频。他们也很惊讶这个产品团队居然就在在国内。

下面这个视频是国内一个导演 " 闲人一坤 "，利用 PixVerse 创作出来的中式奇幻片《山海奇镜之劈波斩浪》，也是国内播放量最大、影响力最大的 AI 视频之一。《山海奇镜之劈波斩浪》已经被快手平台采购，据悉将在 5 月上线。

PixVerse 发布之后，我们跟创作者交流过程中，也遇到很多感人的瞬间。

这是国内一个 54 岁的老大哥给我们发的一封邮件，他想申请加入我们的创作者计划，说他前些天戴着老花镜花了一整天时间，用 PixVerse 和剪映做成第一条 AI 片子。他说，使用 PixVerse 的过程中让他享受了创作的愉悦，并且跟我们分享了一些他的故事。这是意料之外的感动。我们看到自己的产品不仅有导演、专业创作者用起来，普通用户也能受益。

还有一位乌克兰导演，因为宏观经济原因失业了。他用了 PixVerse 觉得非常棒，想为我们社区发展助力。他当时创作了第一个关于香水的广告大片，在海外很火，很多商家看到了，付费让他帮忙创作广告，之后他又创作了一系列啤酒、钻石等广告，获得了收入。这里面每个镜头都是通过 PixVerse 做出来的。

前几天我发了一个朋友圈，纪念我们一千万次视频生成。我想每一个视频背后都可能有一个故事，但这也只是我们的一小步，希望未来能够服务于更多的用户。

现在视频生成技术还没有到 ChatGPT 时刻，还在快速发展过程中。但是我们已经欣喜地看到专业创作者们，在应用我们产品来替代镜头、演员、场景来生成大片，逐渐地去改变原有的视频生产创作工作流，我们也期待未来有更多的行业，游戏、动漫、教育、影视等受益于视频生成技术的发展。

当然，我们也希望能够在最大程度上降低使用的门槛，不仅创作者们能够用起来，每天玩抖音、玩 TikTok 的普通消费者们也能够用我们的产品，轻松地使用 AI 视频生成产品将创意转变为现实。我们希望能够做到技术普惠。

我们的产品名字叫 PixVerse，Pix（Pixel）代表像素，Verse（Universe）代表宇宙。AI 视频生成，就是 "用像素构建星辰大海"。

以上是王长虎演讲内容的完整整理。