文本生成视频初露头角 - 比思論壇

聊天机器人ChatGPT的爆红，让生成式人工智能（AI）成为科技领域的“当红炸子鸡”。除了如今“霸屏”的类似ChatGPT的语言模型之外，生成式AI领域还有大量其他技术：文本生成图像正在成为一种主流的聊天形式，而能够将文本转换成视频的生成式AI则是“羞答答的玫瑰静悄悄地开”，有望成为该领域下一个“大事件”。

但专家也指出，尽管文本生成视频AI有望应用于娱乐、艺术等诸多领域，但从技术到伦理道德等多方面都面临挑战。

纽约人工智能初创企业朗韦（Runway）公司软件架构师伊恩·桑萨韦拉在电脑上输入了一段简短的文字：森林中一条宁静的河流。

约两分钟后，该公司开发的生成视频模型Gen-2就生成了一段短视频：在阳光的照耀下，河面波光粼粼，河水蜿蜒穿过森林和草丛，轻轻撞击岩石。

朗韦公司计划近期向少数测试人员开放Gen-2服务。该公司表示，用于图像和视频合成的深度神经网络正变得越来越精确、逼真和可控，也使人们能获得极其逼真且兼具美学艺术的图像，催生合成媒体的兴起。

据“数字趋势”网站3月27日报道，仅过去7天就有5款此类AI视频生成器面世：朗韦公司的Gen-2，美易（Picsart）公司的Text2Video-Zero、Video-P2P、TemporalNet，以及中国阿里巴巴公司研发的Text-to-video。

弄潮儿向潮头立！这些系统AI竞争进入下一个阶段，微软和谷歌等行业巨头和小规模初创企业纷纷入局。

据《印度时报》报道，早在2022年9月，元宇宙平台公司就展示了“制作一段视频”（Make-A-Video）软件。只需输入几个字词，软件就能制作出无声视频。谷歌公司紧随其后，推出了生成式AI模型Imagen Video。该公司称，给出一段文本提示，Imagen Video就能生成高清晰视频。该公司还展示了另一款模型Phenaki，目标是在输入文本的基础上，制作出长视频。

《纽约时报》的报道指出，这可能是技术领域的下一个重大事件，其重要性堪比网络浏览器或iphone的诞生。

比如，桑萨韦拉生成的“清泉石上流”的视频时长只有4秒，如果细看，会发现画面不太连贯，画质也比较模糊，有时还会出现怪异、扭曲、令人不安的画面。

美国《Vice》杂志网站则在3月28日的报道中，将AI生成的“威尔·史密斯吃意大利面”的视频评为最怪异AI生成视频。在Modelscope生成的视频中，面容扭曲的史密斯看起来更像由他配音的电影《鲨鱼故事》中那条怪异的鱼，他试图将成堆的面条舀进嘴里，从叉子上或手中咀嚼大块意大利面。这是一个噩梦般的定格动画视频，仅由一行无害的文字生成：威尔·史密斯吃意大利面。

DeepMedia.AI是一家美国初创公司，其为美国政府构建数据集，为高精确检测“深度造假”内容提供支持，该公司创始人兼首席执行官瑞杰勒·古普塔4月4日接受媒体采访时指出，目前AI生成的视频存在两个主要的问题：首先，单帧并不完全逼真；其次，帧与帧之间的衔接并不流畅。不过，通过使用越来越多的数据训练，这种技术应能解决这些问题，快速提高和扩展这些文本生成视频系统的能力。

改良后的视频生成系统可加快电影制片人和其他数字艺术家的工作速度。专家认为，他们很快就能在这些系统的加持下，制作出配有音乐和对话、看起来非常专业的微电影。

有专家认为，未来AI生成视频有可能制作出可信且良好的内容，并唤起人类的情感。

这些系统还会成为一种快速制造难以觉察的网络虚假信息的新方式，使人们更难辨别互联网上的真实信息，深度伪造技术目前所带来的问题可能会变得更加严重。

美国麻省理工学院人工智能教授菲利普·伊索拉就表示，如果看到高分辨率的视频，人们很可能会相信它。还有专家指出，随着人工智能语音匹配的出现，以及逐渐拥有改变和创建几乎触手可及的逼真视频的能力，伪造公众人物和普通人的言行可能会造成不可估量的伤害，“潘多拉的魔盒已经打开”。