在 Google,我们正在积极探索人们如何在制作多媒体内容时使用由机器学习和计算方法提供支持的创意工具,从创作音乐和重新构建视频到绘图和更多。一个创意过程,尤其是视频制作,尤其可以从这些工具中受益,因为它需要就哪些内容最适合目标受众、如何在视野内定位可用资产以及时间安排进行一系列决策将产生最引人注目的叙述。但是,如果可以利用现有资产(例如网站)来快速启动视频创作呢?企业通常托管包含有关其服务或产品的丰富视觉表示的网站,所有这些都可以重新用于其他多媒体格式,例如视频,从而有可能使那些没有大量资源的人能够接触到更广泛的受众。
在UIST 2020 上发布的“从网页自动创建视频”中,我们介绍了 URL2Video,这是一种研究原型管道,可根据内容所有者提供的时间和视觉约束自动将网页转换为短视频。URL2Video 从 HTML 源中提取资产(文本、图像或视频)及其设计风格(包括字体、颜色、图形布局和层次结构),并将视觉资产组织成一系列镜头,同时保持外观相似到源页面。给定用户指定的纵横比和持续时间,然后将重新利用的材料呈现为适合产品和服务广告的视频。
URL2Video 概览
假设用户提供了一个指向说明其业务的网页的 URL。URL2Video 管道会自动从页面中选择关键内容,并根据一组启发式方法,从与熟悉网页设计和视频广告制作的设计师的访谈中得出,并决定每个资产的时间和视觉呈现。这些由设计师提供信息的启发式方法可捕捉常见的视频编辑风格,包括内容层次结构、限制镜头中的信息量及其持续时间、为品牌提供一致的颜色和风格等。使用此信息,URL2Video 管道解析网页,分析内容并选择视觉上显着的文本或图像,同时保留其设计风格,它根据用户提供的视频规范进行组织。
网页分析
给定网页 URL,URL2Video 提取文档对象模型(DOM) 信息和多媒体材料。出于我们研究原型的目的,我们将域限制为静态网页,这些网页包含保留在 HTML 层次结构中的显着资产和标题,遵循最近的网页设计原则,鼓励使用突出的元素、不同的部分和引导读者感知信息的视觉焦点顺序。URL2Video 将这些视觉上可区分的元素标识为资产组的候选列表,每个列表可能包含标题、产品图像、详细描述和号召性用语按钮,并捕获原始资产(文本和多媒体文件)每个元素的详细设计规范(HTML 标签、CSS 样式和渲染位置)。然后,它根据资产组的视觉外观和注释(包括其 HTML 标签、渲染大小和页面上显示的顺序)为每个资产组分配一个优先级分数,从而对资产组进行排名。这样,在页面顶部占据更大区域的资产组获得更高的分数。
基于约束的资产选择
我们在制作视频时考虑两个目标:(1)每个视频镜头都应该提供简洁的信息,以及(2)视觉设计应该与源页面保持一致。基于这些目标和用户提供的视频限制,包括预期的视频时长(以秒为单位)和宽高比(通常为 16:9、4:3、1:1 等),URL2Video 会自动选择和订购资产组以优化总优先级得分。为了使内容简洁,它仅呈现页面中的主要元素,例如标题和一些多媒体资产。它限制了观众感知内容的每个视觉元素的持续时间。这样,短视频从页面顶部突出显示最显着的信息,而较长的视频包含更多的活动或产品。
场景合成和视频渲染
给定一个基于 DOM 层次结构的有序资产列表,URL2Video 遵循从访谈研究中获得的设计启发法来决定时间和空间安排,以在单个镜头中呈现资产。它将元素的图形布局转换为视频的纵横比,并应用包括字体和颜色在内的样式选择。为了使视频更具动态性和吸引力,它会调整资产的呈现时间。最后,它将内容呈现为 MPEG-4 容器格式的视频。
用户控制
研究原型的界面允许用户查看从源页面提取的每个视频镜头中的设计属性,重新排列材料,更改详细设计,例如颜色和字体,并调整约束以生成新视频.
URL2Video 用例
我们展示了端到端 URL2Video 管道在各种现有网页上的性能。下面我们重点介绍一个示例结果,其中 URL2Video 将嵌入多个短视频剪辑的页面转换为 12 秒的输出视频。请注意管道如何对从源页面捕获的视频中的字体和颜色选择、时间和内容排序做出自动编辑决策。
为了评估自动生成的视频,我们与 Google 的设计师进行了一项用户研究。我们的结果表明 URL2Video 有效地从网页中提取了设计元素,并通过引导视频创建过程来支持设计师。
后续步骤
虽然当前的研究侧重于视觉呈现,但我们正在开发支持视频编辑中的音轨和画外音的新技术。总而言之,我们设想了一个未来,创作者专注于做出高级决策,而 ML 模型交互地建议详细的时间和图形编辑,以在多个平台上创建最终视频。