欢迎光临
我们一直在努力
您的位置:首页>机器人DIY >

Google的AutoFlip使用AI为您裁剪视频

为电视拍摄和编辑的视频通常是在横向上创建和观看的,但是有问题的是,长宽比(例如16:9和4:3)并不总是适合用于观看的显示器。幸运的是,谷歌正在对此案进行调查。今天,它详细介绍了AutoFlip(一种用于智能视频重定帧的开源工具)。给定视频和目标尺寸,它会分析视频内容并制定最佳的跟踪和裁剪策略,然后以所需的宽高比生成具有相同持续时间的输出视频。

正如Google Research的高级软件工程师Nathan Frey和高级软件工程师Zheng Sun在博客中指出的那样,传统的视频重帧方法通常涉及静态裁剪,这通常会导致效果不理想。更好的定制方法是更好的方法,但是它们通常需要视频管理者手动识别每个帧中的显着内容,跟踪它们在帧之间的过渡,并在整个视频中相应地调整裁剪区域。

相比之下,由于AI对象检测和跟踪技术能够智能地理解视频内容,因此AutoFlip是完全自动的。系统检测表示场景变化的构图变化,以便隔离场景进行处理。在每次拍摄中,它主要通过选择优化的摄像头模式和路径,使用视频分析来确定场景重新定位之前的显着内容。

为了检测视频中的镜头何时发生变化,AutoFlip会计算每个帧的颜色直方图,并将其与先前的帧进行比较。如果框架颜色的分布以与滑动历史窗口不同的速率变化,则发出镜头变化的信号。自动翻转将视频缓冲到场景完整为止,然后再进行重新构图决策,以优化整个场景的重新构图。

AutoFlip还利用基于AI的对象检测模型来查找框架中有趣的内容,例如人,动物,文本叠加层,徽标和运动。人脸和物体检测模型通过MediaPipe与AutoFlip集成,MediaPipe是一个框架,该框架可以开发用于处理多峰数据的管道,该管道在处理器上使用Google的TensorFlow Lite机器学习框架。据Google称,这种结构使AutoFlip可以扩展,因此开发人员可以为不同的用例和视频内容添加检测算法。

AutoFlip会根据对象在场景中的行为方式自动选择一种重新构图策略-固定,平移或跟踪。在固定模式下,重新构架的相机视口固定在一个位置(如固定的三脚架),在该位置可以在整个场景的大部分时间内查看重要内容。另一方面,“平移”模式以恒定的速度移动视口,而“跟踪”模式则可在对象在框架内四处移动时提供对对象的连续和稳定的跟踪。

根据选择的重新构图策略,“自动翻转”为每个帧确定一个裁剪窗口,同时保留感兴趣的内容。配置图提供了用于重新构图的设置,以便在无法覆盖所有所需区域的情况下,系统将通过应用信箱效果,填充图像以填充框架来自动切换到较不积极的策略。AutoFlip将使用背景色(如果是纯色)来确保填充物融合,否则将使用原始帧的模糊版本。

研究人员留给未来的工作,以提高AutoFlip检测“与视频意图相关的对象”的能力,例如采访中的说话者检测或卡通上的动画人脸检测,并确保输入的视频在屏幕边缘覆盖(例如文字或徽标)不会从视图中裁剪出来。但是他们断言,即使以目前的形式,AutoFlip也将“减少……设计创造力的障碍。”

“通过结合文本/徽标检测和图像修复技术,我们希望未来版本的AutoFlip可以重新放置前景对象,以更好地适应新的宽高比。[并且]在需要填充的情况下,深度的非裁剪技术可以提供更好的扩展能力,使其超出原始可视区域。” Frey和Sun写道。“我们很高兴直接向开发人员和电影制片人发布此工具,从而减少了其设计创意的障碍,并通过视频编辑自动化达到了这一目标。随着视频内容消费设备的多样性不断迅速增加,使任何视频格式适应各种宽高比的能力变得越来越重要。”

免责声明:本网站图片,文字之类版权申明,因为网站可以由注册用户自行上传图片或文字,本网站无法鉴别所上传图片或文字的知识版权,如果侵犯,请及时通知我们,本网站将在第一时间及时删除。