媒体生产中的人工智能

网友投稿 398 2023-11-02

人工智能和机器学习技术的进步，使得制造商和广播公司能够开发和实现更加智能的工具和应用，以加速整个产品的生命周期。对广播公司而言，人工智能的吸引力在于其在利用机器来了解受众需求，管理数据，过滤特定主题的内容以及生产原创内容等方面表现出的高效性。本文将分生成视频，决定创意，简化编辑和优化存档四个方面介绍人工智能在媒体生产中的应用，重点是生成视频。

视频摘要

媒体生产中的人工智能

好莱坞开始使用人工智能来简化预告片的生成方式。基本方法是利用人工智能识别影片中的关键情节点，并根据已经知道的预告片和观众对这些预告片的反应来生成精简的预告片版本2017年9月，在20世纪福克斯的科幻恐怖电影《Morgan》的预告片（https://youtu.be/gJEzuYynaiw）中，人工智能第一次作为一项工具登上了舞台。《Morgan》的制片厂使用了IBM的Waston（一台拥有人工智能功能的超级计算机）来制作电影的预告片。IBM的研究人员将100个与《Morgan》同类型的电影预告片按照“场景”切分，用于训练Waston。Waston从视觉，听觉和情绪的角度分析数据，以“学习”什么使恐怖电影预告片更吸引人。当系统获得了对标准科幻恐怖电影预告片的“理解”，研究人员将90分钟的电影《Morgan》交给Waston，Waston立即推荐了10个“场景”共6分钟的镜头作为预告片。整个过程从开始到结束共花费了24小时，相比之下，传统的电影预告片开发过程通常需要几个星期。 IBM Waston Media高级产品经理David Kulczar说，“《Morgan》只是一个试点，我们将看到越来越多的接班人向这个方向前进。”IBM Waston在体育界也有过类似的尝试——通过从多个角度实时分析网球比赛过程中的视频片段和粉丝的反应，来生成比赛精彩片段。Kulczar强调，“我们正在朝着自动生产和在生产过程中使用人工智能技术的方向前进。”

国内的媒体也在积极尝试。2017年12月26日，中国第一个媒体人工智能平台“媒体大脑”由新华社正式发布上线。当日上午，中国第一条MGC（机器产生内容）视频新闻产生，机器仅耗时10.3秒，就生产出了一条2分08秒的视频新闻。MGC新闻，即运用人工智能技术，由机器智能产生的新闻。其生产过程是：首先通过摄像头、传感器、无人机等方式获取新的视频、数据信息，然后经由图像识别、视频识别等技术让机器进行内容理解和新闻价值判断。依托于大数据的“媒体大脑”会将新理解的内容与已有数据进行关联，对语义进行检索和重排，以智能生产新闻稿件。同时，人工智能还将基于文字稿件和采集的多媒体素材，经过视频编辑、语音合成、数据可视化等一系列过程，最终生成一条富媒体新闻。

人脸替换

近期大热的人工智能项目deepfakes，可以实现给视频中的人物换脸。如果把明星演的电影，主角的脸换成你的，是一张你的会动会有表情的脸，是不是会很有趣？

完成视频换脸，你需要做的事：

收集照片

分别收集需要进行替换的两个人的图像，可以使用各种图片搜索引擎。

从原始照片中提取面部图像

可以使用OpenCV提供的人脸检测函数，采用的算法是方向梯度直方图（Histogramof Oriented Gradient， HOG）。

在照片上训练模型

训练模型的一种方法是使用自动编码器（autoencoder），自动编码器的结构如下图所示：

左半部分是编码器（Encoder），右半部分是解码器（Decoder），输入的数据经过神经网络降维到一个编码（code），接着又通过另外一个神经网络去解码得到一个与输入原数据一摸一样的生成数据，然后通过去比较这两个数据，最小化他们之间的差异来训练这个网络中解码器和编码器的参数。

Deepfakes需要训练两个自动编码器，第一个自动编码器只与需要被替换的人脸相关。训练得到编码器和解码器A。

第二个自动编码器只与用来替换的人脸相关，与第一个自动编码器共享同一个编码器，训练得到解码器B。

使用模型转换原视频

在原视频中检测出需要替换的人脸，将这些图片输入到训练好的编码器中，用解码器B解码，然后替换回原视频中。

内容修改

内容结构和基于对象的分析开辟了人工智能协助实际内容开发的新途径。学习屏幕上角色的行为，走动，谈话以及所有可能的面部表情的细节，人工智能系统可以创建出虚拟的表演。华盛顿大学的研究人员创造了一个超现实的巴拉克·奥巴马发表的演讲，事实上他并没有给出过这样的演讲：

http://nationalpost.com/news/world/ai-creates-hyper-realistic-video-of-barack-obama-delivering-a-speech-he-never-gave。

这个演讲中的部分内容，是来自奥巴马的其它演讲，结果是奥巴马在西区演讲的视频，包含了许多他在其它场合发表的言论，甚至还有奥巴马模仿者的话语。

其基本流程如下图所示：

基于训练好的循环卷积神经网络（Recurrent Neural Networks， RNN）将输入的音频转化为一段嘴型序列

合成嘴部纹理

增强纹理细节和牙齿

将嘴型与真实视频中的脸部混合并且匹配头部动作

该技术引起了一些令人不安的可能性，但研究人员表示，目前为止使用这种技术发表的任何虚假言论都相对容易被发现，甚至可以使用相同的技术对其他视频进行逆向工程，以确定它们是否是假的。

人工智能在内容创造的领域还只是迈出了一小步。生产过程中仍然存在许多方面可以从人工智能获益。

决定创意

制造商使用神经网络来综合多种复杂因素，以确定哪种类型的内容值得生产。例如，如果你知道你的电视剧视频具有最高的浏览量，通常情况下，你可能倾向于制作更多的电视剧视频。但是，如果考虑到其他因素（如生产成本，人才成本，权利和许可，受众参与，社交传播，联合机会等），你可能会发现喜剧视频往往具有较高的投资回报率。人工智能是推动这些深度计算的引擎。

2016年3月日本广告公司MaCann Erickson推出了名为AI-CD ß的人工智能创意总监。驱动这个人工智能创意总监的机器学习算法的训练数据包括电视节目以及近十年日本电视节获奖作品的详细信息。通过数据挖掘，系统可以提取适合特定客户的广告创意和主题。

2016年9月，AI-CD ß与MaCannErickson创意总监Mitsuru Kuramoto进行了一场友谊赛，为一个薄荷糖品牌制作广告，广告最终由民意测验来评判。虽然最终AI-CD ß以46%：54%惜败Mitsuru Kuramoto。但是这个尝试显示了人工智能在广告制作上的前景。

简化编辑

使用传统的方法，基于数小时的原始镜头来制作纪录片，通过手动排序和捕获某素材的相关信息将耗费数周时间，更不用说汇总相关的片段进行编辑了。使用人工智能，可以通过两种方式消除大部分的时间：（1）通过面部，对象和文本识别自动捕获大量的元数据；（2）通过优化搜索，快速找到内容池中的关键帧。这样，当编辑需要特定帧的时候，可以使用人工智能更快地找到它。

优化存档

假设你在素材上花了很多钱，想从中获得最大的收益。人工智能可以通过强大的元数据捕获技术对现有内容进行索引，你会发现现有的存档内容可以更容易地重新调整以供将来使用。例如，在一个已经购买的素材包内找到相关的视频片段来补充一场直播可以在几分钟内完成而不是几个小时。目前Ooyala Flex与Microsoft Video Indexer在这一领域有密切的合作，希望使用这项技术帮助发行商克服传统方法繁琐的缺点。

总结

对于人工智能现在以及将来会给媒体生产带来的影响，Valossa首席执行官兼首席技术官Mika Rautiainen表示，不断变化的媒体形式以及对消费和创造的挑战意味着视频需要更快速地生成，并且通过多平台以不同的格式提供。“所有这些都需要创建，制作，交付和管理录制的视频材料的更高效的流程。。. AI可以得到有效的培训，以简化最耗时和重复的流程”。

标签：神经网络图像识别

媒体生产中的人工智能

视频摘要

人脸替换

收集照片

从原始照片中提取面部图像

在照片上训练模型

使用模型转换原视频

内容修改

合成嘴部纹理

增强纹理细节和牙齿

决定创意

简化编辑

优化存档

总结

工业机器人行业研究报告：景气周期开启，智能制造先锋

抓住新基建机遇打造物联网可持续发展生态体系

青海磁片视觉检测设备，革命性的卓越技术

最近发表

热评文章

机器视觉软件有哪些品牌？- 您需要了解的最佳选择！

什么是智能工业平台公司？

全自动机器视觉软件有哪些？完全详解与推荐

数智化智能制造工厂解决方案-实现工业智能化的关键

智能制造行业分类 - 了解智能制造行业的各个方面

机器视觉检测系统完整解决方案及应用范围

媒体生产中的人工智能

视频摘要

人脸替换

收集照片

从原始照片中提取面部图像

在照片上训练模型

使用模型转换原视频

内容修改

合成嘴部纹理

增强纹理细节和牙齿

决定创意

简化编辑

优化存档

总结

微信扫一扫：分享

最近发表

热评文章