AIGC视频生成工具介绍 | 《Google AdSense实战宝典》📘

By snowyang, 9 六月, 2023

上一期文章我们介绍了AIGC图片及文本生成工具，本期我们将继续探讨AIGC在视频领域的应用，并重点介绍几个知名视频生成工具，以帮助大家更好地了解和利用这一技术。

另外，由于微信公众号对上传的图片尺寸有限制，我们对文中的GIF图像进行了压缩处理，因此可能导致图像质量较差。

（本文内容基于同事胡静雅在公司内部分享的PPT，PPT分享时间为2023年3月23日。）

视频内容分析

AIGC可以通过自然语言处理和图像识别等技术，对视频中的文本、音频和图像等元素进行分析，并提取出其的关键信息。

应用场景包括对电影剧情进行分析，自动提取电影中的角色、情节、场景等要素。同时，它能够识别和跟踪视频中的特定目标，如车辆、行人等。此外，在视频版权保护方面，AIGC技术可应用于数字媒体管理，实现数字水印的嵌入和检测，有效防止未经授权的盗版和复制行为，从而保护数字媒体的版权和利益。

以下是几个知名的视频分析平台：

Google Cloud Video Intelligence是由Google提供的云端视频分析服务。它利用机器学习和人工智能技术，可以对视频进行内容分类、实体识别、情感分析等。该平台可以自动识别视频中的物体、场景和人物，并生成相应的元数据。

Microsoft Video Indexer是微软的视频分析工具。它通过音频转写、人脸识别、情绪分析等功能，将视频内容转化为结构化的数据。该平台还提供了多语种支持和实时分析能力，可用于视频搜索、内容管理和智能广告等领域。

IBM Watson Video Analytics是IBM的视频分析解决方案。它利用人工智能和深度学习技术，对视频进行标注、分类和推荐等任务。该平台还提供了实时分析和基于云的部署选项，可用于视频监控、内容检索和业务分析等应用场景。

视频增强

AlGC可以对视频进行智能增强，如图像处理技术可以去除视频中的噪声、改善视频清晰度等，音频处理技术可以去除噪声、提高音质等。

AIGC技术在数字媒体档案管理中具有重要的应用场景。它能够修复数字媒体中的损坏和缺陷，提升档案的保存和利用价值。通过AIGC技术，数字媒体档案可以得到有效的恢复和修复，保持其完整性和质量，为长期保存和有效利用提供了关键支持。

以下是两个知名的视频增强工具：

Topaz Video Enhance AI是由Topaz Labs开发的视频增强软件。它利用人工智能和机器学习技术，可以提高视频的分辨率和质量。该软件能够通过智能插值和噪声降低等算法，将低分辨率的视频转换为高清晰度，并改善细节和清晰度。

DVDFab Enlarger AI是由DVDFab公司推出的视频放大工具。它采用了深度学习技术，可以将低分辨率的视频放大到更高的分辨率，同时保持图像细节和清晰度。该工具还提供了多种放大算法和参数设置，以满足用户不同的需求。

视频生成与剪辑

AIGC可以根据用户提供的文字、图片、音频等素材，自动生成视频内容。也可以自动完成视频剪辑工作，通过提取视频中的关键帧、判断镜头切换点等技术，自动剪辑出符合用户要求的视频。

该技术的应用场景包括快速生成各种类型的视频，例如短视频、广告、宣传片、产品演示视频等。此外，AIGC还能自动化地生成一些特效，以提高影片的观赏性。通过AIGC技术，用户能够轻松地创建精美的视频内容，节省时间和精力。

Imagen Video

Imagen Video是谷歌开发的一个视频生成系统。它使用级联视频扩散模型，根据给定的文本提示生成高清视频。视频的长度为5.3秒。它通过基本视频生成模型和一系列先进的视频增强技术，包括空间和时间视频超分辨率模型，来提高视频的清晰度和质量。请注意，目前该系统还没有对外开放试用。

Phenaki

Phenaki是一个文本生成视频模型，可以根据提供的文本提示生成时长长达数分钟的视频。

例子：一只逼真的泰迪熊在旧金山的海洋中游泳/泰迪熊沉入水下/泰迪熊与五颜六色的鱼一起在水下游泳

Make-A-Video

Make-A-Video只需几个单词或几行文字即可生成异想天开的、独一无二的视频，让您的想象力栩栩如生。

例子：机器人在时代广场跳舞

对比

Imagen Video (Google)：更注重视频质量，分辨率可达到1280x768。

Phenaki (Google)：注重视频的时长和内容丰富性，可以创建更长的剪辑，时长可达2分钟。

Make-a-video (Meta)：Meta宣称其具有高度的可控性和世界知识，包括能够生成各种艺术风格和3D对象理解的各种视频和文本动画。

💡考虑到以上三种模型的潜在滥用风险，涉及虚假、仇恨、露骨或有害内容，因此目前没有公布具体细节，也没有对外开放试用。

MyHeritage Deep Nostalgia

利用深度学习进行视频重演，可以为历史照片中的人脸制作动画，并生成高质量、逼真的视频片段。您可以免费试用5-8次，并保存1-2次。

参考视频：Abraham Lincoln Discovers His Family History on MyHeritage - YouTube

收费标准

Deep Nostalgia具有独特的优势和劣势。其主要优势在于将真人照片转化为动态图像，增加了情感共鸣，并且使用简便，生成效果自然。然而，Deep Nostalgia的劣势在于仅支持人物照片的转换，无法处理其他类型的图片。此外，使用Deep Nostalgia需要将照片上传至MyHeritage的服务器，这可能引发隐私问题的担忧。

MetaHuman Animator

视频查看地址：https://weibo.com/2214257545/MyzJukYqN

CogVideo

CogVideo是由清华大学联合智源研究院(BAAI)开发的一种开源预训练文本视频生成模型。作为当前最大的通用领域文本到视频生成预训练模型，CogVideo具有94亿个参数。它巧妙地将预训练的文本到图像生成模型（CogView2）与文本到视频生成模型相结合，并采用了多帧率分层训练策略，以提高生成效果和质量。CogVideo的引入为文本到视频生成领域带来了新的突破，并为自动生成视频内容的应用提供了强大的工具。

地址：https://github.com/THUDM/CogVideo

试用地址：https://replicate.com/nightmareai/cogvideo

注意：每个ID只能试用一次，尽可能使用中文（原版只能使用中文输入）。

‍‍收费标准及分析

• 计费方式按秒计算，准确费用基于每个用户的硬件情况。

• CPU每秒费用为$0.0002，Nvidia T4 GPU每秒费用为$0.00055，Nvidia A100 GPU每秒费用为$0.0023。

• 计费在月末计算，任何预测的最低计费时间为1秒。

💡需要注意的是，上述试用链接并非模型的官网链接，而是replicate.com的搬运，收费标准是该网站自行制定的。

CogVideo官网https://models.aminer.cn/cogvideo/ 现只展示demo。

CogVideo的引入为自动生成视频内容的应用带来了新的突破，并为用户节省时间和精力提供了强大的工具。

然而，该模型仍然存在一些不足之处。生成效果有待改进，对于复杂文字输入的理解能力有限。另外，由于模型规模庞大（94亿参数）且对输入长度有限制（1024），生成的视频分辨率相对较低（480x480），时长为4秒，帧率为8fps。这些限制可能对生成的视频质量产生一定的影响。

Disco Diffusion

Disco Diffusion是一个运行在Google Colab平台上的工具，利用人工智能深度学习进行数字艺术创作。其主要功能是将您提供的文字提示（Prompts）转化为图像或动画作品。需要注意的是，在免费版的Colab中，笔记本的最长运行时间限制为12小时。

收费标准

Colab Pro+ 提供后台执行功能，支持代码连续执行长达 24 小时。只有在代码执行终止时才会因空闲而超时。

Stable Diffusion-Multi Frame Render脚本

Stable Diffusion-Multi Frame Render脚本可以实现多帧视频渲染，提升了流畅性和稳定性，适用于非面部视频。然而，这会导致显卡算力消耗增加近3倍。

脚本下载及教程：https://xanthius.itch.io/multi-frame-rendering-for-stablediffusion

教程：https://www.bilibili.com/video/BV1Gg4y147P8/?spm_id_from=333.337.search-card.all.click&vd_source=c86e6ea4ba1a29ee70a1394cb36a4df1

Disco Diffusion与Stable Diffusion对比

Disco Diffusion：生成的动画效果相对简单和单调，且生成时间较长。它擅长处理详细和复杂的文本，并提供了许多可调节的参数。最重要的是，使用Disco Diffusion无需下载软件，直接在浏览器中即可使用。

Stable Diffusion：相比之下，Stable Diffusion需要在用户的硬件上运行。它能够生成更为复杂的视频内容，具有更多的动画变化。此外，Stable Diffusion具备较强的读取整合能力，能够捕捉相隔帧之间的高相关性。与Disco Diffusion相比，Stable Diffusion所需的生成时间较短。

AIGC工具在网站项目中的应用具有重要意义。它通过显著降低视频制作成本，使更多人能够轻松创作高质量的视频内容。同时，AIGC工具还为网站提供创意和互动元素。随着人工智能技术的不断进步，AIGC视频工具将为网站项目带来更丰富、多样化和个性化的视频内容，从而推动用户体验的提升，并增加用户的参与度。

Twitter AI 分析

Twitter AI分析是一个基于人工智能技术的分析工具，专门用于分析和解读Twitter上的内容和趋势。它利用自然语言处理和机器学习算法，帮助用户了解Twitter上的关键话题、用户情绪、舆论倾向等信息。通过对大量推文进行实时分析，Twitter AI分析可以为用户提供有价值的洞察和决策支持。

Hotoke AI

Hotoke AI是一个由团队开发的人工智能系统，旨在为用户提供情感支持和心理健康服务。它结合自然语言处理和情感识别技术，能够理解用户的情感状态并作出相应的回应和建议。Hotoke AI可以与用户进行对话，并提供情绪管理、压力缓解、心理咨询等方面的帮助，使用户在面对困惑和挑战时得到支持和指导。

AI 婚姻促进计划

AI婚姻促进计划是一个利用人工智能技术的项目，旨在帮助单身人士寻找合适的伴侣和建立稳定幸福的婚姻关系。该计划利用大数据分析和机器学习算法，通过匹配个人的兴趣、价值观、性格特点等关键因素，为用户提供有针对性的配对建议。AI婚姻促进计划旨在提高婚姻配对的成功率，并为单身人士提供更好的婚姻选择和幸福指导。

总结

AIGC相关的视频自动生成、剪辑、推荐、检索等能力已经在许多实际场景中得到了应用。随着人工智能技术的不断发展和进步，AIGC在视频领域的应用也将会持续扩展和创新。

然而，目前AI生成的视频还存在一些问题。首先，它暂时缺乏人类创意，也无法准确捕捉并展现人类的表情。此外，版权相关的问题迫切需要得到新的法律法规的支持。
尽管如此，我相信AIGC在未来将成为视频制作和传播领域的重要助手。它将为我们带来更加便捷、高效和优质的视频内容。

以上是本期文章的全部内容。在下一期的文章中，我们将继续与大家一起探讨AIGC的相关内容。敬请期待！

如果您希望探讨更多相关知识，请加入祁老师10多年前建的一个QQ群，群名称：Google AdSense实战交流，群号：106483616 。