上一期文章我们介绍了AIGC图片及文本生成工具,本期我们将继续探讨AIGC在视频领域的应用,并重点介绍几个知名视频生成工具,以帮助大家更好地了解和利用这一技术。
另外,由于微信公众号对上传的图片尺寸有限制,我们对文中的GIF图像进行了压缩处理,因此可能导致图像质量较差。
(本文内容基于同事胡静雅在公司内部分享的PPT,PPT分享时间为2023年3月23日。)
视频内容分析
AIGC可以通过自然语言处理和图像识别等技术,对视频中的文本、音频和图像等元素进行分析,并提取出其的关键信息。
应用场景包括对电影剧情进行分析,自动提取电影中的角色、情节、场景等要素。同时,它能够识别和跟踪视频中的特定目标,如车辆、行人等。此外,在视频版权保护方面,AIGC技术可应用于数字媒体管理,实现数字水印的嵌入和检测,有效防止未经授权的盗版和复制行为,从而保护数字媒体的版权和利益。
以下是几个知名的视频分析平台:
Google Cloud Video Intelligence是由Google提供的云端视频分析服务。它利用机器学习和人工智能技术,可以对视频进行内容分类、实体识别、情感分析等。该平台可以自动识别视频中的物体、场景和人物,并生成相应的元数据。
Microsoft Video Indexer是微软的视频分析工具。它通过音频转写、人脸识别、情绪分析等功能,将视频内容转化为结构化的数据。该平台还提供了多语种支持和实时分析能力,可用于视频搜索、内容管理和智能广告等领域。
IBM Watson Video Analytics是IBM的视频分析解决方案。它利用人工智能和深度学习技术,对视频进行标注、分类和推荐等任务。该平台还提供了实时分析和基于云的部署选项,可用于视频监控、内容检索和业务分析等应用场景。
视频增强
AlGC可以对视频进行智能增强,如图像处理技术可以去除视频中的噪声、改善视频清晰度等,音频处理技术可以去除噪声、提高音质等。
AIGC技术在数字媒体档案管理中具有重要的应用场景。它能够修复数字媒体中的损坏和缺陷,提升档案的保存和利用价值。通过AIGC技术,数字媒体档案可以得到有效的恢复和修复,保持其完整性和质量,为长期保存和有效利用提供了关键支持。
以下是两个知名的视频增强工具:
Topaz Video Enhance AI是由Topaz Labs开发的视频增强软件。它利用人工智能和机器学习技术,可以提高视频的分辨率和质量。该软件能够通过智能插值和噪声降低等算法,将低分辨率的视频转换为高清晰度,并改善细节和清晰度。
DVDFab Enlarger AI是由DVDFab公司推出的视频放大工具。它采用了深度学习技术,可以将低分辨率的视频放大到更高的分辨率,同时保持图像细节和清晰度。该工具还提供了多种放大算法和参数设置,以满足用户不同的需求。
视频生成与剪辑
AIGC可以根据用户提供的文字、图片、音频等素材,自动生成视频内容。也可以自动完成视频剪辑工作,通过提取视频中的关键帧、判断镜头切换点等技术,自动剪辑出符合用户要求的视频。
该技术的应用场景包括快速生成各种类型的视频,例如短视频、广告、宣传片、产品演示视频等。此外,AIGC还能自动化地生成一些特效,以提高影片的观赏性。通过AIGC技术,用户能够轻松地创建精美的视频内容,节省时间和精力。
Imagen Video
Imagen Video是谷歌开发的一个视频生成系统。它使用级联视频扩散模型,根据给定的文本提示生成高清视频。视频的长度为5.3秒。它通过基本视频生成模型和一系列先进的视频增强技术,包括空间和时间视频超分辨率模型,来提高视频的清晰度和质量。请注意,目前该系统还没有对外开放试用。
Phenaki
Phenaki是一个文本生成视频模型,可以根据提供的文本提示生成时长长达数分钟的视频。
例子:一只逼真的泰迪熊在旧金山的海洋中游泳/泰迪熊沉入水下/泰迪熊与五颜六色的鱼一起在水下游泳
Make-A-Video
Make-A-Video只需几个单词或几行文字即可生成异想天开的、独一无二的视频,让您的想象力栩栩如生。
例子:机器人在时代广场跳舞
对比
Imagen Video (Google):更注重视频质量,分辨率可达到1280x768。
Phenaki (Google):注重视频的时长和内容丰富性,可以创建更长的剪辑,时长可达2分钟。
Make-a-video (Meta):Meta宣称其具有高度的可控性和世界知识,包括能够生成各种艺术风格和3D对象理解的各种视频和文本动画。
💡考虑到以上三种模型的潜在滥用风险,涉及虚假、仇恨、露骨或有害内容,因此目前没有公布具体细节,也没有对外开放试用。
MyHeritage Deep Nostalgia
利用深度学习进行视频重演,可以为历史照片中的人脸制作动画,并生成高质量、逼真的视频片段。您可以免费试用5-8次,并保存1-2次。
参考视频:Abraham Lincoln Discovers His Family History on MyHeritage - YouTube
收费标准
Deep Nostalgia具有独特的优势和劣势。其主要优势在于将真人照片转化为动态图像,增加了情感共鸣,并且使用简便,生成效果自然。然而,Deep Nostalgia的劣势在于仅支持人物照片的转换,无法处理其他类型的图片。此外,使用Deep Nostalgia需要将照片上传至MyHeritage的服务器,这可能引发隐私问题的担忧。
MetaHuman Animator
视频查看地址:https://weibo.com/2214257545/MyzJukYqN
CogVideo
CogVideo是由清华大学联合智源研究院(BAAI)开发的一种开源预训练文本视频生成模型。作为当前最大的通用领域文本到视频生成预训练模型,CogVideo具有94亿个参数。它巧妙地将预训练的文本到图像生成模型(CogView2)与文本到视频生成模型相结合,并采用了多帧率分层训练策略,以提高生成效果和质量。CogVideo的引入为文本到视频生成领域带来了新的突破,并为自动生成视频内容的应用提供了强大的工具。
地址:https://github.com/THUDM/CogVideo
试用地址:https://replicate.com/nightmareai/cogvideo
注意:每个ID只能试用一次,尽可能使用中文(原版只能使用中文输入)。
收费标准及分析
• 计费方式按秒计算,准确费用基于每个用户的硬件情况。
• CPU每秒费用为$0.0002,Nvidia T4 GPU每秒费用为$0.00055,Nvidia A100 GPU每秒费用为$0.0023。
• 计费在月末计算,任何预测的最低计费时间为1秒。
💡需要注意的是,上述试用链接并非模型的官网链接,而是replicate.com的搬运,收费标准是该网站自行制定的。
CogVideo官网https://models.aminer.cn/cogvideo/ 现只展示demo。
CogVideo的引入为自动生成视频内容的应用带来了新的突破,并为用户节省时间和精力提供了强大的工具。
然而,该模型仍然存在一些不足之处。生成效果有待改进,对于复杂文字输入的理解能力有限。另外,由于模型规模庞大(94亿参数)且对输入长度有限制(1024),生成的视频分辨率相对较低(480x480),时长为4秒,帧率为8fps。这些限制可能对生成的视频质量产生一定的影响。
Disco Diffusion
Disco Diffusion是一个运行在Google Colab平台上的工具,利用人工智能深度学习进行数字艺术创作。其主要功能是将您提供的文字提示(Prompts)转化为图像或动画作品。需要注意的是,在免费版的Colab中,笔记本的最长运行时间限制为12小时。
收费标准
Colab Pro+ 提供后台执行功能,支持代码连续执行长达 24 小时。只有在代码执行终止时才会因空闲而超时。
Stable Diffusion-Multi Frame Render脚本
Stable Diffusion-Multi Frame Render脚本可以实现多帧视频渲染,提升了流畅性和稳定性,适用于非面部视频。然而,这会导致显卡算力消耗增加近3倍。
脚本下载及教程:https://xanthius.itch.io/multi-frame-rendering-for-stablediffusion
Disco Diffusion与Stable Diffusion对比
Disco Diffusion:生成的动画效果相对简单和单调,且生成时间较长。它擅长处理详细和复杂的文本,并提供了许多可调节的参数。最重要的是,使用Disco Diffusion无需下载软件,直接在浏览器中即可使用。
Stable Diffusion:相比之下,Stable Diffusion需要在用户的硬件上运行。它能够生成更为复杂的视频内容,具有更多的动画变化。此外,Stable Diffusion具备较强的读取整合能力,能够捕捉相隔帧之间的高相关性。与Disco Diffusion相比,Stable Diffusion所需的生成时间较短。
AIGC工具在网站项目中的应用具有重要意义。它通过显著降低视频制作成本,使更多人能够轻松创作高质量的视频内容。同时,AIGC工具还为网站提供创意和互动元素。随着人工智能技术的不断进步,AIGC视频工具将为网站项目带来更丰富、多样化和个性化的视频内容,从而推动用户体验的提升,并增加用户的参与度。
Twitter AI 分析
Twitter AI分析是一个基于人工智能技术的分析工具,专门用于分析和解读Twitter上的内容和趋势。它利用自然语言处理和机器学习算法,帮助用户了解Twitter上的关键话题、用户情绪、舆论倾向等信息。通过对大量推文进行实时分析,Twitter AI分析可以为用户提供有价值的洞察和决策支持。
Hotoke AI
Hotoke AI是一个由团队开发的人工智能系统,旨在为用户提供情感支持和心理健康服务。它结合自然语言处理和情感识别技术,能够理解用户的情感状态并作出相应的回应和建议。Hotoke AI可以与用户进行对话,并提供情绪管理、压力缓解、心理咨询等方面的帮助,使用户在面对困惑和挑战时得到支持和指导。
AI 婚姻促进计划
AI婚姻促进计划是一个利用人工智能技术的项目,旨在帮助单身人士寻找合适的伴侣和建立稳定幸福的婚姻关系。该计划利用大数据分析和机器学习算法,通过匹配个人的兴趣、价值观、性格特点等关键因素,为用户提供有针对性的配对建议。AI婚姻促进计划旨在提高婚姻配对的成功率,并为单身人士提供更好的婚姻选择和幸福指导。
总结
AIGC相关的视频自动生成、剪辑、推荐、检索等能力已经在许多实际场景中得到了应用。随着人工智能技术的不断发展和进步,AIGC在视频领域的应用也将会持续扩展和创新。
然而,目前AI生成的视频还存在一些问题。首先,它暂时缺乏人类创意,也无法准确捕捉并展现人类的表情。此外,版权相关的问题迫切需要得到新的法律法规的支持。
尽管如此,我相信AIGC在未来将成为视频制作和传播领域的重要助手。它将为我们带来更加便捷、高效和优质的视频内容。
以上是本期文章的全部内容。在下一期的文章中,我们将继续与大家一起探讨AIGC的相关内容。敬请期待!
如果您希望探讨更多相关知识,请加入祁老师10多年前建的一个QQ群, 群名称:Google AdSense实战交流 ,群号:106483616 。