AI自动生成创意视频：如何让大模型助你一臂之力

时间：2023-11-01 12:34:47 来源：51CTO 作者：

作者 | 崔皓
审校 | 重楼

摘要

本文探讨了如何利用大语言模型和AI视频生成模型来创建高度个性化和创意丰富的视频内容。文章详细介绍了从构思到实现的全过程，包括问题分析、目标设定、工具和模型选择，以及实际操作步骤。使用的技术和工具包括OpenAI的GPT-3.5-turbo、Hugging Face的zerscope_v2_576w模型，以及Langchain、PyTorch等辅助工具。

开篇

在科技日新月异的今天，人工智能不仅仅局限于数据分析或自动驾驶等领域，其在创意产业中的应用也越来越广泛。那么，能不能让大语言模型与AI视频生成模型联手，为我们带来高度个性化且极富创意的视频内容呢？本文将介绍如果通过输入几个关键词让大模型帮助我们生成创意视频。其中用到了OpenAI，Hugging face开源库，LangChain等技术或框架，通过手把手编写代码，查找资料的方式呈现完整的开发过程。

突发奇想

在浏览社交媒体时，我经常看到各种精彩绝伦的创意视频。每次看到这些，我都忍不住想：如果我也能制作出这样的作品，该有多好！但问题是，我作为一个码农对创意这件事一直不太自信。那么如何能够创建属于自己的创意视频呢？
突然，我想到了大语言模型和AI视频生成技术。大语言模型擅长生成文本，而AI视频生成模型则能从文本生成视频。那么，它们能否联手，帮助我填补这一创意缺口呢？

思路整理：明确目标，分解任务

在有了初步的想法后，下一步就是具体地整理思路，明确我们需要解决哪些问题。这样不仅能让我们有目标可行，还能为后续的行动计划提供明确的方向。以终为始，我们的目标就是让计算机帮我们自动生成创意视频，那么就可以分割为产生创意和生成视频两个环节。

问题一：创意缺乏，如何解决？

对于大多数码农来说，创意并不是我们的强项。但是好消息是，现在有大语言模型能够在这方面帮助我们。通过合理地设置提示（prompt）或者利用现有的模板，我们甚至能生成具体的创意脚本。
我的初步想法如下：
1. 查找合适的大语言模型，例如GPT-3.5-turbo。
2. 设计或找到有效的文本提示模板。
3. 进行多轮的文本生成实验，直到满意为止。

问题二：如何生成视频？

生成创意文本后，下一步就是将这些文本转化为视频。由于我们并不是专业的视频制作人员，因此找到一个现成的、用户友好的AI视频生成模型将会非常有帮助。
这也难不倒我，通过下面几步或许能够如愿以偿：
1. 搜寻开源的AI视频生成模型，到最大的模型库Hugging face上去找找一定会有收获。
2. 了解模型的输入要求和使用方式。
3. 实施初步的视频生成测试，如果需要，进行必要的调整。
首先，利用大语言模型解决创意问题；其次，利用AI视频生成模型将创意实现为具体的视频内容。这样一来，即便我们不是“创意大师”，也完全有能力制作出令人印象深刻的创意视频。

查找资料：武装自己的工具箱

通过对目标的分析，我们总结出两大问题，并且针对每个问题都有了基本的解决思路。接下来需要了解对应的工具，同时对工具，框架和库进行测试，从而验证我们的想法。
接着，我们对技术做了如下的选择：

大语言模型：OpenAI的GPT-3.5-turbo

OpenAI是在AI界非常有影响力的组织，其推出的GPT模型家族几乎成为了大语言模型的代名词。同时，与其他版本相比，GPT-3.5-turbo的token费用更加实惠，对于个人或小型项目来说非常适用。
这里，我计划使用GPT-3.5-turbo来生成创意文本。通过设置特定的提示和参数，我能够让模型产生具有高创意价值的文本内容。

AI视频模型：cerspense/zeroscope_v2_576w

在Hugging Face的平台上，这个模型因其高Star评级而受到了大量关注，这通常是社群对其有效性的一种认可。那么在这个平台上面如何找到我们需要的模型呢？
首先，登录平台，在首页选择“Tasks”。
AI自动生成创意视频：如何让大模型助你一臂之力

在Tasks中列出所有Hugging face上模型能够执行的任务，并且Hugging face 已经对所有的模型进行了分类。我们找到“Text-to-Video”的分类，点击进入。
AI自动生成创意视频：如何让大模型助你一臂之力

在进去的页面会对这类模型进行简单地介绍。它会告诉你将文本输入到模型，输出的结果就是视频。我们点击右边的“Browse Models”按钮浏览所有的模型。
AI自动生成创意视频：如何让大模型助你一臂之力

在展开的模型列表中，最上面的zeroscope_v2_576w 下载量有28.5K，看来用的人很多，而且星星数量也不少。
AI自动生成创意视频：如何让大模型助你一臂之力

点击进入模型详情页，里面对模型进行了简单描述，并且提供了模型的使用方式。由于所有Hugging face上面托管的模型都可以免费使用，所以我们直接按照使用方法调用就好了。具体的调用方法会在后面的代码描述中说明。
AI自动生成创意视频：如何让大模型助你一臂之力

我看了看模型基本没有问题，于是敲定就是它了。将文本转化为视频内容的重任就交给它了。

辅助工具：Langchain, PyTorch, Diffusers

解决两个大模型工具的问题之后，我们还需要一些帮手。

Langchain：作为一个大模型的脚手架，Langchain的Prompt Template可以帮助我更有效地设置和优化模型的输入提示。
PyTorch：作为一个强大的机器学习库，PyTorch可以用于定制一些特定功能，让我更灵活地使用前两者。
Diffusers库：提供了诸如`DiffusionPipeline`和`DPMSolverMultistepScheduler`等工具，这些可以用于进一步优化视频生成过程。

Langchain主要用于优化大语言模型的输入和输出，PyTorch用于更高级的自定义和优化，而Diffusers库则可以用于进一步提升视频生成的质量。
通过选择工具和模型，我为自己构建了工具箱。每一项选择都是出于特定的考虑和需求，旨在解决我在创意视频生成过程中可能遇到的问题。这样，即使我不是一个“创意大师”，也有信心能制作出令人印象深刻的创意视频。

小心尝试：遇到的问题与调整

刚开始，我尝试用一些简单的关键字给到zeroscope_v2_576w模型，比如“小猫”，“科技感”，“奔跑”，来生成文本。然而，我很快发现这样做产生的创意还是不够丰富。语言的敏感性：英文输入的效果更好。这和我之前预想的差不多，通过简单的关键词生成视频可能还是不够。
通过如下代码，我搞定了创意文字的输出。

from langchain.llms import OpenAI
from langchain import PromptTemplate

llm = OpenAI(model_name="gpt-3.5-turbo")

template = """
我想让大模型根据文字生成创意视频，我本身没有什么思路， 会输入几个关键词，你根据这几个词生成具有创意的一句话（英文），在15token以内。
我把中文输入放到这里：{input}，将你生成的这句话直接输出，由于我要用这句话直接生成视频，所以在输出的时候不要附加除了这句话之外的内容。
"""

prompt = PromptTemplate(
    #接受用户输入
    input_variables=["input"],
    #定义Prompt tempalte
    template=template,
)
#这里是真正的用户输入
final_prompt = prompt.format(input='小猫 科技感 奔跑 ')
response = llm(final_prompt)

print (f"大语言模型的回应: {response}")

照例我们对代码进行简单介绍：
这段代码是用于生成创意视频概念的文本，具体通过与OpenAI的GPT-3.5-turbo大模型交互来实现。下面是代码各部分的解释：
1. 导入必要的模块:
- `from langchain.llms import OpenAI`: 导入Langchain库中的OpenAI模块，用于与GPT-3.5-turbo交互。
- `from langchain import PromptTemplate`: 导入Langchain的PromptTemplate类，用于构建和格式化模型的输入。
2. 初始化大模型:
- `llm = OpenAI(model_name="gpt-3.5-turbo")`: 初始化OpenAI的GPT-3.5-turbo模型。
3. 定义模板:
- `template = """..."""`: 定义一个字符串模板，用于生成与大模型交互的最终提示（prompt）。
4. 创建PromptTemplate对象:
- `prompt = PromptTemplate(...)`: 使用之前定义的字符串模板和输入变量来创建PromptTemplate对象。
5. 生成最终的提示:
- `final_prompt = prompt.format(input='小猫科技感奔跑 ')`: 格式化PromptTemplate对象，插入真正的用户输入。
6. 与大模型交互:
- `response = llm(final_prompt)`: 使用格式化后的提示与GPT-3.5-turbo模型进行交互，获取模型的输出。
7. 输出模型的响应:
- `print (f"大语言模型的回应: {response}")`: 打印模型生成的创意文本。

大语言模型的回应: "Technology-driven feline streaks across in a futuristic blur."

大模型的回应是上面这句英文，我反正没有看出有什么创意，不过还是需要进行测试的。
在输入prompt的部分我纠结了很久，GPT的模型有时候会输出一些不必要的“废话”，最后我强制它只输出创意句子才满足了我的要求。因为这里的response需要传给视频生成的模型，所以无关的信息是越少越好。
接下来的代码就是将response给我们的zeroscope_v2_576w 视频模型了。

# 导入PyTorch库，这是一个用于机器学习和深度学习的开源库
import torch

# 从diffusers库中导入DiffusionPipeline和DPMSolverMultistepScheduler类
# DiffusionPipeline用于处理扩散流程，DPMSolverMultistepScheduler用于调度多步解算器
from diffusers import DiffusionPipeline, DPMSolverMultistepScheduler

# 从diffusers.utils模块中导入export_to_video函数，用于导出生成的视频帧
from diffusers.utils import export_to_video

# 使用from_pretrained方法从预训练模型"cerspense/zeroscope_v2_576w"中加载DiffusionPipeline
# 并设置数据类型为float16以减少内存使用和提高计算速度
pipe = DiffusionPipeline.from_pretrained("cerspense/zeroscope_v2_576w", torch_dtype=torch.float16)

# 从当前管道的调度器配置中创建一个新的多步解算器调度器（DPMSolverMultistepScheduler）
pipe.scheduler = DPMSolverMultistepScheduler.from_config(pipe.scheduler.config)

# 启用CPU离线模型加载，在有限的GPU内存下运行更大的模型
pipe.enable_model_cpu_offload()

# 设置输入提示
prompt = response

# 使用管道进行推理，得到生成的视频帧
# num_inference_steps设置为40，表示使用40步进行推理。
# 扩散模型需要通过扩散：添加噪声，收缩：去除噪声，最终生成数据。
# height和width设置生成视频的分辨率
# num_frames设置生成视频的帧数
video_frames = pipe(prompt, num_inference_steps=40, height=320, width=576, num_frames=24).frames

# 使用export_to_video函数导出生成的视频帧，保存为视频文件
video_path = export_to_video(video_frames)

这段代码主要用于将大模型生成的创意文本转化为一段视频。代码涉及多个步骤和组件，下面是代码部分的解释：
导入必要库和模块
1.导入PyTorch库：PyTorch是一个用于机器学习和深度学习的开源库。
2.导入DiffusionPipeline和DPMSolverMultistepScheduler：这两个类分别用于处理扩散流程和调度多步解算器。
3.导入export_to_video函数：这个函数用于将生成的视频帧导出为一个视频文件。
4.加载预训练的DiffusionPipeline：使用`from_pretrained`方法加载预训练模型"cerspense/zeroscope_v2_576w"。
5.设置调度器：从当前管道的调度器配置中创建一个新的多步解算器调度器。
6.启用CPU离线模型加载：这一步可在有限的GPU内存下运行更大的模型。
7.设置输入提示：用大模型生成的文本（存储在变量`response`中）作为输入。
8.进行推理：使用DiffusionPipeline进行推理，生成视频帧。
- `num_inference_steps=40`：推理过程会经历40个步骤。
- `height=320, width=576`：设置生成视频的分辨率。
- `num_frames=24`：设置生成视频的帧数。
9.导出生成的视频帧：使用`export_to_video`函数将生成的视频帧保存为一个视频文件。
整体逻辑是：先初始化所需的各个组件和库，然后设置适当的参数和输入提示，最后执行推理和导出结果。

得到结果：终点也是新的起点

经过上面的一番折腾，我将文件生成到了video_path 这个目录中了。由于使用了co-lab的虚拟机实现了上面的代码。
google Colaboratory（简称Colab）是一个基于云端的Jupyter Notebook环境，用于编写和执行Python/ target=_blank class=infotextkey>Python代码。它为数据科学、机器学习、深度学习等领域的研究和教育提供了便利的平台。以下是一些关键特点和优势：
主要特点：
1.免费使用：Colab是一个免费的服务，你只需要有一个Google帐号即可使用。
2. 便捷的共享和协作：与Google Drive集成，方便文件的上传、下载和共享。也可以多人实时编辑同一个Notebook。
3. GPU支持：Colab提供免费的GPU资源，这对于执行复杂的机器学习或数据处理任务非常有用。
4. *简单易用：无需配置，只需打开一个Web浏览器就可以编写和执行代码，适合初学者和专家。
5. *丰富的库支持*：预安装了大量的Python库，无需手动安装就可以直接使用，如NumPy, Pandas, TensorFlow, PyTorch等。
我这里打印一下 video_path 所在的目录。

print(video_path)

发现在tmp 目录下，我下载视频并且打开播放。看看这猫叫一个抽象，是因为奔跑的原因吗?前腿去哪里了？
AI自动生成创意视频：如何让大模型助你一臂之力

是提示词不精准吗？于是，我调整提示词如下，让gpt-3.5-turbo知道我是给视频大模型提供生成句子的。
我想让大模型根据文字生成创意视频，生成视频的模型我使用的是Hugging face上的zeroscope_v2_576w，我希望你给出的提示词它能够理解。
我本身没有什么思路，会输入几个关键词，你根据这几个词生成具有创意的一句话（英文），在15token以内。
我把中文输入放到这里：{input}，将你生成的这句话直接输出，由于我要用这句话直接生成视频，所以在输出的时候不要附加除了这句话之外的内容。
于是，我得到下面这段创意文字。

A futuristic, tech-savvy cat swiftly dashes through time.

希望，能够得到好效果，于是我怀着忐忑的心情又生成了一次视频。
AI自动生成创意视频：如何让大模型助你一臂之力

这次看上去更像一只猫了，还有蓝色的“围脖”，这就是科技感吗？
最终，我虽然生成了一个包含“小猫”、“科技感”和“奔跑”等元素的创意视频，但还需要不断的进行调整才能达到我的预期。所以，这只是一个开始。未来，我还计划进一步优化方法，并尝试更多不同类型的创意内容。

总结

通过整合不同的AI技术和工具，即便不是“创意大师”，我们也能生成富有创意和个性的视频内容。在实验过程中，我们遇到了一些问题，例如语言敏感性和输入效果，但通过不断调整和优化，最终实现了目标。这不仅为那些在创意产业中想要做出一番贡献但又缺乏信心的人提供了一条可能的路径，也展示了AI在创意领域的巨大潜力。通过合理地组合和应用这些先进的技术，我们完全有能力突破传统的限制，创造出更加惊艳和个性化的作品。

作者介绍

崔皓，51CTO社区编辑，资深架构师，拥有18年的软件开发和架构经验，10年分布式架构经验。

Tags：视频点击:() 评论:()

声明：本站部分内容及图片来自互联网,转载是出于传递更多信息之目的,内容观点仅代表作者本人,不构成投资建议。投资者据此操作，风险自担。如有任何标注错误或版权侵犯请与我们联系，我们将及时更正、删除。

▌相关推荐

tiktok优质视频判断标准，tiktok怎么样发布视频流量高

课兴兴资源圈创始人分享过很多这类玩法，如果你看完不过瘾，欢迎关注课兴兴，后续为你分享更多干货！TikTok优质视频的判断标准主要包括以下几个方面：1.内容质量：视频内容需要有趣、有...【详细内容】

2024-04-09　　Search: 视频点击:(1)　　评论:(0)　　加入收藏

德国总理朔尔茨加入TikTok，发布第一条视频

中新网4月8日报道，据路透社消息，当地时间8日，德国总理朔尔茨在社交媒体TikTok发布了其第一条帖子。图片来源：路透社报道截图据介绍，朔尔茨这条帖子是通过新账号TeamBundeskanzler...【详细内容】

2024-04-08　　Search: 视频点击:(1)　　评论:(0)　　加入收藏

优化手机配置，轻松实现照片和视频的自动文字标注功能

在数字时代，我们不仅追求照片和视频的高清晰度，更希望能够让这些视觉内容“说话”，即通过文字来传达更多的信息和情感。幸运的是，通过一些简单的手机设置，我们可以让发布的照片和...【详细内容】

2024-04-08　　Search: 视频点击:(4)　　评论:(0)　　加入收藏

报告称 OpenAI 采集了超一百万小时的 YouTube 视频来训练 GPT-4

IT之家 4 月 7 日消息，本周早些时候，《华尔街日报》报道称 AI 公司在收集高质量训练数据方面遇到了困难。今天，《纽约时报》详细介绍了 AI 公司处理此问题的一些方法，其中涉及到...【详细内容】

2024-04-07　　Search: 视频点击:(5)　　评论:(0)　　加入收藏

为什么张元英的视频会那么火

记得有一次刷短视频的时候，看到了《庆余年》里面的一个片段，说是主角修炼的真气叫“霸道真气”！我当时和主角一样，好奇这个名字。但看到后来他的一些行径，不仅仅是主角光环的行径...【详细内容】

2024-04-02　　Search: 视频点击:(4)　　评论:(0)　　加入收藏

Sora开启文生视频新纪元影视游戏产业加速变局求突破

本报记者李豪悦文生视频模型Sora掀起的人工智能浪潮，正席卷全球多个产业链，影视游戏产业首先受到影响。3月26日，Sora母公司OpenAI与合作的部分艺术家发布了利用Sora制作的首部...【详细内容】

2024-03-28　　Search: 视频点击:(15)　　评论:(0)　　加入收藏

Sora超逼真视频引恐慌！Nature刊文警示AI视频模型，或在2024年颠覆科学和社会

新智元报道编辑：LRS【新智元导读】王炸Sora发布后，想要分辨AI视频和真实视频变得更难了，各行各业都面临新的挑战与危机。&zwj;技术的发展总是伴随着被滥用的风险，从ChatGPT到最...【详细内容】

2024-03-27　　Search: 视频点击:(19)　　评论:(0)　　加入收藏

8款AI视频生成产品实测，谁将成为中国Sora？

　　©自象限原创　　作者丨罗辑、苏奕　　来源丨自象限　　2024年开年，科技圈没有什么比Sora的出现更让人兴奋。　　如同ChatGPT在2023年初带来的LLM创业潮，Sora的发布也...【详细内容】

2024-03-27　　Search: 视频点击:(17)　　评论:(0)　　加入收藏

抖音视频出现恶意内容如何代举报用户可以尝试这几个方法

抖音视频下架通常是因为该视频违反了抖音平台的规定和政策。这些规定和政策是为了保护用户免受不良内容的影响，同时维护平台的声誉和秩序。如果视频内容包含低俗、暴力、恶意...【详细内容】

2024-03-26　　Search: 视频点击:(9)　　评论:(0)　　加入收藏

企业遇到抖音负面舆情视频用户应该怎么快速解决

企业遇到抖音负面舆情时，应迅速、冷静地采取一系列措施以解决问题并降低负面影响。以下是一些建议：深入了解负面舆情：企业需要详细了解负面舆情的具体内容、来源以及传播情况...【详细内容】

2024-03-26　　Search: 视频点击:(6)　　评论:(0)　　加入收藏

▌简易百科推荐

视频杂音怎么消除只留人声？简单方法快来学

视频杂音怎么消除只留人声？在家看视频时，你是否经常被背景噪音所困扰，导致听不清人物对话？今天，我们就来介绍几个能帮我们消除视频中杂音的软件，让我们能享受清晰纯净的视听体验！一...【详细内容】

2024-01-31　　译言工具集　　　　Tags:视频杂音　点击:(47)　　评论:(0)　　加入收藏

如何将两个视频无缝拼接成一个视频？几种简单易行的方法推荐

怎么把两个视频拼接成一个视频？将两个视频拼接成一个视频是一种常见的视频编辑需求，特别是在需要制作长视频或合集时。拼接后的视频可以更加流畅自然，便于观看和分享。若是拼接...【详细内容】

2024-01-17　　技术小蚂蚁　　　　Tags:视频　点击:(66)　　评论:(0)　　加入收藏

初学者如何开始学习视频剪辑？新手如何利用剪辑技术赚钱？

想提升自身专业技术技能，我建议报名一个培训班去进行学习。今天我给亲们网罗了几家正规且口碑不错的职业教育学校，可以参考一下王氏教育开办多年几乎零负面，而且全国校区都是实...【详细内容】

2024-01-09　　利娇少女　　　　Tags:视频剪辑　点击:(80)　　评论:(0)　　加入收藏

剪辑师怎么学？剪辑师一个月收入多少？

剪辑师的月收入因地区、经验、技能水平等因素而异。一般来说，初级剪辑师的月收入在几千元左右，中级剪辑师的月收入在一万元左右，高级剪辑师的月收入则可能超过一万元。当然，这只...【详细内容】

2023-12-16　　王氏动漫学习训练　　　　Tags:剪辑师　点击:(101)　　评论:(0)　　加入收藏

ev剪辑如何消音？视频消音方法全都在这！

EV剪辑是一款视频制作软件，支持全格式精准剪辑，可以实现水印添加、配音、字幕、多轨道剪辑、转场等功能。ev剪辑支持消音操作，同时需要注意的地方还是很多的，在进行消音处理时，需...【详细内容】

2023-12-12　　温暖如初的生活　　　　Tags:剪辑　点击:(113)　　评论:(0)　　加入收藏

视频合并怎么制作？

听说你想了解一些视频合并方法？我能告诉你，这可是个有趣的活儿！你知道吗，合并视频不仅可以让你的作品更具创意，还能让你成为朋友圈里的视频剪辑高手！在这里，我将为大家介绍视频合并...【详细内容】

2023-12-12　　王旭妍爱生活　　　　Tags:视频合并　点击:(106)　　评论:(0)　　加入收藏

视频剪辑怎么剪？

在这个数字时代，我们对社交媒体上的视频编辑越来越感兴趣。你可能已经看到了各种专业水平的视频，从搞笑的猫咪视频到惊险刺激的极限运动镜头。而你可能也梦想着自己成为一个视...【详细内容】

2023-12-10　　叮当猫的颜色　　　　Tags:视频剪辑　点击:(102)　　评论:(0)　　加入收藏

新手做短视频用哪个软件好

新手做短视频用哪个软件好？随着短视频的兴起，越来越多的人开始接触短视频制作。对于新手来说，选择一个合适的短视频制作软件非常重要。本文将从以下5个步骤，教新手宝子快速制作...【详细内容】

2023-12-05　　短视频　　　　Tags:短视频　点击:(137)　　评论:(0)　　加入收藏

机器配音和真人配音有什么区别？

今天我要跟你聊聊机器配音和真人配音有什么区别。你知道吗，这个话题可不简单，因为这关乎到我们日常生活中的声音体验，听起来有点高大上，但实际上离我们并不遥远。首先，咱们得来说...【详细内容】

2023-11-30　　叮当猫的颜色　　　　Tags:配音　点击:(162)　　评论:(0)　　加入收藏

视频裁剪后清晰度下降用什么软件？

你是否曾经遇到过这样的场景——想要裁剪一段视频，但却苦于没有合适的工具来实现？别着急！视频裁剪软件就是你的好帮手。这些软件充分利用了先进的视频处理技术，通过直...【详细内容】

2023-11-27　　数码小风向　　　　Tags:视频　点击:(161)　　评论:(0)　　加入收藏

推荐资讯

tiktok优质视频判断标	外媒：超过马斯克！扎克伯
德国总理朔尔茨加入Ti	访问网站显示不安全是
掌握独立站SEO策略，提	快手蓝色小钥匙跳转微
微信朋友圈如何置顶	Facebook新用户扩展怎