跳到主要内容

24 篇博文 含有标签「程序那些事」

查看所有标签

最近有很多优秀的语音合成TTS工具,目前MoneyPrinterPlus已经集成了ChatTTS和fasterWhisper。应朋友们的要求,最近MoneyPrinterPlus也集成了GPT_SoVITS这个优秀的语音合成工具。

今天给大家详细讲解一下,如何在MoneyPrinterPlus中使用GPT_SoVITS。

软件准备

当然,前提条件就是你需要下载MoneyPrinterPlus软件啦。

下载地址: https://github.com/ddean2009/MoneyPrinterPlus

用得好的朋友,不妨给个star支持一下。 在软件v4.4版本之后,MoneyPrinterPlus已经支持GPT_SoVITS本地TTS语音服务啦。

启动GPT_SoVITS

GPT_SoVITS这个工具怎么安装这里就不多讲了。

我们讲下如何跟MoneyPrinterPlus进行合作配置。

GPT_SoVITS有很多功能,包括语音训练,模型微调,TTS语音推理,变声等功能。

这里我们使用的是GPT_SoVITS的核心TTS语音推理功能。

首先我们启动GPT_SoVITS:

在1-GPT-SoVITS-TTS ---》 1C推理 ---》 开启TTS推理webUI

image-20240814101451460

然后你就可以看到这样的TTS推理界面:

image-20240814103843764

你可以选择参考音频,参考文本,参考音频的语言。

然后可以输入要合成的文本,合成语音的类别,语速,top_k, top_p和temperature。

当然,上面的都不重要,我们不需要通过webUI来调用GPT_SoVITS,我们需要的是通过API来和GPT_SoVITS进行交互。

API启动GPT_SoVITS

如果下载的是GPT_SoVITS的集合包,那么可以直接执行下面的命令来启动GPT_SoVITS的API:

启动api: runtime\python.exe api.py 

启动之后,你会看到下面的内容:

image-20240814002404640

上面的启动是最简单的启动,没有指定参考音频,如果你想指定参考音频的话,可以执行下面的命令:

python api.py -dr "123.wav" -dt "一二三。" -dl "zh" 

当然,还有其他的一些启动参数如下:

`-dr` - `默认参考音频路径`
`-dt` - `默认参考音频文本`
`-dl` - `默认参考音频语种, "中文","英文","日文","韩文","粤语,"zh","en","ja","ko","yue"`

`-d` - `推理设备, "cuda","cpu"`
`-a` - `绑定地址, 默认"127.0.0.1"`
`-p` - `绑定端口, 默认9880, 可在 config.py 中指定`
`-fp` - `覆盖 config.py 使用全精度`
`-hp` - `覆盖 config.py 使用半精度`
`-sm` - `流式返回模式, 默认不启用, "close","c", "normal","n", "keepalive","k"`
·-mt` - `返回的音频编码格式, 流式默认ogg, 非流式默认wav, "wav", "ogg", "aac"`
·-cp` - `文本切分符号设定, 默认为空, 以",.,。"字符串的方式传入`

`-hb` - `cnhubert路径`
`-b` - `bert路径`

大家可以根据需要自行选择。

默认情况下API会启动在9880端口,我们可以使用下面的命令来测试API的启动效果:

使用执行参数指定的参考音频:
GET:
`http://127.0.0.1:9880?text=先帝创业未半而中道崩殂,今天下三分,益州疲弊,此诚危急存亡之秋也。&text_language=zh`
POST:
```json
{
"text": "先帝创业未半而中道崩殂,今天下三分,益州疲弊,此诚危急存亡之秋也。",
"text_language": "zh"
}
```

配置MoneyPrinterPlus

好了,回到我们的MoneyPrinterPlus页面。

在基本配置页面,本地语音TTS,我们选择GPTSoVITS, 然后输入GPTSoVITS的地址。

image-20240814105434708

在AI视频或者视频混剪区,在视频TTS语音合成区,我们选择本地服务。

image-20240814002245394

这里列出来GPTsoVITS所需要的大部分参数。

你可以使用参考音频,参考音频文本,参考音频语音。

然后可以条件temperature,top_P, top_K等信息。

image-20240814002312805

点击试听声音,如果你听到合成的声音,那么恭喜你,你的配置成功了。

同时,在GPTsoVITS服务的日志文件中,你可以看到一些语音合成的进度。

image-20240814001906393

总结

GPTsoVITS是一个非常强大的服务,和MoneyPrinterPlus结合起来使用,你将会无往不利。

flydean,工具AIAIGC程序那些事阅读需 4 分钟

MoneyPrinterPlus现在支持批量混剪,一键AI生成视频,一键批量发布短视频这些功能了。

之前支持的大模型是常用的云厂商,比如OpenAI,Azure,Kimi,Qianfan,Baichuan,Tongyi Qwen, DeepSeek这些。

支持云厂商的原因是现在大模型使用基本都很便宜,并且大厂的稳定性,性能都比本地搭建要好很多。

但是很多小伙伴说还是希望接入本地的LLM模型。

所以,最近我对MoneyPrinterPlus进行了一些适配,最新版本已经支持Ollama了。

你可以在Ollama中接入你想要使用的大模型。

下面告诉大家如何在MoneyPrinterPlus中使用本地的Ollama模型。

软件准备

当然,前提条件就是你需要下载MoneyPrinterPlus软件啦。

下载地址: https://github.com/ddean2009/MoneyPrinterPlus

用得好的朋友,不妨给个star支持一下。

安装Ollama

如果已经有Ollama的朋友可以直接跳过本节。

对于没有安装过Ollama的朋友,可以直接进入Ollama的官网: https://ollama.com/ 进行安装和下载。

现在Ollama支持windows,linux和Mac这三种操作系统。

我们以linux环境为例来讲解一下Ollama的安装。

在linux环境中,Ollama只需要执行下面的命令即可:

curl -fsSL https://ollama.com/install.sh | sh

系统会自动下载Ollama的安装包,进行安装。

这样Ollama就安装好了。

Ollama支持很多models,我们可以在他的 https://ollama.com/library 网站中查找需要的模型。

比较常用的像llama3,mistral, llama2-chinese等等。

我们可以使用 ollama list 来查看现有的模型。

如果要下载对应的模型,可以ollama pull llama3从Ollama的模型注册表中拉取指定的模型到本地。

然后使用 ollama run llama3 来运行对应的模型。

当然ollama还有一些其他的用法。这里就不多讲了,大家可以去看下ollama的文档。

ollama安装好之后,我们可以通过下面的命令来测试一下ollama的使用:

curl http://localhost:11434/api/generate -d '{
"model": "llama3",
"prompt":"Why is the sky blue?"
}'

如果有返回,那么说明你的ollama是没有问题的。可以继续使用了。

在MoneyPrinterPlus中配置Ollama

我们启动MoneyPrinterPlus,点击左边的基本配置,在右边的LLM大模型配置项中,我们下拉选择Ollama。

image-20240715142420621

Ollama的配置需要设置两项。

第一项是Base Url,也就是调用Ollama的地址。

如果你的ollama在本地,就填:http://localhost:11434/

如果是在其他远程的机子上,就填:http://IP:11434/

需要注意的是,Ollama默认只会暴露端口给本机连接。 如果需要远程连接Ollama,还需要改下Ollama的配置:

vi /etc/systemd/system/ollama.service

[Service]下面添加一下环境变量:
#配置远程访问
Environment="OLLAMA_HOST=0.0.0.0"

修改完之后重新load并重启ollama即可:

sudo systemctl daemon-reload 

sudo systemctl restart ollama

第二项是Ollama中的模型名字。

比如你用的是llama3,那么这里就填llama3就行了。

Ollama配置好之后,就可以进入AI视频区域:

在视频主题区输入你需要生成的视频主题,点击生成视频文案。

image-20240715144309076

如果有文案生成,那么恭喜你,说明Ollama配置完成了。

接下来尽情使用MoneyPrinterPlus吧。

flydean,工具AIAIGC程序那些事阅读需 3 分钟

之前MoneyPrinterPlus在批量混剪,一键AI生成视频这些功能上的语音合成功能都用的是云厂商的语音服务,比阿里云,腾讯云和微软云。

云厂商虽然提供了优质的语音服务,但是用起来还是要收费。

为了各位小伙伴的钱包,现在特意给MoneyPrinterPlus上线了本地chatTTS语音服务。

赶紧来体验吧。

软件准备

当然,前提条件就是你需要下载MoneyPrinterPlus软件啦。

下载地址: https://github.com/ddean2009/MoneyPrinterPlus

用得好的朋友,不妨给个star支持一下。 在软件v4.0版本之后,MoneyPrinterPlus已经全面开始支持本地模型。

安装chatTTS

我们可以直接从chatTTS的官网上 https://github.com/2noise/ChatTTS 下载chatTTS的源代码:

git clone https://github.com/2noise/ChatTTS
cd ChatTTS

安装依赖:

pip install --upgrade -r requirements.txt

运行web-UI:

python examples/web/webui.py

运行api-server:

fastapi dev examples/api/main.py --host 0.0.0.0 --port 8000

这里注意,web-ui的默认端口是8080, api-server的端口是8000。

MoneyPrinterPlus需要连接的是8000端口的api-server。

web-UI只是为了展示怎么配置音色的一个展示用的。

我们打开 http://localhost:8080/ 可以看到类似下面的页面:

image-20240715173317089

点击生成按钮,如果能够成功合成音频文件,那么说明你的chatTTS安装成功了。

在MoneyPrinterPlus中使用ChatTTS

回到MoneyPrinterPlus,我们启动MoneyPrinterPlus,在基本配置页面我们可以看到:本地语音TTS的选项。

image-20240715173442224

这里我们选择chatTTS,并且设置chatTTS api server的地址。

上面我们是以8000启动的api server,所以这里我们就输入:http://127.0.0.1:8000/。

接下来点击视频混剪区,在视频配音区选择本地模型:

image-20240715173642900

我们可以得到下面的界面:

image-20240715173714939

解释一下各个参数的作用:

是否口语化对应chatTTS的口语化开关,如果启动口语化,chatTTS会自动对输入的文案进行口语化调整。所以默认是不开启的。

Text Seed是控制口语化模型处理的种子,你可以随意调整。

Audio Temperature控制音频情感波动性,范围为 0-1,数字越大,波动性越大

top_P :控制音频的情感相关性,范围为 0.1-0.9,数字越大,相关性越高

top_K :控制音频的情感相似性,范围为 1-20,数字越小,相似性越高

Refine text Prompt是指在口语化过程中添加的一些参数。如果不懂的话可以不修改。

本地chatTTS音色目录,默认在项目的chattts目录中。

现在我在chattts目录中预先放置了2种音色文件。

一种是txt文件,一种是pt文件。

你可以自行添加更多的音色文件到chattts目录中。

那么有小伙伴要问了,txt或者pt文件是怎么来的呢?

先讲一个简单的pt文件,你可以在 https://modelscope.cn/studios/ttwwwaa/ChatTTS_Speaker 这个空间中试听和下载对应的语音文件:

image-20240715174400937

把下载下来的pt文件,放在MoneyPrinterPlus中的chattts目录即可。

txt文件是怎么来的呢?

我们再次回到chatTTS的webUI界面:

image-20240715174512706

这个txt就是这里的Speaker Embedding的内容。

你可以点击右上角的拷贝按钮,新建一个utf-8编码的txt文件。 把这个txt文件放到MoneyPrinterPlus中的chattts目录即可。

如果你不想用已有的音色文件,那么可以点击使用随机声音按钮:

image-20240715174635106

会出现一个Audio Seed选项,这个seed就是用来控制Audio音色的。

有了这些配置之后,点击试听声音,如果能听到声音就说明你的chatTTS在MoneyPrinterPlus中配置成功了。

接下来就可以使用本地的chatTTS来合成语音啦。

flydean,工具AIAIGC程序那些事阅读需 4 分钟

MoneyPrinterPlus之前使用的是各种云厂商的语音识别服务来进行语音的视频和字幕的识别工作。

但是很多小伙伴说云服务用不起。

那么没办法,MoneyPrinterPlus上线最新版本,支持fasterWhisper本地语音识别模型。

赶紧来体验吧。

软件准备

当然,前提条件就是你需要下载MoneyPrinterPlus软件啦。

下载地址: https://github.com/ddean2009/MoneyPrinterPlus

用得好的朋友,不妨给个star支持一下。 在软件v4.1版本之后,MoneyPrinterPlus已经支持fasterWhisper本地语音识别模型。

安装fasterWhipser的模型

fasterWhipser服务直接由MoneyPrinterPlus调用。所以不需要第三方的fasterWhisper服务。

但是我们需要下载对应的fasterWhipser模型到MoneyPrinterPlus中。

fasterWhisper模型下载地址:https://huggingface.co/Systran

image-20240724104312078

可以看到里面有很多种模型,大家可以根据需要自行下载对应的模型。

怎么下载呢?

进入到MoneyPrinterPlus的fasterwhisper目录下:

cd fasterwhisper

执行git clone命令:

git clone https://huggingface.co/Systran/faster-whisper-tiny tiny

目前MoneyPrinterPlus支持下面几种模型名称:

'large-v3',  'large-v2', 'large-v1', 'distil-large-v3', 'distil-large-v2', 'medium', 'base', 'small', 'tiny'

所以你在git clone的时候,需要把faster-whisper仓库中的模型目录重命名为MoneyPrinterPlus支持的模型名称。

比如faster-whisper-tiny, 对应的模型叫做tiny,所以我们git clone的时候同时做了重命名操作:

git clone https://huggingface.co/Systran/faster-whisper-tiny tiny

上面的命令会在本地创建一个tiny的目录。目录里面包含了faster-whisper-tiny的所有模型内容。

在MoneyPrinterPlus中配置faster-whisper

我们启动MoneyPrinterPlus。

在基本配置区域:

image-20240724104858491

可以配置本地语音识别模型。

model name就是你下载下来的模型名字。

device type 可以选择cpu,cuda或者auto。

compute type 支持'int8','int8_float16','float16'这几种类型。

配置好之后,在AI视频区域。

语音识别配置中我们选择本地模型,即可使用到fasterWhisper了。

image-20240724105725203

同样的在视频混剪区域,我们也可以选择本地模型,即可使用到fasterWhisper了。

总结

因为是本地运行的fasterWhisper,所以在运行中可能会出现一些环境的问题。大家可以参考fasterWhisper的说明来解决。

flydean,工具AIAIGC程序那些事阅读需 2 分钟

之前开源了MoneyPrinterPlus,可以实现批量混剪视频,一键生成视频和自动发布视频的功能。

但是经常会看到小伙伴在安装过程中遇到很多问题。所以这篇文章的目的就是告诉大家怎么使用MoneyPrinterPlus的自动环境配置工具和自动启动工具。

让小白用户也能用上这么好的AI工具。

都是满满的福利。

软件准备

当然,前提条件就是你需要下载MoneyPrinterPlus软件啦。

下载地址: https://github.com/ddean2009/MoneyPrinterPlus

用得好的朋友,不妨给个star支持一下。

自动环境配置

前提条件

最新的软件里面有自动环境配置脚本。但是,我们需要两个前提。

第一,就是要下载python环境。

我们需要python 3.10+版本来保证程序的运行。

如果是windows,那么可以自行从python的官网下载对应的版本。解压到本地。

然后把python的路径添加到系统的path中去。

如果是mac,直接执行 brew install python@3.11

然后把python3.11链接到python命令:

ln -s /opt/homebrew/bin/python3.11  /opt/homebrew/bin/python

第二,我们需要安装ffmpeg。

如果你是windows,那么直接从ffmpeg的网站下载6.0版本解压缩到本地。

然后把ffmpeg的路径添加到系统的path中去。

如果是mac, 直接执行 brew install ffmpeg即可。

运行自动环境设置脚本

有了前面的前提条件之后,现在就可以运行自动环境设置脚本了。

windows下直接双击setup.bat。

mac下,进入项目根目录,执行: sh setup.sh

你可以看到类似的下面的内容:

Switching to virtual Python environment.
this will take some time,please wait.....
python3.10 -m venv /Users/wayne/data/git/projects/hunjian/venv
Activate the virtual environment...
setup python dependencies...
Python version is 3.10.13 (main, Aug 24 2023, 12:59:26) [Clang 15.0.0 (clang-1500.0.40.1)]
ffmpeg版本为6.0,满足要求。
Installing python dependencies. This could take a few minutes as it downloads files.
If this operation ever runs too long, you can rerun this script in verbose mode to check.
Package version found: pip 23.2.1
Installing modules from requirements.txt...

这样,就是在安装对应的依赖环境了。

安装依赖环境可能有点慢,大家可以喝杯咖啡等待一下。

当你看到下面一段话的时候,就说明环境安装好了,接下来可以开始运行了。

Setup finished! Run sh start.sh to start.

自动启动脚本

自动启动脚本的运行前提是你之前使用了自动环境设置脚本来设置环境。

windows环境下,直接双击start.bat即可启动。

mac环境下,在项目根目录下面执行sh start.sh即可。

浏览器会自动打开MoneyPrinterPlus的首页。

image-20240628153020140

开始你的MoneyPrinterPlus之旅吧。

flydean,工具AIAIGC程序那些事阅读需 3 分钟

MoneyPrinterPlus开源有一段时间了,已经实现了批量短视频混剪,一键生成短视频等功能。

有些小伙伴说了,我批量生成的短视频能不能一键上传到视频号,抖音,快手,小红书这些视频平台呢?答案是必须可以。

下面上干货。

软件准备

当然,前提条件就是你需要下载MoneyPrinterPlus软件啦。

下载地址: https://github.com/ddean2009/MoneyPrinterPlus

用得好的朋友,不妨给个star支持一下。批量上传功能在v3.0版本已经支持了。

工作原理

自动发布工具的本质上是基于selenium这个自动化框架实现的。

通过模拟人工的点击操作,可以完成绝大多数需要人手工才能完成的工作。解放大家的双手。

另外这个自动化的实现方式有两种,一种是在运行程序的过程中启动一个浏览器。另外一种是依附到现有的浏览器上来操作现有浏览器的页面。

本工具选择的是依附到现有的浏览器上。

主要是因为有些视频平台需要用手机扫码二维码才能登录。所以在程序中很难模拟这种登录的过程。

前提条件

目前自动发布支持chrome和firfox两种浏览器。大家根据需要自行选择一种即可。

1. chrome配置

现在的主流浏览器肯定是chrome无疑了。所以我们首先聊一聊如何实现对chrome浏览器的支持。

  1. 首先你需要下载安装Chrome,记住你的版本号,你可以从chrome官网上下载chrome,也可以从这个页面去下载 ChromeDriver下载页面

  2. 你需要从ChromeDriver下载页面下载与你的Chrome浏览器版本相对应的ChromeDriver。确保你下载的是与你的操作系统和Chrome版本相匹配的版本。

下载完毕之后,把chromeDriver解压到本地目录,目录的路径最好不要带中文。不能保证能正常运行。

  1. chrome 以debug模式启动

如果是mac电脑,那么可以先给chrome设置一个alias

alias chrome="/Applications/Google\ Chrome.app/Contents/MacOS/Google\ Chrome"

以debug模式启动chrome。

chrome --remote-debugging-port=9222

如果你是windows,可以在chrome的桌面快捷方式,右键目标中添加:

--remote-debugging-port=9222

image-20240710103643535

然后双击即可以debug模式打开chrome。

2. firefox配置

除了chrome之外,用的最多的应该就是firefox了。

所以我们也提供了对firefox的支持。

要想使用firefox,你需要下面几步:

  1. 下载并安装 Firefox

  2. 下载geckodriver 驱动.下载与你的Firefox浏览器版本相对应的geckodriver。确保你下载的是与你的操作系统和Firefox版本相匹配的版本。

    下载完毕之后,把geckodriver解压到本地目录,目录的路径最好不要带中文。不能保证能正常运行。

  3. 以debug模式启动firefox:

    和chrome类似,我们在firefox的启动命令之后加上: -marionette -start-debugger-server 2828

image-20240504120509315

注意,这里的端口一定要是2828,不能自定义。

这时候你如果打开firefox,就会看到导航栏变成了红色,表示你已经启动了远程调试模式。

image-20240504120607831

输入about:config

可以看到marionette.port的端口就是2828。

开始使用

如果你是刚刚下载MoneyPrinterPlus, 那么推荐你使用傻瓜方式安装运行。

最新的软件里面有自动环境配置脚本。但是,我们需要两个前提。

第一,就是要下载python环境。

我们需要python 3.10+版本来保证程序的运行。

如果是windows,那么可以自行从python的官网下载对应的版本。解压到本地。

然后把python的路径添加到系统的path中去。

如果是mac,直接执行 brew install python@3.11

然后把python3.11链接到python命令:

ln -s /opt/homebrew/bin/python3.11  /opt/homebrew/bin/python

第二,我们需要安装ffmpeg。

如果你是windows,那么直接从ffmpeg的网站下载6.0版本解压缩到本地。

然后把ffmpeg的路径添加到系统的path中去。

如果是mac, 直接执行 brew install ffmpeg即可。

运行自动环境设置脚本

有了前面的前提条件之后,现在就可以运行自动环境设置脚本了。

windows下直接双击setup.bat。

mac下,进入项目根目录,执行: sh setup.sh

你可以看到类似的下面的内容:

Switching to virtual Python environment.
this will take some time,please wait.....
python3.10 -m venv /Users/wayne/data/git/projects/hunjian/venv
Activate the virtual environment...
setup python dependencies...
Python version is 3.10.13 (main, Aug 24 2023, 12:59:26) [Clang 15.0.0 (clang-1500.0.40.1)]
ffmpeg版本为6.0,满足要求。
Installing python dependencies. This could take a few minutes as it downloads files.
If this operation ever runs too long, you can rerun this script in verbose mode to check.
Package version found: pip 23.2.1
Installing modules from requirements.txt...

这样,就是在安装对应的依赖环境了。

安装依赖环境可能有点慢,大家可以喝杯咖啡等待一下。

当你看到下面一段话的时候,就说明环境安装好了,接下来可以开始运行了。

Setup finished! Run sh start.sh to start.

运行自动启动脚本

自动启动脚本的运行前提是你之前使用了自动环境设置脚本来设置环境。

windows环境下,直接双击start.bat即可启动。

mac环境下,在项目根目录下面执行sh start.sh即可。

浏览器会自动打开MoneyPrinterPlus的首页。

image-20240710104233733

点击左边的视频自动发布工具,可以看到视频自动发布工具的页面。

你可以选择驱动类型。chrome还是firefox。

驱动位置就是之前下载的chromedirver或者geckodriver的位置。

视频内容所在目录,就是你想要发布的视频目录。

当你修改视频目录之后,会自动列出视频目录里面的视频文件和文本文件。

其中视频文件就是你要发布的视频内容。

文本文件是什么呢?

文本文件是和视频配套的文字内容。

举个例子, 我想要发布一个关于唐诗的视频到网站上,那么对应的文本文件内容如下:

王维:酬郭给事
洞门高阁霭馀辉,桃李阴阴柳絮飞。
禁里疏钟官舍晚,省中啼鸟吏人稀。
晨摇玉佩趋金殿,夕奉天书拜琐闱。
强欲从君无那老,将因卧病解朝衣。

大家记住,第一行一定是视频的标题。

其他行的内容,大家自由决定。

然后我们看下面的页面:

image-20240710104725552

视频网站配置应该很直白了,上过幼儿园的朋友应该都能懂。

标题前缀:如果你需要额外给视频标题添加一些前缀,可以在这里设置。

合集名称:有些视频网站需要选择合集。这里就是合集的名字。(程序不会帮你创建合集,你需要自己提前在网站上创建。)

视频标签:很好理解了,就是标签,用空格分割。

快手还有一个额外的领域配置。

你可以选择是否开启抖音,快手,视频号或者小红书。

环境检测

接下来就可以准备发布视频了。

但是在发布之前,你可以点一下环境检测。

如果自动打开了我的主页,那么就说明你的环境配置是没问题的。接下来就可以发布视频了。

发布视频

因为所有的视频网站都需要登录。所以在点击发布视频按钮之前,你需要打开对应的网站,登录你的账号先。

如果你的账号都登录完毕了,点击发布视频按钮吧。

开启你的自由之旅。

运行的界面大概如下:

image-20240710105336580

总结

好了,自动发布功能就讲到这里。开源不易,大家点个赞吧。

flydean,工具AIAIGC程序那些事阅读需 7 分钟

很多做短视频营销的朋友需要批量生成大量的短视频,但是市面上的工具一是不好用,二是要收费。

今天给大家介绍一款免费的,可以自动化批量生成短视频的工具MoneyPrinterPlus。 同时支持windows和linux平台。

有了它,一天生成上万短视频不是梦。

重点,它是开源,免费的!

再配合MoneyPrinterPlus的自动短视频上传工具,把批量生成的短视频再批量上传到各大视频平台。Money Printer不就来了吗?

项目已开源,代码地址:https://github.com/ddean2009/MoneyPrinterPlus

AI短视频混剪批量生成

基本的使用介绍这里就不多讲了,不会的朋友到我的github主页上,里面有详细的教程说明。

这里只讲关键的AI短视频混剪批量生成。

启动项目之后,左上角可以找到视频混剪区。

点击它,进入到视频批量混剪工具页面。

在视频混剪区,我们最多可以配置5个视频片段。

你可以通过点击添加片段或者删除片段来控制片段区域的多少。

image-20240628093854842

什么是视频片段?

那么有朋友会问了,什么是视频片段呢?

一个长视频,里面不可能只有一个视频主题,可能你的视频前半部分讲的是衣服的版型,后半部分讲的是衣服的材质。

那么衣服的版型就是片段1,材质就是片段2。

我们要做的就是收集衣服版型的素材,可以是mp4视频,也可以是jpg,png等图片资源。分辨率尽量大一点,否则后面生成的视频质量就不太好。

然后把衣服版型的素材放到视频片段1的资源目录中。

比如上图的资源目录中:

d:\downloads\work\scen1

同样的,我们把衣服的材质的素材放到视频片段2的资源目录中。

如下所示:

image-20240628094702252

什么是视频资源文案呢?

视频资源文案就是你需要给这段视频片段配的文字描述。

你可以为一个片段准备很多条文案,然后把这些文案放在一个txt文件中。一条文案放在txt文件中的一行。

系统会随机从txt文件中挑选一行最为最终视频片段的文字描述。

下面是一个文案文件的例子:

精准的剪裁,流畅的线条,这款马甲的版型设计,完美贴合身形,无论是宽松还是修身,都能展现你的优雅姿态。
我们的设计师们,将经典与现代完美融合。每一道线条,每一个剪裁,都是为了展现你的独特身形。
每一刀剪裁,都经过精心计算,只为打造最适合你身形的版型。从肩部线条到腰部剪裁,每一处都彰显着你的独特风格。
精准的剪裁,流畅的线条,这款马甲的版型设计,旨在让每一位穿着者都能感受到定制般的贴合。
精准剪裁流畅线条,马甲版型设计完美贴合身形,宽松或修身皆展现优雅姿态。
设计师将经典与现代融合,每道线条每个剪裁展现独特身形。
精心计算每一刀剪裁,打造适合身形的版型,肩部线条至腰部剪裁彰显独特风格。
剪裁精准流畅,马甲版型旨在定制般贴合,展现穿着者个性魅力。
面料精选剪裁精致,马甲版型以优雅线条展现身形,正式或休闲皆完美。
人体工学设计,马甲版型舒适透气,优雅线条展现身形,每次穿搭成焦点。
经典版型现代演绎,马甲独特剪裁设计,穿着成展现个性品味舞台。
细节精心打磨,马甲版型合体剪裁优雅设计,任何场合自信满满。
舒适型格并存,马甲版型精致剪裁舒适面料,工作休闲展现最佳状态。
时尚马甲版型多样,每款为你而生,经典剪裁现代设计,轻松驾驭各种风格。
优雅线条修身设计,马甲版型考究剪裁精致细节,任何场合成焦点,彰显个人风格。

配置好的你的视频片段跟视频文案。

视频配音区

在视频配音区可以选择配音语言和对应的配音语言,目前支持100+配音语言。

还可以选择不同的配音语速,以支持不同使用场景。

image-20240616220840076

如果你对配音不太确定,可以点击试听声音试听对应的配音语音。

背景音乐

背景音乐放在项目下的bgmusic目录下面,你可以自行添加背景音乐文件到该文件夹下面。

image-20240616221041774

可以选择是否开启背景音乐,和默认的背景音乐音量。

视频配置区

视频配置区可以选择视频布局:竖屏,横屏或者方形。

可以选择视频帧率,视频的尺寸。

还可以选择每个视频片段的最小长度和最大长度。

最最重要的,还可以开启视频转场特效。目前支持30+视频转场特效。

image-20240616221116997

字幕配置

如果你需要字幕,那么可以点击开启字幕选项,可以设置字幕字体,字幕字体的大小和字幕颜色等。

如果你不知道怎么设置,选择默认即可。

image-20240616221242812

最后的视频生成

目前系统支持一次批量生成100个视频,根据你自己的需要自行调整。

image-20240628095137565

最后点击生成视频按钮即可生成视频。

页面会有相应的进度提醒。

image-20240616221712173

最后生成的视频会展示在页面最下面,大家可以自行播放。

如果你生成了多个视频,可以在项目文件夹的final目录中找到你批量生成的视频。

语音配置

项目需要根据你的选择配置一些语音服务。

你可以选择Azure,腾讯云或者阿里云。

具体的配置可以参考我的github主页。

总结

免费而又强大的批量短视频生成工具,你还等什么呢?快来使用吧。

让那些收费的工具见鬼去吧!

flydean,工具AIAIGC程序那些事阅读需 6 分钟

MoneyPrinterPlus是一个很好的自动短视频生成工具,虽然是一个非常好的工具,但是有些小伙伴可能不太清楚具体应该如何配置才能让它跑起来。

因为MoneyPrinterPlus依赖一些具体的配置信息,所以还是很有必要给大家讲解清楚如何进行配置。

项目已开源,代码地址:https://github.com/ddean2009/MoneyPrinterPlus

阿里云的具体配置

MoneyPrinterPlus在生成视频过程中需要进行一些语音合成和语音识别工作。

为了保证最后生成视频的质量,所以我们会用到一些云厂商提供的语音合成和语音识别服务。

这里以阿里云为例,来讲解如何进行阿里云语音的配置。

获取阿里云的access key和Secret

首先我们到阿里云的官网上去注册一个账号,在右上角主账号的下方,会有一个accessKey管理。

image-20240616212456323

点击这个accesskey管理,会进入一个管理页面:

image-20240620164930498

点击创建accessKey就创建好了accesskey和Secret。

大家把这两个数据保存下来。我们后面在MoneyPrinterPlus中会用到这两个值。

开通智能语音服务

然后我们通过下面的链接进入到阿里云的智能语音服务页面:

https://nls-portal.console.aliyun.com/

如果没有开通的话,可以点击开通。

现在里面大部分的服务都是免费试用的。

当然,如果收费的话应该也不是很贵。

在全部项目中,点击创建项目:

image-20240620165258320

创建一个新的项目,记住这个项目的appkey。我们在后面的配置中需要用到这个值。

接下来点击左边的服务管理与开通,在语音识别tab中选择录音文件识别(极速版),右边操作---》升级为商用版。

因为录音文件识别(极速版)没有免费试用版本,所以这里一定要升级成商用版本。否则后面使用可能会报错。

image-20240620165407063

在语音合成tab页面,需要开通语音合成和长文本语音合成功能。

因为阿里云基础的语音合成服务只能合成小于300字的语音,如果大于300字,则需要用到长文本语音合成服务。

image-20240620165541480

上面三项一定需要开通。切记切记。

在MoneyPrinterPlus中配置

启动我们的项目,在web页面点击最左边的基础配置,找到右边的配置音频库信息,选择Ali。

填入我们之前保存的Access Key ID ,Access Key Secret和App Key。

回车后,这样我们的配置就保存了。

image-20240620165818526

其他的配置

资源库

资源库指的是我们从哪里获取视频或者图片信息,这里目前提供了两个资源提供方,分别是pexels和pixabay。

大家任意选择一个即可。

以pexels为例,我们登入pexels官网 https://www.pexels.com/zh-cn/ ,注册一个账号。

在图片和视频API里面,可以查看自己的api密钥。

image-20240616211609578

查看自己的API密钥:

image-20240616211719443

把这个API密钥记下来,拷贝到MoneyPrinterPlus的配置即可。

![image-20240620170029227](/Users/wayne/Library/Application Support/typora-user-images/image-20240620170029227.png)

大模型配置

目前支持Moonshot,openAI,Azure openAI,Baidu Qianfan, Baichuan,Tongyi Qwen, DeepSeek这些。

国内要用的话推荐Moonshot(最近发现moonshot不太稳定,大家可以考虑Baichuan或者DeepSeek)。

同样的到Moonshot开发者平台上注册一个key:https://platform.moonshot.cn/ 填入对应的配置即可。

image-20240616212642905

AI短视频生成

有了基础配置之后,就可以点击左边的AI视频进入AI视频生成页面。

  1. LLM视频文案生成

在视频主题区输入你需要生成的视频主题,然后点击生成视频文案。

程序会自动使用大模型生成对应的视频文案和视频文案关键字:

image-20240616220713534

如果你对视频文案或者关键字不满意,可以手动进行修改。

  1. 视频配音区

在视频配音区可以选择配音语言和对应的配音语言,目前支持100+配音语言。

还可以选择不同的配音语速,以支持不同使用场景。

image-20240616220840076

如果你对配音不太确定,可以点击试听声音试听对应的配音语音。

  1. 背景音乐

背景音乐放在项目下的bgmusic目录下面,你可以自行添加背景音乐文件到该文件夹下面。

image-20240616221041774

可以选择是否开启背景音乐,和默认的背景音乐音量。

  1. 视频配置区

视频配置区可以选择视频布局:竖屏,横屏或者方形。

可以选择视频帧率,视频的尺寸。

还可以选择每个视频片段的最小长度和最大长度。

最最重要的,还可以开启视频转场特效。目前支持30+视频转场特效。

image-20240616221116997

  1. 字幕配置

如果你需要字幕,那么可以点击开启字幕选项,可以设置字幕字体,字幕字体的大小和字幕颜色等。

如果你不知道怎么设置,选择默认即可。

image-20240616221242812

  1. 最后的视频生成

最后点击生成视频按钮即可生成视频。

页面会有相应的进度提醒。

image-20240616221712173

最后生成的视频会展示在页面最下面,大家可以自行播放。

flydean,工具AIAIGC程序那些事阅读需 5 分钟

MoneyPrinterPlus可以使用大模型自动生成短视频,其中的语音合成和语音识别部分需要借助于一些第三发云厂商的语音服务。

很多小伙伴可能不知道应该如何配置,这里给大家提供一个详细的腾讯云语音服务的配置教程。

项目已开源,代码地址:https://github.com/ddean2009/MoneyPrinterPlus

腾讯云的具体配置

MoneyPrinterPlus在生成视频过程中需要进行一些语音合成和语音识别工作。

为了保证最后生成视频的质量,所以我们会用到一些云厂商提供的语音合成和语音识别服务。

这里腾讯云为例,来讲解如何进行腾讯云语音的配置。

获取腾讯云的access ID和Secret Key

首先我们到腾讯云的官网上去注册一个账号,在最上面的搜索框, 我们输入访问密钥,在下面的控制台入口,点击访问密钥,即可进入腾讯云的访问密钥控制台。

image-20240625092440010

在API密钥管理部分,点击右边的新建密钥,即可生成APPID,SecretID和SecretKey这三个值。

image-20240625092559083

大家把这三个数据保存下来。我们后面在MoneyPrinterPlus中会用到这三个值。

开通智能语音服务

同样的,我们在最上面的搜索框中输入语音合成,点击下方的控制台入口--》语音合成按钮,进入到语音合成界面。

image-20240625092812098

进入语音合成界面之后,我们找到左边的语音合成资源包,点击领取免费资源包,这样可以领取免费的语音合成资源。

image-20240625093019426

如果你的资源包用完了,没关系, 我们点击左下角的语音合成设置,开通后付费服务即可。

image-20240625093133476

同样的,对于语音识别功能,我们同样可以领取免费的语音识别资源包。

如果资源包不够用的话,可以在语音识别设置中开通后付费服务。

image-20240625093246850

这样,我们在腾讯云的语音合成和语音识别服务就开通好了。

在MoneyPrinterPlus中配置

启动我们的项目,在web页面点击最左边的基础配置,找到右边的配置音频库信息,选择Tencent。

填入我们之前保存的Access Key ID ,Access Key Secret和App Key。

回车后,这样我们的配置就保存了。

image-20240625093454529

其他的配置

资源库

资源库指的是我们从哪里获取视频或者图片信息,这里目前提供了两个资源提供方,分别是pexels和pixabay。

大家任意选择一个即可。

以pexels为例,我们登入pexels官网 https://www.pexels.com/zh-cn/ ,注册一个账号。

在图片和视频API里面,可以查看自己的api密钥。

image-20240616211609578

查看自己的API密钥:

image-20240616211719443

把这个API密钥记下来,拷贝到MoneyPrinterPlus的配置即可。

![image-20240620170029227](/Users/wayne/Library/Application Support/typora-user-images/image-20240620170029227.png)

大模型配置

目前支持Moonshot,openAI,Azure openAI,Baidu Qianfan, Baichuan,Tongyi Qwen, DeepSeek这些。

国内要用的话推荐Moonshot(最近发现moonshot不太稳定,大家可以考虑Baichuan或者DeepSeek)。

同样的到Moonshot开发者平台上注册一个key:https://platform.moonshot.cn/ 填入对应的配置即可。

image-20240616212642905

AI短视频生成

有了基础配置之后,就可以点击左边的AI视频进入AI视频生成页面。

  1. LLM视频文案生成

在视频主题区输入你需要生成的视频主题,然后点击生成视频文案。

程序会自动使用大模型生成对应的视频文案和视频文案关键字:

image-20240616220713534

如果你对视频文案或者关键字不满意,可以手动进行修改。

  1. 视频配音区

在视频配音区可以选择配音语言和对应的配音语言,目前支持100+配音语言。

还可以选择不同的配音语速,以支持不同使用场景。

image-20240616220840076

如果你对配音不太确定,可以点击试听声音试听对应的配音语音。

  1. 背景音乐

背景音乐放在项目下的bgmusic目录下面,你可以自行添加背景音乐文件到该文件夹下面。

image-20240616221041774

可以选择是否开启背景音乐,和默认的背景音乐音量。

  1. 视频配置区

视频配置区可以选择视频布局:竖屏,横屏或者方形。

可以选择视频帧率,视频的尺寸。

还可以选择每个视频片段的最小长度和最大长度。

最最重要的,还可以开启视频转场特效。目前支持30+视频转场特效。

image-20240616221116997

  1. 字幕配置

如果你需要字幕,那么可以点击开启字幕选项,可以设置字幕字体,字幕字体的大小和字幕颜色等。

如果你不知道怎么设置,选择默认即可。

image-20240616221242812

  1. 最后的视频生成

最后点击生成视频按钮即可生成视频。

页面会有相应的进度提醒。

image-20240616221712173

最后生成的视频会展示在页面最下面,大家可以自行播放。

flydean,工具AIAIGC程序那些事阅读需 5 分钟

MoneyPrinterPlus可以使用大模型自动生成短视频,我们可以借助Azure提供的语音服务来实现语音合成和语音识别的功能。

Azure的语音服务应该是我用过的效果最好的服务了,微软还得是微软。

很多小伙伴可能不知道应该如何配置,这里给大家提供一个详细的Azure语音服务的配置教程。

项目已开源,代码地址:https://github.com/ddean2009/MoneyPrinterPlus

Azure的具体配置

因为Azure的注册需要用到VISA,所以阻止了很多想要进一步探索的小伙伴。

其实,MoneyPrinterPlus也是支持国内的云厂商,比如阿里云和腾讯云。所以,如果注册Azure有困难的小伙伴,可以参考我的另外两篇使用阿里云和腾讯云的介绍文章。

这里Azure为例,来讲解如何进行Azure语音的配置。

获取Azure的Speech Key和Service Region

首先我们到Azure的官网上去注册一个账号,怎么注册这里就不讲了,反正很简单,注册成功还可以免费使用一年的微软云服务,非常的棒。

有了账号,并且登录账号之后,在搜索框输入语音服务:

image-20240626152358026

点击下面的语音服务,进入到Azure的语音服务页面。

image-20240626152540065

到语音服务这里,点击创建按钮,会进入创建语音服务页面:

image-20240626152710532

填上必须的内容。点击审阅并创建,就可以创建好Azure的服务了。

记住你的密钥和region:

image-20240626152846707

在MoneyPrinterPlus中配置

启动我们的项目,在web页面点击最左边的基础配置,找到右边的配置音频库信息,选择Tencent。

填入我们之前保存的密钥和region。

回车后,这样我们的配置就保存了。

image-20240626152909378

其他的配置

资源库

资源库指的是我们从哪里获取视频或者图片信息,这里目前提供了两个资源提供方,分别是pexels和pixabay。

大家任意选择一个即可。

以pexels为例,我们登入pexels官网 https://www.pexels.com/zh-cn/ ,注册一个账号。

在图片和视频API里面,可以查看自己的api密钥。

image-20240616211609578

查看自己的API密钥:

image-20240616211719443

把这个API密钥记下来,拷贝到MoneyPrinterPlus的配置即可。

![image-20240620170029227](/Users/wayne/Library/Application Support/typora-user-images/image-20240620170029227.png)

大模型配置

目前支持Moonshot,openAI,Azure openAI,Baidu Qianfan, Baichuan,Tongyi Qwen, DeepSeek这些。

国内要用的话推荐Moonshot(最近发现moonshot不太稳定,大家可以考虑Baichuan或者DeepSeek)。

同样的到Moonshot开发者平台上注册一个key:https://platform.moonshot.cn/ 填入对应的配置即可。

image-20240616212642905

AI短视频生成

有了基础配置之后,就可以点击左边的AI视频进入AI视频生成页面。

  1. LLM视频文案生成

在视频主题区输入你需要生成的视频主题,然后点击生成视频文案。

程序会自动使用大模型生成对应的视频文案和视频文案关键字:

image-20240616220713534

如果你对视频文案或者关键字不满意,可以手动进行修改。

  1. 视频配音区

在视频配音区可以选择配音语言和对应的配音语言,目前支持100+配音语言。

还可以选择不同的配音语速,以支持不同使用场景。

image-20240616220840076

如果你对配音不太确定,可以点击试听声音试听对应的配音语音。

  1. 背景音乐

背景音乐放在项目下的bgmusic目录下面,你可以自行添加背景音乐文件到该文件夹下面。

image-20240616221041774

可以选择是否开启背景音乐,和默认的背景音乐音量。

  1. 视频配置区

视频配置区可以选择视频布局:竖屏,横屏或者方形。

可以选择视频帧率,视频的尺寸。

还可以选择每个视频片段的最小长度和最大长度。

最最重要的,还可以开启视频转场特效。目前支持30+视频转场特效。

image-20240616221116997

  1. 字幕配置

如果你需要字幕,那么可以点击开启字幕选项,可以设置字幕字体,字幕字体的大小和字幕颜色等。

如果你不知道怎么设置,选择默认即可。

image-20240616221242812

  1. 最后的视频生成

最后点击生成视频按钮即可生成视频。

页面会有相应的进度提醒。

image-20240616221712173

最后生成的视频会展示在页面最下面,大家可以自行播放。

flydean,工具AIAIGC程序那些事阅读需 4 分钟