动态

详情 返回 返回

本地部署 Dify,構建智能內容生成工作流 - 动态 详情

近期我們的技術小夥伴研究並部署了一個基於 Dify 工作流,融合 FLUX 生圖模型、多模態識別模塊以及語音合成與播放功能,構建了一個智能內容生成鏈路。

通過 Dify 工作流流程編排與低代碼擴展能力實現跨模態的任務(文本輸入->語義理解->圖像生成->語音輸出)。這個工作流同時可以本地化部署至贊奇AI一體機,形成一套安全可控、開箱即用的軟硬件一體交付方案

圖片
完整工作流鏈路

下面我們會從硬件配置、核心思路以及詳細步驟解析進行介紹。

硬件配置:

CPU:i9-13900K
GPU:NVIDIA RTX™ 5000 Ada *1
MEM:64GB
System:Ubuntu 24.04

核心思路:

在這個Dify工作流中,主要由4個重要部分組成,如下圖所示。

圖片

  1. 將用户輸進去的語句轉化為符合 Flux.1 格式的繪畫提示詞。
  2. 接入 Flux.1 模型的 api 接口,對轉化後的提示詞進行解析並生圖。
  3. 通過多模態識別技術將圖片中的內容解析並描述為一段文字。
  4. 將這段文字生成為一段音頻,以 AI 口吻對圖片內容進行語音播報。

步驟解析:

一、語義理解

圖片

由於用户一般輸入的是不易被 AI 理解的語句,所以此步驟製作了一個基於 Flux.1 模型的提示詞生成機器人。它可以根據用户的需求,自動生成符合 Flux.1 格式的全英文繪畫提示詞。同時在上述圖片中這個界面,我們可以更改使用的模型,並調整相應的參數,去滿足不同用户的定製化需求。

二、圖像生成

圖片

提示詞生成好後,下一步就是投進 Flux.1 模型中進行文生圖,這一步主要就是接入 Flux.1 模型的 api 接口。

三、多模態識別

圖片

通過多模態識別模塊對 Flux.1 模型生成的圖片進行識別,將圖片內容詳細解析為一段文字。也可以理解為對一開始輸入的提示詞進行擴寫,對圖片內容進行更細緻的解讀。

四、語音輸出

圖片

通過此模塊將解析後的文字生成一段音頻,同時可以調整其聲音的類型,男女聲皆有,語音生成質量優秀,適用於需要快速批量生成 AI 音頻的用户使用。

小結:

這個“Dify+FLUX+多模態識別+語音播放”的工作流彰顯了Dify在私有化部署場景下的適應性與穩定性。通過將工作流深度嵌入到贊奇AI一體機中,為客户提供安全可控、即插即用的一體化智能解決方案

user avatar nocobase 头像 junyidedalianmao 头像 gmicloud 头像 chenbimo 头像 xiangchujiadepubu 头像 pannideniupai 头像 xiaoyuindebuilder 头像 dadetouyingyi 头像 chuanghongdengdehoutao 头像
点赞 9 用户, 点赞了这篇动态!
点赞

Add a new 评论

Some HTML is okay.