近期,阿里通義千問團隊開源首個圖像生成基礎模型 Qwen-Image, 參數量達 20B,採用全新 MMDiT 架構,刷新了圖像生成模型 SOTA。
Qwen-Image 專注於提升 AI 在兩大核心場景的能力:複雜的文本渲染與精準的圖像編輯。 無論是海報上的標語、PPT 裏的長段落文字,還是古籍中的詩詞意境,Qwen-Image 都能憑藉卓越的中英文渲染能力精準呈現,字形、排版、語義俱佳。在多個評測榜單中,文字渲染均獲得 SOTA。尤其值得一提的是,Qwen-Image 在中文渲染上的強大性能為開源視覺模型的中文能力建設提供了有力補充,中文更自然地嵌入視覺模型渲染體系,單字渲染的準確率達到 58.3%,為需要精確輸出中文的應用場景提供了可靠選擇。
在圖像編輯方面,Qwen-Image 提供了強大的多維度功能,不僅支持風格遷移、增刪改等基礎操作,也能實現局部修改、人物姿態調整等細節功能, 即便是普通用户,也能使用 Qwen-Image 輕鬆實現媲美專業水準的圖像編輯效果。鏈式編輯賦予了模型強大的「記憶錨定」能力,在多輪連續修改後,仍能保持主體 ID 的一致性,告別「修一次變一次」的困擾。
「Qwen-Image:具有高級文本渲染能力的圖像模型」現已上線至 OpenBayes公共教程板塊, 立即部署,專業效果輕鬆上手!
教程地址:
https://go.openbayes.com/njajP
Demo 運行
01 Demo 運行階段
1.登錄 OpenBayes,在「公共教程」頁面,選擇「Qwen-Image:具有高級文本渲染能力的圖像模型」教程。
2.頁面跳轉後,點擊右上角「克隆」,將該教程克隆至自己的容器中。
3.選擇「NVIDIA RTX A6000-2 48GB」以及「PyTorch」鏡像,按照需求選擇「按量付費」或「包日/周/月」,點擊「繼續執行」。新用户使用下方邀請鏈接註冊,可獲得 4 小時 RTX 4090 + 5 小時 CPU 的免費時長!
小貝總專屬邀請鏈接(直接複製到瀏覽器打開):
https://go.openbayes.com/9S6Dr
4.等待分配資源,首次克隆需等待 3 分鐘左右的時間。當狀態變為「運行中」後,點擊「API 地址」旁邊的跳轉箭頭,即可跳轉至 Demo 頁面。請注意,用户需在實名認證後才能使用 API 地址訪問功能。
02 效果演示
進入運行頁面後,在輸入框內輸入 Prompt,「Advanced Settings」選項中可以設計高級參數,運行即可。經過小貝上手實測,Qwen-Image 的文字渲染能力確實很強,能夠穩定實現字形精準、排版工整。
- Prompt:一個二次元風格的女孩,精緻動漫臉,眼睛閃亮,粉色長髮、戴有白色蝴蝶結髮飾。手持發光羊皮紙,紙上工整手寫「Qwen-Image 模型開源,在複雜文本渲染和精確圖像編輯方面取得了顯著進展。」,服裝為魔法學院制服,背景為星空書房、懸浮魔法書,帶有粒子光效。吉卜力畫風,柔光濾鏡,景深虛化 。
- Prompt:平面海報設計,背景採用莫蘭迪色系的漸變柔光處理,主色調以灰粉色為基底,疊加霧霾粉與燕麥白的層次過渡,核心文字採用居中排版結構:「Qwen-Image:具有高級文本渲染能力的圖像模型」現已上線至 OpenBayes公共教程板塊,立即部署,專業效果輕鬆上手!裝飾元素採用抽象幾何線條沿主色調延伸,卡通風格動漫機器人在背景,與細微光粒子及紙張褶皺紋理相互呼應,同時確保文字邊緣鋭利無鋸齒。