动态

详情 返回 返回

從“攔路虎”到“修路工”:基於AhaEdit的廣告素材修復 - 动态 详情

零、引言
一條保健品廣告在系統裏亮起了紅燈。

視頻裏,一位精神矍鑠的老人正在分享體驗。畫面看似陽光健康,但我們的風險定位模型精準捕捉到了違規點——那句"喝了能夠清宿便,相當於給腸道做SPA"的文案,涉及到醫療保健功效問題。
按照傳統流程,這條廣告將被駁回,客户需要根據政策修改創意,然後重新提交。這個過程往往伴隨着不確定性:哪裏違規?怎麼改才能通過?多次往返溝通也會影響投放效率。

但這一次,AhaEdit讓流程變得不同。系統在識別風險的同時,已自動生成合規版本,將違規文案替換為“緩解腸道壓力”。從風險定位到合規優化一步到位,客户可直接使用的修改後的素材進行持續投放。在快手商業化風控平台,我們每天審核數億創意。

面對海量且複雜的廣告內容,如何在保障合規的同時,讓創作者清晰知“怎樣才能過審”——這就是AhaEdit致力解決的核心問題。

一、困在“猜謎遊戲”裏的創意人
“素材又被拒了,到底哪裏不行?” 這可能是廣告創作者最頭疼的問題。現在的審核系統就像一個“信息黑洞”——你知道有問題,卻不知道問題在哪,只能憑經驗試錯。“如果能直接告訴我是哪一幀、哪句文案有問題就好了。”這是許多創作者的心聲。特別是對於時效性強的營銷活動,快速定位問題、高效完成修改,能夠有效提升投放效率。

商業化廣告審核的特殊性在於:既要保障合規“安全”,也要實現營銷“效果”。通用審核規則側重風險規避,但優質的商業表達需要在合規基礎上充分釋放傳播價值。比如,將違規的“第一”簡單替換成“最佳”,雖然規避了排名類用詞,但“最佳”本身仍可能被判定為絕對化表達。這反映出一個關鍵需求:風控審核不僅要識別“什麼不行”,更要提供“怎樣表達更好”的建設性方案。

在商業化生態安全場景下,商業化風控圍繞自建風控明鏡大模型BLM,依據業務所需構建了系列大模型。專門用於修復素材的就是其中的BLM-AhaEdit,這個名字取自“Aha Moment”——期望每一次修復,都不只是簡單的合規通過,而是一個能激發靈感、實現“點石成金”的“頓悟時刻”。

圖片

二、從“發現問題”到“解決問題”的技術突圍

面對這些挑戰,我們決心讓AI學會的不僅是識別風險,更是修復風險。這條技術突圍之路並不平坦。
首先,通用大模型在廣告修復上表現不佳:

  • 風格保持性差:修改後的字體影響觀感,畫面失去原意
  • 缺乏全局觀:遮擋一個Logo時,會忽略背景透視關係,留下生硬“補丁”多
  • 對象協同難:修復多個關聯元素時,容易出現邏輯斷裂可控性挑戰:生成式模型的隨機性導致修復結果時好時壞,這在商業化廣告場景中是致命的。

在這些問題的背後,隱藏着一個關鍵的因素:編輯模型難以將編輯指令與編輯區域精細匹配,導致模型出現幻覺,生成偏離指令甚至違反物理規律的結果。
圖片

為此,我們為AhaEdit設計了一套獨特的技術路徑:“分層解構、精準定位、定向生成”,構建了“審核-定位-修復-再審核”的閉環修復系統。在這個系統中,我們聚焦兩項核心能力:“風險定位”和“AI修復”,不僅告訴模型怎麼改,還要讓模型知道改哪裏,為什麼改。

2.1 風險定位:AhaEdit的“火眼金睛”
在數字廣告的浩瀚海洋中,精準識別風險是AI修復的第一步。AhaEdit的風險定位模型,就如同為系統裝上了一雙“火眼金睛”——它不僅要找到違規的“病灶”,更要精準診斷其“病因”。

多模態精準打擊:從“看到”到“看懂”
我們為不同形態的素材,設定了統一的精準定位範式:

  • 文字素材:直接定位到違規的具體詞彙或片段,並闡明其觸發的審核條款。
  • 圖像素材:以包圍框圈定違規區域,並解釋其違反的具體規則
  • 視頻素材:精確到違規內容出現的起止時間戳,實現對動態內容的幀級管控。

這些信息共同為後續的修復模型繪製出一張清晰的“手術導航圖”,指明瞭不僅是“改哪裏”,更是“為什麼改”的核心方向。
圖片

架構革新:“識別+定位”的一體化
作戰傳統的風險定位流程如同一個鬆散的“流水線”:先識別風險類型,再根據類型去定位風險區域。這種兩階段模式存在天然的“阿喀琉斯之踵”——誤差累積。前序的識別誤差會直接傳遞給後續定位,導致“失之毫釐,謬以千里”。

為從根本上解決這一問題,我們摒棄了傳統架構,訓練了一個“識別與定位一體化”的端到端模型。主要包含兩個核心環節:即CoT SFT和RL環節,將風控審核規則與大模型深度融合,完成風險定位能力建設。

圖片

將風險識別和風險定位兩個任務深度融合,實現了兩大核心優勢:

  • 誤差最小化:一體化建模消除了階段間的誤差傳遞,顯著提升了定位精度。
  • 任務協同化:識別與定位過程相輔相成。模型在識別“是什麼”風險時,對場景的深度理解會反向增強其“在哪裏”的定位能力,形成了“1+1 > 2”的協同效應。

這雙經過架構革新錘鍊的“火眼金睛”,讓AhaEdit能夠在億級創意中,瞬間鎖定毫釐之間的風險,為後續的精準修復奠定了無可撼動的堅實基礎。

2.2 AI修復:兼具外科醫生的精準與藝術家的美感
當風險被精準定位後,系統便進入了最具挑戰性的環節——修復。這不僅需要外科手術般的精準,更要求藝術家般的審美,以確保修復後的內容“天衣無縫”。我們為此構建了一套“理解-生成”協同的AI修復流程。

圖片

理解環節:基於大模型的編輯決策
面對一個違規元素,首要問題是確定“如何修”。是直接刪除,還是尋找合規的詞彙或視覺元素進行替換?甚至是調整人物姿態以符合規範?

我們引入VLM大模型作為系統的“策略大腦”,它能根據風險定位信息進行深度語義推理,生成最優的編輯方案,告訴模型“怎麼改”。

生成環節:數據與算法雙輪驅動的專有模型
明確的指令需要卓越的“執行者”。我們並未使用通用模型,而是專門為商業化廣告場景,從數據與模型兩方面入手,訓練了一個專業的AIGC編輯模型。
1. 數據基石:構建行業領先的廣告修復“教科書”
高質量的訓練數據是模型的基石。由於廣告素材的多樣性與複雜性,我們設計了一套 “預處理-生成-後處理” 的數據自動化生成鏈路,系統性地構建了百萬量級的商業化場景數據集,覆蓋文本、圖像、視頻模態,基本囊括了所有常見廣告場景,其中圖像和視頻數據生成鏈路如圖6所示。

圖片

2. 模型鍊金術:基於DiT架構的精細化訓練
我們採用DiT架構作為模型主幹,並通過LoRA微調等技術大幅降低訓練成本。為了讓模型精準理解“怎麼改”、“改哪裏”和“為什麼改”,我們將編輯指令與風險定位信息作為控制條件輸入。

訓練採用由粗到精的兩階段策略:

  • 階段一:大規模能力奠基。我們以文生圖/視頻模型為基座,結合開源與廣告數據,使用千萬級數據進行預訓練,讓模型廣泛掌握各種編輯技能。
  • 階段二:商業化場景精修。本階段僅使用高價值的廣告場景數據微調,並將編輯指令和風險定位信息融入提示詞,使模型能精確定位風險區域並理解違規原因,最終確保編輯結果在視覺、語義與合規性上都達到高標準。

通過這套“策略大腦”與“專業巧手”的協同,AhaEdit的修復不再是簡單的塗抹,而是基於深度理解的智能再創造,真正實現了從感知到執行的無縫閉環。

圖片

三、“一鍵過審”正在成為現實
如今的AhaEdit已經能夠支持多種模態的素材修復:

  • 文本編輯:精準刪除或替換違規詞彙
  • 圖像編輯:文字擦除、物體擦除/替換、人體表情/姿態調整、背景替換
  • 視頻編輯:擦除/替換違規元素這意味着,那些曾經需要數小時甚至數天的修改流程,現在可以在幾分鐘內完成。

“一鍵過審”從一個美好願景,正在變成可衡量的技術指標。讓我們一起來看看AhaEdit的“魔法”。

3.1 文本編輯--文本刪除/替換編輯方法

3.2 圖像編輯--文字擦除
prompt:擦除圖像中的標語和符號編輯前編輯後

3.3 圖像編輯--物體擦除/替換
prompt:擦除畫面中紅色燈籠編輯前編輯後

prompt:將陶瓷杯替換成盛着水的透明玻璃杯

3.4 圖像編輯--人體表情/姿態調整
prompt:將畫面中人物表情修改成微笑

prompt:將畫面中人物頭部姿態修改成朝前看

3.5 圖像編輯--背景替換
prompt:將畫面背景替換成黃土地背景編輯前編輯後

3.6 視頻編輯--字幕擦除
prompt:擦除視頻下方的字幕

3.7 視頻編輯--物體擦除
prompt:將視頻中的貓擦除
圖片
3.8 視頻編輯--物體替換
prompt:將視頻中的黑色越野車替換成轎車
圖片
四、邁向新範式:內容理解與內容生成的統一
圖片
AIGC技術正朝着更高效、更輕量的方向演進。在這個背景下,風控審核正在經歷一場深刻的範式變革。通過建設AhaEdit,我們不再止步於過去單一的內容理解,而是構建了內容理解與生成的統一能力,即在識別風險的同時,提供智能化的修復方案。這一轉變尤其對中小自助客户意義重大:有效解決了廣告主不理解審核規則、難以精準定位問題的痛點,助力廣告主長效經營。

面向未來,我們的目標是構建下一代智能編輯架構:將內容的理解、定位與編輯能力深度融合於單一模型,從根本上實現從感知到生成的統一。為此,我們將聚焦四大技術攻堅:生成過程的可控編輯、跨模態內容的高一致性、實時的人機交互體驗,以及多模態的協同編輯。特別是在充滿挑戰的視頻領域,我們致力於攻克時序和空間一致性的核心難題,打造真正高效、輕量的長視頻編輯解決方案。

讓創作更自由,讓表達更安全。這不只是目標,更是我們的使命——顛覆性內容審核創新,理解+生成統一範式,助力商家持續經營。

user avatar nick_58a54a169c75f 头像 dl1024 头像
点赞 2 用户, 点赞了这篇动态!
点赞

Add a new 评论

Some HTML is okay.