動態

詳情 返回 返回

一文詳解隱私保護計算技術MPC協議,及基於隱語SecretFlow隱私框架的應用探索 - 動態 詳情

打開鏈接點亮社區Star,照亮技術的前進之路。每一個點贊,都是社區技術大佬前進的動力

Github 項目羣倉庫地址: https://github.com/secretflow

作者:哈爾濱工業大學(深圳)副教授、博導 蔣琳

隱私保護計算技術

首先,隱私保護計算這一概念的提出,實際上是對當前學界廣泛討論的隱私計算的一個更為精準的界定。

隱私,這一看似簡單卻內涵豐富的詞彙,在社會學、法學以及更廣泛的信息學領域都有着不同的理解和定義。

它不僅延伸出計算機的倫理學,甚至在如今火熱的人工智能安全討論中,也佔據着不可忽視的地位。

因此,明確隱私的範疇,對於我們後續的隱私保護或隱私保護計算工作至關重要。

隱私保護計算,這一概念的起源,我曾在《隱私計算理論與技術》一書中得到啓示。書中提到的知情權、刪除權、被遺忘權和延伸授權等權利,都是我們在進行隱私保護計算時需要考慮的因素。

當我們對隱私有了清晰的認識後,再來討論隱私保護計算,才能更為準確和深入。

  • 為什麼隱私保護計算很重要

那麼,為什麼隱私保護計算如此重要呢?最近提出了一個新質生產力的概念,新質生產力具有高科技、高效能、高質量的特徵,符合新發展理念,是先進生產力的具體體現形式。

隨着信息技術的飛速發展,數據的流動、交易、利用和開發已經成為常態,但與此同時,隱私保護的需求也日益凸顯。

隱私保護計算,正是為了破除這張不平衡,即數據流動、交易、利用和開發,與數據隱私保護之間矛盾的不平衡,實現數據利用與隱私保護的雙贏。

  • 隱私保護計算技術路線分類

接下來,我想從幾個角度對隱私保護計算進行技術路線分類。

網上對相關技術路線多數只是一個技術的羅列,缺乏系統、有邏輯的分解。

這個分類是我們團隊經過深入討論後提出的,希望能為大家提供一個新的視角。如上圖所示,橫座標強調原始數據是否流出本地,這樣就可以區分出來左右。

中間的縱軸是從數據計算的角度,就是參與方是集中式的計算還是協同式的計算,從這兩個維度把現在的技術路線分成了四個象限。

  • 隱私保護計算業務分類

除了技術路線上的分類,我們還可以從業務角度對隱私保護計算進行分類,如分析類、檢索類和模型類,分析類包括聯合統計等,檢索類包括查詢等,模型類則與AI關係最大,包括模型訓練和模型預測。

根據我們與合作伙伴的需求分析溝通以及一些白皮書中的信息,分析類和檢索類的隱私需求較大,而模型類的需求可能更多關注在模型預測方面。

雖然分析類和檢索類的計算相對簡單,但實際上需要做的工作更多。這是我們對隱私計算業務粗略的理解。

  • 隱私保護計算架構分類

我們嘗試對計算架構進行分類,但目前我們的分析還有待提高,需要持續地進行調整和改進。以下是我們目前的分類情況:

  • 最傳統的數據發佈隱私保護框架是左上角的框架,包括差分隱私和傳統脱敏等技術路線。
  • 右上角的2是指代單方外包,即同態加密算法,數據通過單密鑰同態加密算法加密後可以提供給雲端。第二個框架是在雲出現後開始做的,包括將數據放在雲端的各種雲計算環境中。
  • 左下角的3是傳統的 MPC 在無信任中心架構下,用於保護數據隱私。
  • 右下角是結合了雲和多方的框架,包括聯邦學習和集合了 MPC 或多密鑰同態加密的框架。

安全多方計算協議簡介

  • 安全多方計算的定義

講到安全多方計算,我們可以將左側的圖理解為存在可信第三方的場景,所有多方數據可以彙總在一起。

如果我們將安全多方計算協議視為一個模塊,該模塊可以代替可信第三方執行計算,從而實現無需可信中心的計算。這是對安全多方計算的定義。

  • 安全多方計算基本設計方法

近年來,在安全多方計算領域,我們一直在努力探索不同的技術路線,其中包括秘密分享和混淆電路,這兩種技術各有其優勢與劣勢。

例如,秘密分享的優點恰好是混淆電路的缺點,反之亦然。儘管如此,我們並未止步,而是在這條道路上繼續探索前行。

  • 技術框架

在技術框架方面,基於混淆電路和秘密共享的方法都可以支持我們之前提到的隱私保護計算業務分類,如模型訓練與預測、聯合統計及隱匿查詢等。

我們從這個框架中可以看出,有些人在專心做基礎工具,如混淆電路、不經意傳輸等。

也有人在基礎工具之上來做右邊中間的各種基礎運算,這些基礎運算進而支持了更高層的協議,這些協議又能為各種業務場景提供支撐。

  • 安全多方計算的兩種架構模式

在探討安全多方計算時,架構的設計至關重要。如果架構不清晰或設計不當,可能會導致技術路線錯誤,甚至引發安全問題。

因此,我們通常在深入研究之前,都會對架構進行詳細的討論。

左邊是最經典的安全多方計算的計算架構,簡單理解為我們的計算方一和計算方二的原始數據並沒有出來,它是以隨機數的形式在 MPC 的組件之間進行交互。傳統的安全多方計算模式雖然經典,但受到理論上的限制,性能上一直存在瓶頸。

右邊的代理模式則將數據的擁有和計算分離,使得數據擁有方更具拓展性,不再受到 MPC 中 M 的技術限制。

然而,代理模式也有其侷限性,即代理計算方之間不能同謀,這是一個較強的假設。因此,在選擇應用場景時,我們需要明確需求方的底線和可能的風險。

安全多方計算應用

接下來,我想分享兩個安全多方計算的典型應用案例。

應用場景——拍賣場景安全需求

安全在線拍賣,看似與隱私計算無直接關聯,但實際上,MPC 的根源之一就隱藏其中。

最初的 MPC 起源於“百萬富翁”問題,即兩個富翁如何在不透露各自財富具體數額的情況下,確定誰更為富有。在線拍賣場景則是這一思想的延伸,當有多個競拍者參與時,他們如何確保自己的出價不被其他競拍者所知,同時又能確定誰是出價最高者,從而贏得拍賣。這一過程不僅考驗着技術的複雜性,更體現了 MPC 在保護隱私方面的獨特價值。

在這個過程中,MPC 展現了五個關鍵的安全性質:隱私性、輸入獨立性、正確性、保證輸出交付、公平性。這些性質看似簡單,但要將其用數學語言精確表達,並確保設計的協議符合這些性質,卻是一項極具挑戰性的任務。

例如,競拍者需要確保自己的出價不被泄露,這看似簡單的要求,實際上需要精心的數學設計和協議驗證。

這樣的工作從 1982 年開始,至今已有近 40 年的發展歷程,它不僅僅是一個技術問題,更是一個關於信任和隱私保護的深刻思考。

  • 應用場景——機器學習隱私需求及技術路線

在金融領域,我們經常可以看到兩個銀行或一個銀行與一個保險公司需要聯合處理數據,以獲取更有價值的模型。

在這個過程中,MPC 發揮了不可替代的作用。即使在沒有可信第三方的情況下,MPC 也能確保數據的安全性和隱私性,使得合作成為可能。

然而,我們也必須正視目前存在的一些問題。儘管 MPC 在理論上已經相當成熟,但在實際應用中,特別是在處理大規模數據時,其性能往往受到限制。

例如,在百萬級參數的情況下,MPC 的預測速度可能只能達到秒級水平,這與實際需求還有較大差距。此外,硬件設備的性能也是制約 MPC 應用的一個重要因素。

為了解決這個問題,我們探索了從完全分佈式到代理式的架構轉變。在代理式架構中,數據提供方可以無限擴展,通過秘密共享的方式將數據分佈在雲端。

這樣,雲端之間通過執行 MPC 協議,可以有效地規避 MPC 在技術上的限制,為更廣泛的應用場景提供可能。

安全多方計算在隱語中的應用探索

此外,我想分享一些個人的理解和體會。作為學術界或科研團隊的成員,我們在開發過程中常常擔心能力範圍有限,無法從頭至尾完成整個項目。

然而隱語平台為我們提供了極大的便利,使我們的算法能更好地展示和應用。我們也期待通過合作和探討,為隱語框架添加更多更新的模塊,共同推動其發展。

同時我們意識到現有算法在理論和實際需求上還有很大差距,實際應用中的偏差導致效果不佳。我們關注性能瓶頸,因為許多產品無法上線是因為性能問題而非安全問題,希望能通過合作共同解決性能問題。

最後,我想就互聯互通問題表達一些期望。目前,不同公司可能採用不同的隱私計算框架,如 A 公司採用隱語,而B公司則可能選擇其他框架,這導致了平台之間的互聯互通障礙。我們期待能夠借鑑 C++、Java 等語言的成功經驗,實現不同隱私計算框架之間的順暢互通,從而為整個行業帶來更大的便利與效益。

本文由隱語社區統一發布,歡迎大家點 Star
user avatar u_17470194 頭像 yuhuashi_584a46acea21f 頭像 sfbc 頭像 bug1412 頭像 240cgxo4 頭像 jieduanxingdebugger 頭像 keen_626105e1ef632 頭像 anjingdexiaoyanyao_ciaxxr 頭像 nocobase 頭像 dexunyun 頭像 footprint_analytics 頭像
點贊 11 用戶, 點贊了這篇動態!
點贊

Add a new 評論

Some HTML is okay.