這是我的半小時讀懂系列的一篇新的文章。這篇文章不會用更難懂的技術術語去解釋本來已經很難懂的技術與概念。事實上,我們只要知道,隱私計算技術在數字營銷領域里的關鍵應用,以及背后的原理即可。
當然,這個話題非常非常龐大,并不是三言兩語能說清楚的。但相信你讀了我這篇文章,會清楚很多一直以來在心里模模糊糊的東西。
01 企業自己的數據,在數字營銷中越來越重要
不過,《中華人民共和國個人信息保護法》的出臺,很大程度上限制了企業一方數據的隨意應用。最典型的,幾乎所有在廣告投放上的一方數據應用,都需要由企業之外的實體(一方或多方)參與,這就可能導致數據直接的轉移和使用與法律規定的要求相違背。
即便沒有法律的限制,一方數據在應用中也涉及到泄露企業的機密信息的可能性。如果我是廣告主,在我將自己的一方數據拿給媒體用于找人投放的時候,我確實會非常猶豫。
法律限制、保密需求,與讓一方數據發揮真正的價值產生了嚴重的矛盾,而這樣的矛盾,目前只有隱私計算能夠很大程度上地緩解。
02? 撞庫
這就是我們常說的look-alike的投放的“大白話”的原理。除了這種最為常見的look-alike,一方數據與媒體端的二方數據或者其他方的三方數據,如果能夠連接、打通這些數據,就能夠應用在很多數字營銷中此前不能實現的應用場景上。關于這些場景是什么,我們在這篇文章的后半段會具體講述。
為了實現連接與打通這些消費者數據,數據中的ID至關重要,這個ID必須是廣告主和媒體共同利用的ID類型。比如,廣告主和媒體雙方都用手機號碼識別用戶,或者都用設備ID(deviceID)識別用戶。
現在,另一個至關重要的問題需要解決,那就是我打了雙引號并且加粗了的“交給”二字。
廣告主是如何將自己的一方數據連同ID一起“交給”媒體的呢?
過去,媒體提供給廣告主一個上傳數據的操作界面,廣告主把自己的一方消費者數據,上傳給媒體就可以了。
最開始,這些一方消費者數據的上傳,是明文的。
但這么做,廣告主風險巨大,媒體也漸漸不想接受這些明文數據。因為媒體若接受了這些數據,它也要承擔法律責任,而廣告主隨意上傳明文消費者數據且不說會泄露消費者個人信息,它自己的商業機密也被泄露了。
所以,媒體之后,都要求廣告主上傳經過加密的消費者數據(MD5或者SHA256加密)。
MD5或者SHA256,都是不可逆的加密。也就是說,不可能通過加密之后的密文還原為原文。加密了之后如果把原文完全毀掉并且忘掉了,想要找回原文是不可能的。當然,不能通過密文還原為原文,不代表不能用別的方法還原為原文——這一點極為重要,也是我們后面隱私計算能夠實現的基礎之一。
假如,我用SHA256加密了一段文字:“我愛公眾號宋星的數字觀”,變成了密文
“43d24306cf8a96d5b47f33114bdc66ef0c32cd26b639a4f71f5dfe13c65bce43”。然后我忽然得了失憶癥,忘掉了原文是什么,而且我也沒有任何記錄記下我的原文是什么?,F在我手上只有這段完全看不懂什么意思的密文。
按道理講,我永遠也不可能再知道這段密文對應的明文是什么了。
但天無絕人之路。正巧我的朋友,他也曾經加密了很多文字,其中也包括“我愛公眾號宋星的數字觀”這十一個字。
并且,他沒有丟掉他的原文和加密密文的對應記錄。
我于是去找他,希望搞清楚我的密文“43d24306cf8a96d5b47f33114bdc66ef0c32cd26b639a4f71f5dfe13c65bce43”背后到底是什么原文。
他把這個密文跟他所有的密文做一個vlookup的匹配,或者干脆來個Ctrl+F,直接就找到了他那邊的同樣的密文,然后對照著他的原文和密文對照表,他輕松找到了“我愛公眾號宋星的數字觀”。
上圖:撞庫
因此,廣告主把自己的消費者的電話號碼一一用SHA256加密,然后拿著密文上傳給媒體,只要媒體那邊也有這些消費者的電話號碼,那么就能夠同樣把這些電話號碼用SHA256加密之后,進行匹配。
雖然是用加密的密文進行匹配,但是用原文密文的對照表一對照,也就知道了明文是什么。
這種方法,有一個學名,叫“隱私集合求交”,也被俗稱為“安全求交”。但,實際上,“安全”二字很勉強,它本質上就是行業中常說的“撞庫”的方法。
你會說,這樣加密還有什么意義,只要保留著加密的明文和密文之間的對應關系,那么什么不可逆加密之類的,都照樣會被破解。廣告主就算把消費者的ID都加密了,上傳給媒體,媒體照樣還是很有可能把這些密文對應的ID給找回來。
并不是沒有意義。上面這些不可逆加密的方法,確實不妨礙媒體還原廣告主上傳的消費者ID。但數據傳輸的中間過程中,例如需要由第三方經手的時候,數據萬一發生泄露,消費者ID明文被暴漏的風險大大降低了。
比如,我是廣告主,我找一個agency幫我上傳相關的數據給媒體。在明文操作的情況下,agency可以拿到這些消費者ID,并且agency的員工有可能獲得這些ID,這是很不安全的。但是,如果加密了,就算agency拿到了這些密文,也不會有大量的手機號碼和對應的密文的對照表,風險也會更小。
講到這里,跟隱私計算還沒有什么關系。下面,隱私計算要出場了。
03 隱私計算為什么是必須的
隱私計算可以解決這個問題,即廣告主ID保密情況下的ID匹配與數據應用。這種基于各方共有ID并在匹配ID(撞庫)之后進行的相關計算,被稱為“縱向聯邦學習”。
另一些廣告主,則有更高的要求,他們說,我的這些消費者,不僅僅只有ID,還有很多ID背后的屬性,這些數據,能不能跟媒體或者第三方的數據結合起來,用于更好地洞察消費者?或者結合起來更好地圈選消費者?不過,這些屬性不能透露給媒體或者第三方,也就是說,要在不給媒體或者第三方提供數據的情況下實現基于一方、二方(或三方數據)相結合的人群洞察和圈選。
這也是隱私計算可以解決的問題,即在不共享消費者屬性數據的情況下,實現對屬性數據的應用。
這些應用對于實現一些重要的數字營銷場景至關重要,畢竟,數據如果不能夠連通起來,數據的價值就大打折扣,數據在數字營銷上的作用就得不到充分發揮??梢赃@么說,今天的數字營銷,如果沒有隱私計算的幫助,很多高級的玩法都無法實現。
我們先看看“廣告主ID保密情況下的ID匹配與數據應用”問題如何通過隱私計算加以解決。
04 在ID保密情況下的ID求交與數據應用
上圖:交集ID可以不泄露嗎?
因此,必須解決這個問題。
比如,A是廣告主,自己的消費者手機號碼有5000個,想要跟媒體B進行ID匹配。但為了不把這些ID暴露給媒體,于是又摻雜了45000個其他的手機號碼。這樣,湊齊了5萬個手機號碼,跟媒體匹配。
媒體,當然也就不知道這5萬個手機號碼中到底哪些是廣告主的消費者了。廣告主的ID就此實現了保密!
這種利用“摻混淆數據”保護秘密(隱私)的方法,被稱為“差分隱私”。差分隱私有很多方法,這里講的只是一種最容易理解的方法。其他各種摻入混淆數據的方法,要基于各種各樣的算法,以保證混淆的效果,這里就不多介紹了。
加入了差分隱私的ID匹配,也被稱為“匿蹤安全求交”。
上圖:基于“混淆差分”的安全求交
這個新的東西,是媒體和廣告主中間的一個可信第三方。
可信第三方
廣告主(A)要把自己的5000個手機號碼加密發給第三方(C),然后C幫忙再摻入45000個起混淆作用的手機號碼。
然后C幫助A,跟媒體(B)進行數據匹配。匹配完成后,B將自己的數據結果(個體級別的用戶屬性數據),以加密的形式發給C。
C針對B發回的加密屬性,把混淆ID的加密屬性去掉(剝離),然后計算廣告主5000個手機號碼中能匹配到的那些人的加密屬性,并且歸納出這些人的共性特征。這些共性特征,不再帶有個人屬性,而是統計級別的數據,所以不再涉及到廣告主A的消費者的ID。并且這些共性特征是由媒體B發來的加密屬性計算出來的,因此,也是加密狀態。
第三方C再把這些共性特征返回給媒體B,媒體把這些加密狀態的共性特征解密,之后尋找與這些共性特征相同或者相近的人群,幫助廣告主進行廣告投放。
上圖:加入可信第三方的匿蹤安全求交
這樣,C在計算媒體B發來的加密個體屬性,得到的共同屬性特征,雖然也是加密的,但是在B那里做一個解密就可以直接應用于圈選人群了。甚至,今天的技術,連解密都不需要,就可以直接圈選人群了,這樣安全性進一步提高。
這樣,廣告主A沒有暴露自己真正的消費者ID;媒體B也沒有透露自己這些ID背后的屬性;第三方C,幫助A和B完成了數據匹配,也計算出A消費者的共性特征,卻也不知道這些特征具體是什么。只要C信守誠信,不泄露A交給他的加密的消費者ID,那么整個過程,就是相當安全的。
這就是隱私計算在數字營銷上的一個非常典型且重要的應用。
05 對交集ID進行保密的進一步優化
這是目前最常見的實現方式,但談不上小標題所說的優化,只能算是簡化。這種簡化,多多少少有點“自欺欺人”的味道。
當然,這種方法也不能說一無是處,媒體會強調,廣告主的數據會在“可信硬件技術”之下被隔離保護起來,對廣告主數據的操作,也是在這些硬件內進行的,并不會被泄露到這些硬件之外。
可信硬件技術,也在行業中被俗稱為“數據安全島”。
可信硬件技術主要解決下面的問題:
1. 數據獨立(data separation):存儲在某個分區中的數據不能被其他的分區讀取或篡改。也就是說,廣告主用于安全求交的ID,是不會被放到除可信硬件之外的地方的。
2. 時間隔離(temporal separation):公共資源區域中的數據不會泄露任意分區中的數據信息。計算資源,例如CPU,也有專門隔離的時間切片,來處理可信硬件中的數據。
3. 信息流控制(Control of information flow):
除非有特殊的授權,否則各個分區之間不能進行通信。
4. 故障隔離(Fault isolation):一個分區中的安全性漏洞不能傳播到其他分區。
如果媒體嚴格采用可信硬件技術及管理,確實能夠確保廣告主提供的ID不被挪作他用。當然了,媒體是不是都能嚴格自律,我們可以看他們獲得的執行標準的認證,比如《信息安全技術 可信執行環境服務規范》認證之類。不過認證這東西也不能100%全信,具體哪個媒體合格,哪個媒體不合格,就不在本文討論的范圍了。
目前,隱私計算的技術解決方案提供商可能已經找到了解法。這個解法,頗有些“釜底抽薪”的味道。簡單講,任何求交的過程,都必然會導致交集ID被求交的雙方共同掌握(安全求交),或是被第三方掌握(匿蹤安全求交)。那么,如果能夠不做求交,就實現跟求交一樣的效果,把廣告主ID和媒體ID匹配的用戶的屬性直接計算出來,就不存在廣告主的消費者ID被媒體知曉的情況了。
在2022年的一個新聞稿中,某個數據科技公司提到,他們的技術能夠:“無需安全求交、不泄露交集ID、在全匿名數據集下進行聯邦學習的技術難題,真正符合《數據安全法》和《個人信息保護法》的要求,進一步加強了用戶數據安全和隱私保護?!?/p>
真的可以嗎?我的客戶和我見過的媒體都還沒有采用,所以,我暫時還不能給出肯定的回答。但看到這個消息,至少讓我覺得這個方向是有可能的。
06 ID求交(撞庫)和可信硬件環境下的數字營銷應用場景
廣告主將自己的消費者ID,以及每個ID對應的屬性標簽,在加密后,上傳到媒體提供的可信硬件環境中。
媒體與這些ID進行安全求交。
求交之后,能夠匹配到的ID,媒體也把這些ID對應的媒體端所擁有的屬性數據,上傳到該硬件環境中。
此時,這個硬件環境中,也就是數據安全島中,就集合了交集ID,以及每個ID所對應的廣告主的一方屬性標簽,和媒體的二方屬性標簽。
媒體基于這些ID和屬性標簽,以及基于這個可信硬件環境,為廣告主提供一個圈選人群的界面。廣告主在這個界面中,根據自己的需求,基于一方、二方的屬性標簽,進行人群圈選。
比如,廣告主A,跟媒體通過安全求交,匹配了1000萬人。這1000萬人,廣告主自己的標簽是過去一年內的購物數據和私域內的互動行為數據。而媒體端,則是這1000萬人的社會屬性和興趣愛好數據。
基于聯合人群圈選的解決方案,廣告主A可以選擇,在過去3個月內購買了某類商品,且興趣愛好是旅游的一線城市的20-30歲的女生。
圈選之后,媒體基于圈選結果得到的ID,進行廣告投放,或是按照廣告主A的要求做其他營銷觸達。
或者,廣告主也可以先基于自己的一方數據標簽,圈選出人群,然后再看這些人群的二方屬性是什么。從而更好地洞察自有消費者。
比如,廣告主A基于自己的一方數據,圈選出3個月內購買某類商品的人群,然后再在這個界面上要求媒體對這些做畫像。媒體會提供這些人的二方屬性的統計報告。
廣告主將自己的會員ID加密后,上傳給電商平臺提供的“會員通”服務指定的可信硬件環境中(例如,阿里的聚石塔、京東的云鼎),ID在這里進行求交。求交之后能匹配上的ID的會員相關的數據,會傳輸給廣告主。
運營商為什么能做這樣的事情,在這篇文章就不介紹了,如果感興趣,歡迎上我的線下課《數據化增長:數據驅動的新數字營銷》(點擊查看具體課程介紹)。
07 安全求交之外的隱私計算應用
比如,我們如果有1000萬個汽車購買者的私域數據樣本,就能計算出,購車人在私域中做出的哪些行為(或行為的組合),就意味著他們要買車了。這個計算的結果,就是“購車預測模型”。
但可惜,每個汽車主機廠最多的樣本也只有200萬個。于是多個主機廠聯合起來,他們不分享任何的ID給彼此(不做安全求交),而是各自基于自己的樣本先計算一個“粗糙的”購車預測模型。然后各自把自己計算的模型結果上傳到一個第三方,第三方基于這些車廠的模型,整合出一個新的模型。并把這個新的模型下發給各個主機廠,再次做計算,以優化這個模型的“梯度”。
至于什么是梯度,就不解釋了,太技術。你可以簡單理解為,就是對這個模型里面的參數什么的進行進一步優化。
這樣的過程多來幾遍,直到這個模型靠譜了,就能夠給每個車企使用了。
你看,每個車企沒有把自己的任何樣本公開出去,卻都得到了靠譜的購車預測模型。
所謂橫向聯邦學習,這里的橫向,就是指,參與計算的各方,他們擁有的樣本的ID并不相同,但是這些ID的屬性類型是相同的,比如購買者都有在私域中的各種同樣的行為類型(查看車型、查看購車金融、詢問客服之類的,每個車企的私域都有這些相同的交互功能)、同樣的社會屬性類型等。而縱向聯邦學習,則是樣本的ID相同,而ID背后的屬性不同。
講到這里,終于把我想講的基本上講完了。能讀到這里的朋友,應該對隱私計算在數字營銷上的原理和應用有了更全面的理解。不過,還有一些問題我沒有能在這里進一步闡述,比如,這些應用場景具體起到什么作用,對不同行業的意義是什么,又如,隱私計算在數字營銷中的合法合規性問題。這些內容,就不再寫在文章中了,否則文字太多了。感興趣的朋友,歡迎上我的線下課《數據化增長:數據驅動的新數字營銷》(點擊查看具體課程介紹)進一步了解學習。
以上。