
您不僅僅是一個數據點。 「選擇退出」功能旨在協助您重掌隱私。
演算法就像它們的「食物」。這些複雜的程式碼需要「營養」才能正常運作並準確執行任務,當它們無法獲得足夠的高品質數據時,就會舉步維艱,最終失敗。
當我查看 2022 年 Spotify 年度歌單時,發現我最喜歡的歌手竟然是小豬佩奇,這讓我意識到 Spotify 的演算法有缺陷。我皺起眉頭,一臉困惑。 Spotify 為什麼會認為這隻卡通小豬是我最近的新寵兒?後來我才想起,今年夏天我和我兩歲的小姪女待了一周,當時只有用手機播放小豬佩奇的歌才能讓她開心。
嗯,這樣就說得通了。
但我很快意識到,這頭小豬不僅搞砸了我的年度總結,還搞砸了更多:我的推薦演算法也一團糟。好幾個星期以來,平台為我產生的四個每日精選歌單中,至少有一個是兒童音樂合輯。
雖然這很煩人,但我卻在想,或許我姪女的這種痴迷,實際上是一種有效的方式,可以重創科技公司對我們每個人的詳細檔案。畢竟,如果Spotify、Instagram、Google或其他任何平台誤認為我是另一個人,它們就會向我推送與那個虛假身份相關的廣告,而不是與真實的我相關的廣告。如果它們碰巧把我的資料提供給了第三方,例如資料經紀商,那麼它們交給的就只是一個虛構人物的個人信息,而我真正的喜好和興趣則被淹沒在一大堆小豬佩奇的歌曲裡。利用這種身分誤認,我們可以巧妙地隱藏自己,從而保護我們的隱私。
用錯誤數據製成的迷彩服
向你生活中的演算法輸入錯誤數據被稱為數據投毒或數據混淆,這是一種旨在透過產生大量不準確資訊來掩蓋你真實身份的技術。這個概念指的是同步攻擊,攻擊者會故意刪除或篡改平台演算法所使用的資料集,使其效能下降甚至失效。這需要特定的技能和專業知識,以及強大的運算能力。
你或許沒有這些東西,但你可以運用同樣的原理來保護自己免受網路持續監控。你看到的圖片、喜歡的貼文、播放的影片、聽的歌曲以及簽到地點——所有這些數據都會被平台收集並用於建立你的個人檔案。他們的目標是盡可能地了解你(甚至比你更了解自己),從而預測你的需求和願望。當然,科技公司和廣告商這樣做並非出於利他主義,而是為了向我們展示廣告,希望以此誘導我們消費,或影響我們的感受和投票傾向。
最簡單的資料投毒方法就是在註冊服務時使用與你本人不符的姓名、性別、所在地和出生日期。更進一步,你可以點讚一些你不真正喜歡的帖子,隨意點擊一些你不感興趣的廣告,或播放一些你不喜歡的節目內容(影片、音樂、電影等等)。最後一點,只需在你使用的平台上點擊播放,然後關掉螢幕,調低音量,讓它播放一整夜。如果你想幹擾 YouTube,可以使用自動播放功能,讓它在你睡覺或工作的時候自動播放幾個小時,讓你沉浸在各種內容中。最後,每當你需要回答問題時,例如為什麼要退貨,預設答案選擇“其他”,然後在理由欄裡隨意填寫。
資料投毒可能失效的地方
如果這一切聽起來太簡單,你說得對——其中也存在一些問題。如果你註冊時使用虛假訊息,而平台會透過匯總大量數據點來建立和完善你的個人資料,那麼這樣做可能毫無意義。例如,如果你說自己住在加州,卻瀏覽威斯康辛州的本地新聞,把工作地點列在密爾瓦基,還上傳了一張自己在密西根湖畔的照片,那麼平台默認你住在加州的假設就沒什麼意義了。如果你說自己出生於1920年,卻喜歡Z世代的內容和話題標籤,也會發生同樣的情況。說實話,一個82歲的老人是Blackpink的鐵粉並非完全不可能,但可能性不大。此外,如果你的帳戶被鎖定或被駭客攻擊,某些服務或網站可能會要求你提供真實身份證明。
睡覺時播放你不感興趣的內容可能會擾亂你所用平台的推薦演算法,但這樣做也需要你可能無法獲得的資源。你需要一台能夠長時間耗電的設備,以及足夠快的無限流量網路連線來流暢播放任何內容。幹擾演算法也會影響你的使用者體驗。如果你依賴 Netflix 來推薦你接下來要看什麼,或是依賴 Instagram 來了解最新的時尚潮流,那麼如果平台不了解你的興趣,你很可能無法享受推薦的內容。這甚至可能毀掉整個應用程式——想想看,如果你在約會軟體上開始左滑並拒絕所有你真正喜歡的人,會發生什麼?
就像吃一次沙拉並不能讓你變得健康一樣,你的數據污染策略也必須持續不斷才能給人留下深刻印象。僅僅偶爾點擊幾個無關緊要的廣告,指望這足以擾亂演算法是不夠的——你需要反覆這樣做,才能強化你虛假個人資料的這一特徵。你可能已經注意到,在瀏覽過某個網店後,你感興趣的品牌或產品會出現在你之後造訪的每個網站上,但最終這些廣告會被其他廣告取代。這是因為網路廣告是週期性的,這很合理,因為人們的興趣總是有起有落。
但最大的隱患在於不確定性——我們根本不知道我們對科技公司和廣告商收集的數據會造成多大的傷害。研究表明,即使只篡改少量資料(1%到3%),也會顯著影響演算法的效能,而這些演算法正是試圖了解你的喜好。這意味著,即使你點擊了一小部分你不感興趣的廣告,也可能導致演算法將你歸類為錯誤的類別,例如,錯誤地認為你是家長。但這僅僅是估計。 Google、Facebook和其他大型線上平台的工程師不斷更新他們的演算法,這使得這些演算法始終處於變化之中。更何況,這些程式碼都是專有的,所以只有這些公司的員工才真正了解資料竄改的有效性,而他們極不可能透露自己在這種技術上的漏洞。例如,在Google的 AdSense 中,廣告主按點擊付費,如果他們知道自己的錢花在了虛假點擊上(即使只有幾次),這可能會危及谷歌觸達受眾和銷售產品的權威性。
這一切重要嗎?
不確定惡意篡改資料是否真的能保護隱私,可能會讓你覺得嘗試毫無意義。但並非一切都無望。一些軼事——比如我的 Spotify Wrapped 歌單、YouTube 有時莫名其妙的推薦、Netflix 偶爾令人費解的類型推薦,以及因為你不小心點擊了某個鏈接就誤以為你對某個產品感興趣的廣告——都清楚地表明,平台並非對我們善意的謊言免疫,惡意數據也並非無害。康乃爾科技學院的隱私研究員 Helen Nissenbaum 和 Lee McGuigan 也進行了一項非常有說服力的實驗。該實驗證明,AdNauseam(一款已被 Chrome 應用商店下架的擴展程序,它會自動點擊頁面上的所有廣告以乾擾谷歌的分析演算法)確實有效,而且谷歌無法區分真實點擊和虛假點擊。
或許你需要讀到這篇文章才能相信,但我們無需滿足網路平台的所有要求。數據污染既不欺詐也不違背道德。這只是我們用戶以各種方式奪回我們資訊的一種方式。正如電子前沿基金會的電腦安全專家喬恩·卡拉斯告訴我的那樣,我們沒有道德義務回答科技公司無權提出的問題。他們已經收集了我們每個人成千上萬的數據——為什麼要幫他們呢?
歸根究底,數據投毒的效果是顯著還是微乎其微並不重要。重要的是它確實會造成影響。如今,科技公司並不真正關心我們的利益,而監管又因為數十億美元的遊說而嚴重滯後,我們用戶只能依靠自己。因此,我們不妨採取一切可能的策略來保護自己,免於持續不斷的監控。
閱讀更多《大眾科學》文章。