解包多語言數據管理和匿名化翻譯

在SlatorCon Remote 2022 年 9 月的小組討論中,Pangeanic首席執行官Manuel Herranz和首席技術官Amando Estela討論了公司圍繞數據匿名化、假名化和數據屏蔽的項目及其演變。
Pangeanic 最初是一家日本公司的歐洲分公司,于 2000 年代初被 Herranz 收購。最初,該公司作為語言服務提供商 ( LSP ) 運營,專注于統計機器翻譯的技術研發工作。機器翻譯 (MT) 至今仍是該公司最強大的產品之一。
Herranz 鼓勵與會者收聽SlatorPod #43,以了解有關 Pangeanic 起源的更多信息。從早期開始,該公司就開發了多種工具來增強其現有的 MT 產品,成為一家專注于數據處理的高度專業化的自然語言處理 ( NLP ) 公司。
通過數據匿名化遵守 GDPR
Herranz 和 Estela 討論了專有 NLP 解決方案的多功能性,例如 MT 和自動數據分類和去識別化,這些解決方案使公司能夠利用數據,同時保持符合包括通用數據保護條例 ( GDPR ) 在內的法規。
Pangeanic 是歐盟 MAPA項目(公共行政多語言匿名化)的合作伙伴。MAPA 涵蓋所有歐盟官方語言,Pangeanic 提供了軟件工具,可直接刪除數據的識別屬性,包括人名等個人信息。
Slator 商務總監 Andrew Smart 向Pangeanic專家詢問了一些可以利用這些工具的主要行業。Herranz 表示,盡管法律和金融部門仍然是主要用戶,但數據匿名化的最大客戶是公用事業公司和企業對消費者 (B2C) 公司。
Pangeanic 首席執行官解釋說,B2C 公司“擁有大量可重復利用或貨幣化的個人可追溯數據”,包括旅行或交通偏好和飲食習慣。一旦匿名化,數據就會符合 GDPR,并且可以以多種方式使用。
首席技術官 Estela 補充說:“匿名化是某種翻譯,因為您正在將英語翻譯成符合 GDPR 的英語?!?/span>
違反 GDPR 可能導致罰款
Herranz 指出,在數據匿名化技術(例如數據屏蔽和數據交換)方面,不同的用戶有不同的偏好和需求。他說,數據屏蔽的一個例子是使用平均年齡(即年齡范圍)而不是特定數字。至于替換詞(例如,數據交換、假名),可以替換城市或人名。
他還解釋了一些公司如何通過將匿名化與數據散列混淆來違反 GDPR;也就是說,通過使用散列函數或創建訪問級別,將任意大小的數據映射到固定大小的數據的過程。這兩種方法都沒有提供 GDPR 合規性,因為識別數據仍然可見。Herranz 表示,這些公司可能面臨數百萬歐元的罰款。
多語言數據管理
匿名化延伸到翻譯數據庫,可以作為合規的翻譯記憶庫合法出售。關于低資源語言的匿名化問題,首席技術官 Estela 指出“翻譯需要大約 3000 萬個示例來訓練引擎。[但對于資源匱乏的語言,]我們需要大約 300,000 個?!?nbsp;因此,調整數據大小是實現匿名化過程的關鍵。
Pangeanic 首席技術官接著說,引擎沒有經過匿名化訓練。相反,它們旨在檢測某物是名稱,而其他東西是地址。
小組討論以其他類型的數據匿名化以及將其貨幣化的方式(例如對話)作為主題。Herranz 說:“所有這些對話都有價值 […],并且必須匿名作為法律要求?!?/span>
“世界上任何地方的合規團隊都沒有考慮過匿名化或對個人身份數據進行某種數據屏蔽。有多種方法可以安全地共享數據 […] 這是一座金礦,”Pangeanic 首席執行官總結道