• 部會簡報(經濟部標檢局):http://www.slideshare.net/vtaiwan/ss-58562437

  • 部會簡報(財政部資訊中心):http://www.slideshare.net/vtaiwan/ss-57361304

  • 大家晚安,很高興我們在這邊再一次開始了vTaiwan,一開始我們都要提醒一下這個按鈕的用法,按一下開始講,講完之後再按一下關掉。

  • 今天我想對於個人資料去識別化驗證規範,第一次由標檢局說明,去年已經有說明過,法務部有很多具體實作的標準由標檢局來引導,這一次續篇可以讓我們理解到從開始討論到現在大概幾個月的過程當中,標檢局跟第一次施作的案例與方式。

  • 在開始簡報之前,我們也開始先大家簡短自我介紹一下,主要是讓我們的速錄師可以知道你願意怎麼樣被紀錄,你的名字及來自於哪裡,如果大家ok的話,我們就從總召集人開始。

  • 大家開始,我是蔡玉玲,很高興我們又討論去識別化的議題。我想從過去形塑這樣的機制,一直到現在有一個比較具體的進度,也希望透過這個機會,我們做一個更深入的討論,今天有非常多的專家學者,我們希望透過這樣的討論可以讓我們這樣的機制更完善,現在後面還有衛福部跟內政部用這樣去做去識別化來認證,我想今天的討論對往後的推動是非常重要的,謝謝。

  • 我現在是以交通大學兼任的講師來出席,我今天想跟大家分享一下我所觀察到國內、外在做資料去識別化與授權處理上會有什麼樣的流程,謝謝。

  • 我是輔大財法系的老師,我的專長是研究個資,謝謝。

  • 是臺灣大學科技管理所的老師,承上次,這次又被邀請。

  • 我們這次在去識別化驗證主要提供的內容是,我們目前有一個team專門focus隱私保護去識別化的工具等等。

  • 我是蔡敦仁,我是長期參加標檢局標準制定,也擔任資訊安全分組的召集人,有CNS29100、CNS29191,在這個分組被制定出來。各自去識別化驗證的規劃我也是有參與撰寫,所以可能這是一個出版未來可能跟整個驗證越來越成熟,可能還會需要有一些改進及也希望各位先進可以提出一些建議。

  • 我是經濟部標檢局副局長王聰麟,本局積極配合蔡政委的領導,有關的時程盡量在時程之內完成階段性的任務,到目前都還在進行當中,先報告到這邊。

  • 我是經濟部標準檢驗局楊禮源,我們是配合蔡政委的推廣,很高興今天有機會分享,謝謝。

  • 我主要業務是有關於機電與資通國家標準的制定,也會配合個人去識別化的推動,謝謝。

  • 大家好,我是李春生,我們去年是按照蔡政委的指示,從9月至11月三個月的時間,我們是第一個透過根據標檢局個人去識別化的驗證與控制,根據這個標準的流程,我們去做一個驗證,從去年11月底拿到第一張驗證證書,等一下我們會把整個過程跟各位報告。

  • 我是謝明峯,很高興有幾天來參與去識別化的驗證,我們是工作團隊之一。

  • 我是財政部顏大淵,我是負責本中心這一次有關於制定文件跟實作案例的成員之一,謝謝。

  • 我是洪士勳,我也是目前這個案子的實作案例成員之一,謝謝。

  • 我是資策會所的副所長,我們是根據巨量安全與開放資料的技術上作很多的研究,個資去識別化當然是很重要的問題,政府要開放資料,當然要能夠保障個人資料不會被洩漏出去,我們從技術的角度來看,在什麼樣的狀況之下,之後還可以提供資料的價值,這是我第一次參加,希望學一點東西也可以貢獻,謝謝。

  • 各位晚安,我是薛榮銀,我是資策會大數據所的。

  • 我是小兒科醫師,我關注這個問題是101年有26個人寄存證信函拒絕個人健保資料,我就是那26個人之一,不過我沒有去參與訴訟,所以關心這個議題,看個人資料能不能推出的相關議題。

  • 我是一般網友代表,我滿關心個人資料去識別化的議題,之前一次會議我也有參加,所以我這一次繼續參加。

  • 大家好,我是法務部法律事務司李科長,是負責個人資料保護法的工作,很高興今天能夠跟各位見面,謝謝。

  • 大家好,我是法務部法律司的專員,主要的工作是負責個資法的業務,謝謝大家。

  • 我是國家發展委員會法協中心吳家林科長,在個人資料去識別化的業務裡面,在負責推動、教育訓練的工作,我是第一次參加正式會議,請大家多多指教及謝謝。

  • 我是國家發展委員會法協中心的陳柏宇。

  • 大家好,我是資策會課法所的研究員。

  • 大家好,我是速錄師,今天負責製作現場同步會議紀錄,歡迎大家踴躍發言,I謝謝。

  • 在去識別化的部分,如同剛剛楊科長所談的,我們國發會協助的角色是在去識別化的協助推廣,謝謝。

  • 我參與這個會議參與了很多次,我印象中今天並不是第一次講個人資料去識別化,上次就有講到一些,在這裡我就有看到議題,很期待聽到各位專家的一些見解,也學習一下,謝謝。

  • 大家好,我是青年顧問團的彭彥翰,我很關注這個議題,但我自認不是專家,但我來這邊學習,順便提供一些路人非專業意見的想法。

  • 我是青年顧問團的小楊,因為我在網路媒體工作,剛好會遇到一些個資法的問題,謝謝。

  • 如同剛剛很多位都有提到,我們上次在這邊開同樣會議的時候,處理的是為什麼要去識別化的問題,我們今天已經到怎麼做去識別化的階段。

  • 我想如果法務部今天沒有簡報的話,我們直接請標檢局開始,從「怎麼做」來說明。

  • 大家好,還有線上的各位朋友大家好,首先由經濟部標準檢驗局跟大家報告「個人資料去識別化驗證標準及推廣」,我們這一次簡報的部分大概有分作四個部分,第一個部分要跟大家報告的是這個案子的背景,第二個部分是要跟大家報告行政院對這個議題非常主動積極,一直指示我們各部會相關去辦理去識別化的規範,第三個部分會跟各位報告驗證標準規範驗證的過程及相關的內容,最後跟大家分享我們推廣的經驗。

  • 我們知道在面臨大數據時代跟網路時代的來臨,如何在符合個資法的前提之下來運用我們所謂DATA的議題,事實上在國內有非常迫切的需求,為了要解決個資利用的爭議及合法利用的大數據與政府的應用及商業模式推動的需求,國內的需求迫切性是非常急迫的。

  • 國內的行政機關在個資利用解決的意義上是從101年開始,101年在5、7月健保資料運用的部分,因為有七個民間團隊認為提供給國衛院法令授權依據,也拒絕將個人健保資料作業務之外的利用,其中10人不服,提起訴願。在101年11月衛生署駁回訴願。102年1月其中8人向高等行政法院提起訴訟。在103年5月高等法院駁回。103年7月原告不服,繼續向最高行政法院來上訴。同年11月最高行政法院發回高等法院再更審。去年1月高等法院已經召開準備程序,目前最新的進度是已經完成準備程序,預計在今年3月進行我們言詞辯論程序。

  • 在這個議題的爭議點的應用上主要是他們認為提供研究健保資料的去識別化是不是已經達到無從識別當事人的程度,這個議題大家有相當的爭議。人權團體主張健保署衛福部國衛院還是有可能被間接或直接識別,但他們認為資料已經去識別化依照法務部相關的意旨並非可直接知道。

  • 要使國內大數據在應用上有一個很快速的發展,行政院召開非常密集的會議,各部會也都在相關的配合下積極運作這樣的議題,在104年1月行政院召開了第二十七次的會議,在104年5月是由蔡政委主持召開應用大數據潮流的會議,接著7月再召開第二十八次會議。這幾次的會議是有說經濟部要對相關程序的訂定,相關個人資料去識別標準的訂定,裁示由經濟部標檢局負責辦理。

  • 其中有一個會議是在去年7月14日由蔡政委,研商因應大數據潮流個人資料去識別化可行機制,會議的決議有關於OPEN DATA個人資料去識別化的應用是要透過中立第三方的驗證機制,有助於我國大數據的應用,當初是責成一個月內要求個人資料去識別化的相關資料規範。應徵標準資料去識別化後財資中心率先來作為第一個驗證。

  • 有關於個人資料去識別驗證規範的研訂,事實上還在蓬勃發展當中,比如ISO 29191,比如相關的措施做法還在發展中;歐盟在這一塊事實上是比較嚴謹,歐盟提出WP 216也有考慮。在美國聯邦法案去識別化的價值應用,也明訂可以用專家判斷法與安全港來判定。日本是在2014年12月公布已經把匿名化處理資料與個人資料保護委員會納入配套法律當中。因此,國際的趨勢還在蓬勃發展當中。

  • 在國內的話,因為相關國家標準事實上ISO有制定比較高階的標準及其中一個標準是是ISO29100,標檢局也在103年6月4日公布為CNS29100,名字是「資訊技術-安全技術-隱私權框架」,是一個高階的要求,可以應用在組織技術程序各層面個人資料的保護。因為在標準裡面有提到,有兩個行徑是適用在政府機關開放的情境,是委託給委託機構處理的情境,因此在這個標準裡面大概可以適用到我們目前OPEN DATA跟BIG DATA應用的方式。

  • 另外一個標準是我們所謂的CNS29191,主要是資訊技術、安全技術,是針對部分匿名及部分去連結的標準公布,在標準適用的範圍是大數據需要被重新識別,當然我們知道政府開放資料是不能重新識別,但這裡是說具正當理由下是可以重新識別。

  • 因為國內的需求非常迫切,國際上目前只有公布比較高階的標準,局也是很快制定為國家標準,因為在迫切的需求性之下,原則上我們先採用跟大家包括CNS29100跟CNS29191的標準,再者是已經涵蓋了BIG DATA、OPEN DATA比較高階的要求。

  • 前次會議有說會採用第三方中立來做一個驗收的提供,因此我們會朝驗證的規範來做這樣的規劃,大家看這一張圖是基本驗證規範的三階架構圖,像一個金字塔,這會包括最高階的驗證標準、中階具體控制措施及低階執行作業程序。在高階的作業標準基本上會比較屬於原則性的要求,那就是我們剛剛跟大家報告CNS29100、CNS29191,比如隱私權那一塊的部分。因為在政府機關的OPEN DATA,之前有跟法務部研議過是強調個人資料不能被重新識別,因此我們這邊也再次強調一次。在中階的控制措施上,事實上國際規範還沒有寫得很清楚,如果大家知道ISO27001的話,它是一個非常成熟的國際標準,但因為去識別化的議題非常新,所以還沒有訂進去,若干年後會訂進來,標檢局就參考十個標準訂定了一個個人資料去識別化的措施來作為在這個議題上具體的要求。低階的受驗證程序就受驗證組織考量本身資料型態依標準要求及相關措施來自己建置作業程序,以符合要求。

  • 會由高階的標準,CNS29100、CNS29191展開到中階,最後再展開到實際作業程序。在驗證的應用上受驗證的單位要依照自己的資料型態來訂定SOP,最後要符合到高階跟二階標準跟控制措施的要求。

  • 因為這個議題在國際的標準上,中階的控制措施還沒有被納入到標準裡面去,為了要因應國內迫切的需求,我們是請標準委員蔡教授來起草,也經過非常多相關機關的討論,參考了將近十個國際標準,包含CNS29100、CNS29191、CNS27017等等,包括一些國家的ICO我們都納進來參考,指定控制措施,率先完備。

  • 在控制措施上是要作為驗證上的使用,主要的內涵包含了用語及定義,第二個是風險管理過程、隱私權政策、隱私權原則、重新識別PII之要求及PII去識別化過程。

  • 相關的規範事實上我們也召開了非常多的會議,政委也主持了會議,個人去識別化的會議,8月份也在研議控制措施的部分,我們主要的決議是有取得目前相關政府機關的共識,現階段會以我國跟國際標準CNS29100、CNS29191個人資料去識別化的要求,並且附加要求政府的開放資料不能被識別,我們就訂定了我們的控制措施。

  • 我們之前的會議研議之後,我們在去年8月在行政院由蔡政委主持的會議報告,我們報告這一些規範的部分跟控制措施的研議結果。會議決議是CNS29100、CNS29191可以作為國家現階段推動OPEN DATA、BIG DATA個人資料去識別化標準的部分,我們參酌國際規範的控制措施來作為具體要求的參考。因為規範出來之後,當次的會議上也裁示財政部資訊中心要在11月完成驗證。

  • 規範確定完之後,事實上行政院也要求我們來作推廣,我們在8月的時候就跟國發會、國資辦研議,我們的說明對象也分作政府機關與民間企業來辦理。政府機關的說明會在去年10月27日有辦理,共有32個中央機關及14個地方機關派員參加,我們還有函請相關部會調查民間的需求,共有76家的需求,我們也發函請他們來局裡面辦理業界說明會。在去年11月30日財政部資訊中心也依照驗證規範草案第一家率先驗證,取得第一席驗證,變成是我們國家第一個通過個人資料去識別化的驗證,敬請大家指教。

  • 非常感謝報告。

  • 我整理一下,這一次是去年11月我們vTaiwan有討論過也有給過建議,凡是作為開放資料使用的,基本上我們是以不能重新識別為基礎,所以雖然剛剛有討論到CNS29191的規範,等一下財資中心會用的是不能重行識別的CNS29100。

  • 線上有500位朋友,歡迎隨時打字留言,在下一階段幫大家詢問。我們歡迎財資中心。

  • 各位先進及線上的朋友,大家好,我們根據經濟部標準檢驗據控制措施來進行試辦案的報告。

  • 我們大概在8月18日如標準檢驗局所報告的,根據行政院研商會議結論,依據經濟部標準檢驗局的要求來作一個標準作業。

  • 我們除了完成試辦案例完,還有導入驗證過程,包含了一階1份,二階11份、三階1份、四階15份。倒入驗證機關制定的文件,整個位階如同標檢局報告的第三階作業部分。

  • 在文件列表當中,詳如畫面所列,大部分都是依循整個控制措施來訂定,比較特別的部分包含一階文件一次風險評鑑的部分、三次文件去識別化作業過程的規範,主要的報告也會針對這兩個部分來說明。

  • 另外要再補充說明,我們這一次倒入驗證的涵蓋範圍,整個個人資料去識別化過程驗證要求及控制措施有七個章節,第一個章節是目的,第二個章節是用語及定義,這個部分是不包含驗證要求及控制措施的部分,所以沒有納入驗證的範圍。第五個章節所指的是隱私權的保護原則,這個部分因為財政資訊中心已經有導入英國的案例,這一次也沒有包含第七章的重新識別要求。我們在這一次識別案例當中,主要是所得稅的資料,所謂綜合所得稅的核定版包含了幾個主要的欄位,有所得稅申報戶的資料,包含所在的地址、戶籍編號等等,另外也會有所得總額或相關扣除額總額。

  • 我們是以102年度綜合所得稅的資料為實作,102年度的綜合所得稅應該是在103年度申報,當確認之後應該是到104年下半年,這個是綜合所得稅的最新資料。這個資料超過720萬筆的紀錄。

  • 我們在做個人資料去識別化的過程當中,第一個要進行的是隱私風險評鑑。在我們的程序當中主要是期望值的概念,我們先評估這些資料如果不小心外洩或被人家再識別對機關的衝擊是多少,最低是8分,最高是40分。

  • 這樣的資料放出來之後被別人猜出來的可能性有多大?我們會去評估三個因素,我們會找一個最高來計算。

  • 我們參考美國的做法,美國一般針對開放資料或者放出去之後不可控制狀態的話,他們重新識別的可能性會訂定在1/22左右,如果以我們現在目前在做的案例,如果8至40分之間如果取其中大概是24分,如果再乘上1/22,是1.2左右,所以我們認為在個人資料去識別化的過程當中,我們希望風險值能夠控制在1.2以下。

  • 在這個案例當中,底下會說明計算出來是26分,如果把風險值控制在1.2以下,大概相當於我們把重新識別的可能性控制在1/22左右。

  • 我們把衝擊構面分成八個構面來看,包含有無直接識別欄位或者是間接識別欄位,個人資料所要處理資料集的計入列的數量等等的這一些因素去評估,我們這樣算出來之後,這個案例的重新構面是26分。

  • 我們來計算重新識別的可能性:重現性。這樣的定義是假設在資料接收者的團隊如果剛好認識資料集所指稱的資料當中,我們放出了100人,可能其中認識5人,直接猜到5人的機率是5%,可能不變的話,權重就會比較高,如果不變的話,就會降低。在這個案例當中母體資料數很大,以一個人的鄧巴數為150左右,我們換算下來的重現性相當低,因此這在後續處理當中是一個決定性的作用。

  • 第二個要評估的是資源可用性。有無外界的相關資料與我們要處理的資料經過比對,而讓別人更容易猜出來?這個案例當中雖然我們處理的母體紀錄是720萬筆,我們會去分群,分完結果是6萬多筆,根據95%的信心水準,誤差為正負5%,抽出了375筆,網路上經由社群媒體或者是引擎來搜尋有沒有相關的資料,但我們是沒有比對出相關的狀況,因此以外界的狀況來看是接近於0。以重新識別的可能性來講,也不會在後續當中起到決定性的重要。

  • 第三個是區別性。主要是根據威脅模型來評估,這個主要是參照美國去處理個人健康資訊的方式。在這個威脅模型當中會去評估三個模型,第一個模型是去評估內部控管、外部動機與能力。是兩湖報好的狀況沒有要去釋出,同時也要考慮外界有無高度的意願來供給,根據右上角的舉證來做出攻擊機率,這個是參考美國個人資訊的模型。不過在這個案例當中我們主要是要處理OPEN DATA的狀況,相當於這張表當中最底下的這一航,所以我們會以攻擊機率等於1來計算。我們會去算T2,當這些機率是在長期運作的狀況之下,可能外界的興趣越來越高,在逐年的演進過程當中,可能資料就喪失了、被人家偷走。我們一樣計算出被偷走的機率,在這個程序當中我們計算如果一年沒有被偷走,一年的機率是1/365,兩年內沒有被投走是1/730,依此類推。這一次是以OPEN DATA來計算,所以是低的方式來計算。

  • 如果要符合風險評鑑的結果,換句話說,我們猜中的最高機率是要設定在1/22,才能維持剛剛一開始所講風險值維持在1.2下的結果。底下會說明,如果是以1/22的話,K匿名法是如何實作?

  • 當一個資料集當中如果有一個或多個的屬性結合起來,比如住在某地20歲的男性,這樣的屬性結合起來可以指定到特定的個人,這個狀況可以等於1,如果這樣的屬性結合起來之後,可能可以找到五個人跟他的特性一模一樣,這個時候我們就會說K值等於5。如何達到這個目標?處理的方式主要有兩種,主要是資料的母體的當中來作概化,例如20歲的男性修正為15至25歲,另外一個方式是抑制,等於直接刪除或隱藏掉。如何判定?我只要把這個資料概化或抑制,就可以知道K值是多少。

  • 當一個資料表包含的欄位有姓名、年齡、性別、住所、宗教等等,如果把姓名用X等,都會發現同一個顏色的紀錄都會有兩筆以上,第一筆與第三筆是一模一樣等,這樣的狀況我們就會稱這樣的集合是符合K等於2的狀態。換句話說,當資料經過這樣的處理之後,因為有兩筆的紀錄是一模一樣,所以無法指定到特定的個人,猜測到的機率是1/2。換句話說,如果要達到K等於22的目標,我就是把我的資料經過處理之後經過分群,最少的那一群是22,就可以達到K等於22的目的。

  • 個人資料去識別化程序主要是參考經濟部標準局的制定,判定直接識別欄位,如果有就直接刪除,例如資料做DATA的處理,把直接識別的欄位用一個亂碼來取代,如果沒有重新識別的要求,這樣的欄位其實是沒有意義的,所以就會直接刪除。再來是按照我們的需要來選擇未來所要釋出的欄位,而且要判定這一些欄位哪一些是間接識別,哪一些是不涉及個人的資訊,接下來是進行到風險,我們來算一下這樣的處理要把K設定多少才能滿足風險評鑑的目標。接下來是調整參數,經過處理以後,可以達到K值的紀錄。K值都處理完之後,就會有一個離群值,這邊用5%的個體回應全體50%的支配模式,意思就是如果在二十個人的群體當中,如果有一個人的收入占所有二十人的一半以上,顯然這樣的狀況、這樣的個人很容易被猜出來,如果有這樣特殊狀況的數據就要經過特別的處理。但在我們這一個例子當中,等一下會提到收入是用等分位來處理,所以離群值的狀況不會出現,也不會在這個案例當中發生。接下來是把所有處理完的資料進行抽樣,根據統計學來做抽樣,再拿到網路上或者是社群媒體上搜尋,找有沒有相關可以比對的資料,再來確定所計算出來的風險值會不會違背設定,接下來輸出,並作查核驗證。

  • 接下來是一個實作案例,不過為了要說明我們在資訊可利用性,也就是資料的豐富度及個人資料保護中間的取捨上,我們舉了三個狀況來說明:第一個狀況是戶籍地址概化處理的方式,到底我們要公布街弄、村里或鄉鎮。第二個是在欄位的取捨上要納入多少的欄位來做K匿名法的分群處理,到底是可以接收到什麼程度。第三個是最終的實作結果為何只納入戶籍地址等之結果。

  • 同時為了要做OPEN DATA,所以沒有做識別要求。我們要稍微說明一下,內政部為了要讓一些資料不那麼容易被猜出來,有被定義了一些地理空間的區位,最小統計區聚合起來就是一級發布區,人數是450或更多一點,再把鄉林聚合起來就是二級發布區,也就是3000人左右,以大家理解的概念,最小統計區是一個結果,二級發布區是一個村里的小單位,為了要說明一個最極端的狀況,我們把所得總額分成四等位,收入最低的25%、25%至50%間、50%至75%間及75%以上等分位,我們是處理到K等於22的狀況。

  • 我們先用台北市的資料來觀察,如果以最小統計區來做,可以發現不符合K等於22的群組資料會占31%,也就是太容易會被猜出來,一級是11%,而級是萬分之4,如果用一級發布區以下的資料可用性較低,因為最終的結果都會用抑制的方式來處理,不符合K等於22的要求。

  • 換句話說,我們依照狀況1的結論,如果要符合K等於22的要求,而且要讓狀況超過95%以上的話,至少要用到二級發布區,同時我們考慮到計算的能力,我們也去問潛在的使用者,二級發布區地理空間大小類似村里,一般民眾可能比較不敏感,考慮到這一些因素,因此最後在做地理空間概化的處理上會用村里界進行戶籍地址概化,這個是狀況一報告的結論。

  • 這個是實作案例:狀況2。讓為了實作資料比較高的可用性,我們讓比較多的欄位納進來處理,包含了戶籍地址、所得總額、所得凈額、應納稅額,也包含了撫養人數、扣除額人數。概化處理方式是用村里來處理,所得總額的方式是以10等分位組來處理。同時我們計算所得凈額及應納稅額音高度相關於所得總額,相關係數也到0.99及0.97,所以在處理的當中我們只針對所得總額來計算。所得凈額跟應納稅額也是用10等分位組,低度間接概化,我們是用低密度來處理。可以發現這樣的數據還滿ok的,不符合K等於22的資料不占3%左右。

  • 這個案子也是我們實際上第一次提到現場驗證案例的結果,不過我們在現場驗證時在稽核時雙方有密切討論,討論到幾個因素,其實我們有一些不去計算其實不符合K匿名法的定義。可以包含了所得凈額、應納稅額不分群,低度間接識別欄位也沒有納入分群,第一次討論之後我們矯正,所有的欄位都要納入,就如下一個的實作案例狀況。我們處理戶籍地址、所得總額、所得凈額、應納稅額,地度間接識別欄位不用。

  • 我們可以發現當資料的欄位增加了兩個之後,一樣用村里用概化的處理,這時沒有辦法滿足一個群組超過22個人以上的狀況已經高達18%,所以說這樣的資料可用性很低,以後都要用刪除的方式來釋出。

  • 就這個取捨來看可以知道K匿名法對於個資識別相關欄位的限制會有一定的限制,當欄位越多的話,當要達到K匿名法就越粗糙,以這個例子來講,如果要達到K匿名法是22,戶籍地址的概化的等級要再加大,可能要到鄉鎮等級來處理。大家會考慮到對顆粒不宜過粗的需求度高,因此我們就考慮回到剛才的狀況來處理,地理空間的概化方式還是用村里來做,間接識別是用戶籍地址、所得總額,這樣的狀況就會回到二的狀況,也就是2.87%的紀錄不會符合K等於22的要求。

  • 大家會好奇這樣的資料處理之下有哪一些會損失?黑色的部分是最後會用遮罩處理的方式來處理,都市地區的密度較高,相對來講非都市地區人數比較稀疏,換句話說,沒有辦法滿足K等於22的可能性會加高,此為第一個觀察。第二個觀察,對於非都市地區高所得的人群,人數比較小,相當於都市地區比較少。高所得狀況少的狀況下,高所得的區就會被遮罩掉,在所得群組越高的部分,最後被遮罩的可能性就越高。

  • 我們也在行政院12月有報告,因為要去分群,所以不太適用在連續型的資料,可能會產生資料的損失,不過這邊要特別補充說明的是,不管用任何的隱私保護技術來處理都一定會產生資料的損失,只不過K匿名法會增加資料攔項的增加會有比較大的限制。

  • 另外,其實是保護技術除了K匿名法之外,還有很多的實作方式,建議持續引入新的技術來滿足需求。

  • 除了目前所實作的案例之外,衛福部、內政部也會持續去嘗試用隱私保護技術的方式來實作。

  • 其實統計資料與去識別化的原始資料有不同的應用標的,高群組會比低所得還要大,恐怕會失真,去識別化的原始資料會有每一個地理空間下面所得比較詳細的分群,或者會更適合展店的分析,這樣去識別化的處理可能還是要確認未來的應用情境是什麼再來選擇。

  • 接著處理的過程當中,也感謝內政部、科法所、工研院的合作,以上報告。

  • 非常感謝,感覺非常崎嶇的過程。

  • 我非常快速的摘要一下,我們一開始去客觀理解到,這一個資料本身如果外溢個人隱私,產生的衝擊有多少,從客觀的欄位等,來看我們能夠承受多少的衝擊。因為這個資料的筆數非常大,所以重現性、可用性都接近於0的狀況,主要扣問的是區別性。

  • 在風險值定義為1.2下求取倒數,得到1/22的重新識別的可能性。我其實滿好奇1.2一開始是在哪一個標準裡面,但我想因為時間的關係,等一下的流程是,我想先請實際參與這個過程也是制定這個標準的蔡老師先講評一下,這樣做的特點是什麼,有什麼可以改進及加強的地方,接下來巨資中心的王老師,我們人比較多,請時間抓一下,這樣我們可以有好幾次的詢問。

  • 謝謝主持人。

  • 我想財政資訊中心是第一個通過驗證的單位,整個規範其實剛開始的時候也不知道它的可操作性多高,實際上也滿感謝財政資訊中心給我們這個機會真的去檢驗過,我們最後的結論是其實可操作性是滿高的。

  • 因為所謂的個資去識別化的驗證過程,實際上是屬於我們管理系統的驗證,跟ISO9001是同一類的,整個精神「做你所說、說你所做」,你本身要提出一個方法學,像風險值是有一個方法學,然後從下面去展開,因為每一個單位的屬性不一樣、每一個資料也不一樣,所以去考量的因素也不同,有八個面向。我們去做驗證的時候,其實是看它的合理性,在正常狀況、合理範圍之下,我們覺得已經做得滿充分了,至於有一些值,因為他們要承受多少的風險是以每一個單位自己來衡量,因為風險不可能降到0,絕對不會發生的事情,不管在什麼樣的情況之下都有一些剩餘的風險,這剩餘的風險我們有很多的處理方法,比如把它轉移買保險或什麼,或者是我們這個單位有自己去承受。

  • 比如像剛剛講1.2,這實際上跟一開始的評分是有關係的,跟自己訂出的級距,比如是1、3或是5,如果以1來講,1.2我們在驗證稽核的時候,我們認為這個是合理的。當然後面還要再去作精算,那就屬於保險的範疇,比如要買多少錢的保險。這整套的方法學,我覺得在這麼短的時間裡面,因為只有三個月去發展,他們的思考也滿合理的,因為最後的呈現有一些部分可能會在驗證的時候有討論過,所以有作適度的修改,我們因為在這整個過程裡面是相互互動的過程,我相信不只從這裡面學到一些東西,其實我們做驗證的時候,也從這裡面得到一些回饋,所以我們有一個感覺,如果往後再作驗證的時候會更周延一點,不管在守法上或者是在整個思維上。

  • 我是認為本來就已經做了很多事情做得滿完備的,然後這個驗證不是憑空生出來的,只是把過去做的一些事情整理,套進一些方法學進來,我們有第三方比較客觀來提供一些看法,這裡面因為是第一次驗證,所以這裡面缺了一塊證據。所謂「做你所說、說你所做」,因為證據還沒有產生,有很多東西我們是未來要看它有沒有實施某些事情,當然處理這個過程是沒問題,可是譬如說你後續可能要做一些像內部稽核,比如說我們有一些控制措施是要求如果萬一真的被人家去投訴說你這裡面揭露我的個資,怎麼要去應對?有沒有什麼緊急應變計畫?這個我們在控制措施裡面有要求,可是因為這個是第一次,所以實際上也沒有發生過的事情,他們可能只能拿出來一些程序、有一些步驟,甚至有一些機制可以來應付後續產生的這一些事情。

  • 另外一個,剛才有提到,可能不是很注意,我們做過所有的去識別化之後,其實要有一個檢查的動作,譬如說我要從網際網路上,比如用GOOGLE搜尋引擎,也許到網站去,比如用新聞網站或者是政府其他公開的資料庫做交叉比對,因為我們很容易知道什麼是直接識別的資料,可是間接識別資料老實說很難把它完全去除掉,因為你把所有的間接識別資料全部去除掉的話,等於資料是沒用,你只要留下任何有用的資訊,其實它都有一些蛛絲馬跡,很怕這一個單位公布或者是這個公司公布的是某一部分去識別化的資料,然後你自己認為沒辦法再重新被人家識別,但另外一個單位也抱持了同樣的想法,很多的單位都有不同的資料,我們只要經過網路把它還原出來原來的資料是什麼人,也就是所謂的當事人,這一部分必須要有一個機制,我們要上網去把這些資料做過搜尋,搜尋過後沒有問題的有一個報告,然後根據我們的一些原則,譬如說在什麼樣的情況之下留下一些軌跡,我們才能說我們是通過了這樣的一個檢查。

  • 我們也要看這整個步驟的合理性跟它的結果,這是滿耗費時間的,而且這種動作並不是實際上你去識別化一次就完了,而且很多網際網路上的資料蓬勃發展,可能每隔一段時間就要重新識別一次,一旦要重新識別一次的時候又發現可能不能識別了,沒有辦法重新識別又被重新識別,這時候又有一些SOP如何做後續的處理,比如要下架或者是也許進一步識別化,這是連續持續不斷檢驗與改善的過程;但我們在做第一次驗證時是看不到後面,所以我只能講說我們的驗證在初步所呈現的不管是文件上的做法是ok的。而後續我們要有一些追查,比如一個驗證體系一個有效是三年,每一年我們會去做follow,我們當初有做一些觀察事項,我們在後續每一年還要保持證書有效,我們還會再持續下去。

  • 我個人的感覺是在這麼短的時間去做出這樣的一個成果,他們的的證書我想是實至名歸,謝謝。

  • 我呼應一下蔡教授提出的見解,其實我們輔導作驗證的時候,會前我就聽到很多人說隱私風險評鑑怎麼來的是有很多問題,我必須坦白說我們使用的這個標準本身並不會明訂某些參數該是多少,再以資料隱私的角度來講的話,每一個資料集都有不同的特性或每一個領域的獨特性,所以當我們看到這個標準跟這個隱私風險評鑑,其實我們也很困難,就像蔡教授所講的沒有先例,所以我們取得的方法是對安全性的重視是個人健康資訊的資料是最受重視,所以我們去搜集一些相關的法規。

  • 第二,在美國學界有一派,他們的研究論文是專注在個人健康資料隱私的保護方面,他們也有出書,我們整合這一些資訊之後也有發現他們對個人資料在釋出的時候進行隱私保護,他們其實把它定義了一個像剛剛提到重新識別可能性的建議範圍。所謂的「建議範圍」是如果以K匿名法來匿名的話,如果以OPEN DATA,至少希望K是20。如果是在受限區域內使用,比如是經由特定的合約關係或者是國內健保資料的研究是在受監控的使用,是不能另外參閱外部的資料,在這個情況之下就會認為K值是3到5就好,這個是在重新識別可能性這邊是盡可能統整學術界相關的看法。

  • 以衝擊值來看,以資料構面內容及領域都不同,而且在業務上、使用上也需要在業務上使用的人來評估及觀察,因此我們當初跟財政中心做了很多討論,我們希望能夠讓領域內的人去匯集一個共識,來決定這個資料價值高不高,當它出來的時候對大家的衝擊會不會很嚴重,因此才會有衝擊構面的評分表,當這兩樣東西都齊備之後我們要決定在驗證時必須要驗證組織可以接受的風險的base line是多少,我們就用世界上大家已經用OPEN DATA的K值必須是20,在他的衝擊構面評分裡面來算出來組織風險是1.2,這個公式這樣決定之後,去年10月份我去新加坡做一個訪問,新加坡的政府資料開放做得非常好,我在他的簡報之中也有察覺到他們在做個人資料保護時的一些蛛絲馬跡,雖然我問他,他不願意明白跟我講,他其實也引用美國那一份的研究內容,也就是OPEN DATA的K值是20,這個緣由是這樣子。

  • 其實在HIPAA Privacy Rule這一些學者專家裡面認為,其實就跟傳統議題中有攻、有防,我們做的是防守,HIPAA Privacy Rule他們認為所有的資料開放出去應該要建立資料保護團隊應該要做去識別化工具的開放,要一直不斷精進,但他也認為有一個team要負責攻擊,也就是網路上要發展一些新不同的發展趨勢、研究,回過頭來檢視防守這一方做得好不好,這就跟蔡教授所提的,即便驗證過,驗證過的資料,其實每一年還要再看過是不是在當下還是好的,如果還有不足之處,我們下一次再有新類型資料進來時,我們要如何有改善措施,讓我們對資料的保護能夠永遠走在最前面,謝謝大家。

  • 謝謝大家忍受我的手寫白板。(笑)

  • 是先決定了K至少要是20,剛剛得出 1.2是部會按照他們資料的特性去決定,這樣有回答我的問題,謝謝。驗證是三年為期,接下來會有定期重驗的機制。

  • 我想問一下其他三位老師有沒有對其他的討論或point,也就是剛才試做的程序,接下來會有兩個部會,不是用K匿名法,但也是用相同的措施做相同的事情,在他們定案之前,有沒有什麼要提醒他們的?

  • 謝謝財資中心在這麼短的時間內做給大家看。

  • 蔡教授跟王博士也有說明,當我們看到這個公式的時候,一般來講在螢幕上會用負面衝擊乘上機率等於期望值,這基本上沒有什麼問題。我想討論的是剛剛講的重點,我們目前看到的衝擊構面是有幾件事可以想一想的,第一個是可識別性,可識別性其實分成了直接識別、間接識別及不易間接識別,如果直接識別的話不會是5分,而是爆表,是不可以有直接識別的情況。為什麼5萬筆以上的資料會是1分呢?這個事情我不是很理解,資料量對衝擊構面的影響是什麼?

  • 接下來的問題滿有趣的是敏感度的問題,這邊提到敏感度有四種的分數是高的,敏感度是三種的時候是中的,沒有敏感是ok。我不知道「敏感」的定義是不是個資法第6條所講的?比如是不是犯罪前科紀錄資料?或者是是不是個人的病歷資料?如果一到三種與四種並不是3至5分的問題,所以希望可以想一下後面的邏輯是什麼。

  • 還有信譽衝擊是非常重要,其實對機關來講是信譽,這涉及到民眾中心未來對財政中心的信任度有多少,如果是取決於媒體的抱怨,只有地方媒體,少數的媒體我們給他1分,而比較多人抱怨是很多分,這樣很簡單,我們把公關做好一點就可以了,而且這個是事後的,所以信譽損害是事後的,而今天如同蔡老師跟王博士所講的這是前端就在測試了,所以可能很難講今天我們公布這四個欄位或這兩個欄位之後到底是單一的會來抱怨還是多少會來抱怨?這其實是困難的。

  • 但以信譽的角度,這涉及到個人的人格權,我們今天很認真想一想,到底法律人會怎麼看待信譽損害的時候,我們可以說假設一個案子,比如在學校裡面現在常常是把模範生陳○X或王X○,但我們知道一個模範生的資料被洩漏之後或者是被猜出這個模範生是王小明,王小明可能很高興被人猜到是我。

  • 第二個是學號,就算是把中間的幾個碼去掉,甚至是用其他方式分類代化或分群,萬一又被猜到的話,大家不會太在意,因為學號還是可以被猜出來的。

  • 但是接下來其他的事情,本校有五個學生跟輔導老師談過話,有精神嚴重的問題,因此對我來講一定是很嚴重的事,我不相信學校是在保護我的資料,因此信譽的損害,未來這個東西要經過法院檢證的時候,也希望法院未來會如何檢證的角度來思考對人格權造成的衝擊,反向來講其實是雙面的,因為學校曾經洩漏了我找輔導老師的資料,我從此以後再也不會去學校或再也不會去輔導中心,但很可惜我們不可能不繳稅,如果稅非繳不可的話,稅務資料如果一旦洩漏的話,人民對於財政部的信任度高、中或低可以再想一想。

  • 接下來主管懲處的衝擊,法律人認為分數要是低一點的話,一旦這個資料洩漏,科長負責就好了,我們就不會叫處長負責,這個分數從5分降到1分,這個並不是非常客觀的標準。我覺得這個部分可以再想一想。

  • 接下來這個是對個人當事人衝擊的時候,我當然贊同王老師跟蔡老師講的是業務單位要再詳細分析的事,今天這樣一個稅務資料被洩漏的時候,對我們當事人的影響是什麼?只是知道某甲去年繳了比我多的稅或者是會造成什麼樣的損害,因為我的稅被別人知道了,從此之後保險公司知道我沒什麼錢,所以不願意保我,會不會有這樣的問題可以想一想。這其實會找相關業內的人士一起來討論,因為這個簡報比較簡略,沒有提到是不是會如同國外在做隱私資料衝擊影響時會找相關的利益團體、學者專家及當事人來討論,如果未來有更多的資料揭露會更清楚今天的評分為什麼會這樣的評分。

  • 接下來是財務的衝擊,我比較不理解的是對誰的衝擊,法院判一個電話資料是500元,一筆電話洩漏只有500元,我們這裡有兩個可能,主管機關沒有洩漏,洩漏之後是用法院來計算嗎?法院如此低的時候,分數一律都很低,只有1分,還有是用整體財產損失來計算嗎?我們知道有一些金融資料損失之後,在韓國甚至造成全民都要換發身分證的狀況,所以這個財務衝擊是對機關的衝擊、機關未來損賠的風險有多高,對於整體整個社會要面對整個財稅資料洩漏之後要處理的問題,這其實在衡量這個數字的時候,也許可以再告訴我們後面的狀況。

  • 還有一件事,隱私並不是針對個人的問題,個資是個人的問題,這邊一共有四個欄位是跟個人資料相關,就是前面的四個格式,包含是不是直接、間接識別,個人資料、個人檔案欄位、是不是屬於敏感性資料欄位,這個是個資。其實在考慮負面衝擊的時候,就隱私的部分考慮到族群,比如都市跟城市的人有產品,城市裡面特別地區因為在這樣的分類下從此就知道住在台北市大安區的人是什麼樣的狀況,因為分群之後造成對某一個群體的影響或某一個地區的影響,也必須在隱私裡面要稍微做一些評估。因為這個構面非常重要,這個是文獻上1/20的時候,就會得到一個可不可容忍的風險值,所以我會認為這張衝擊構面圖可以再考量。

  • 接下是可識別性一共有三個點,非常好,這個是個人資料去識別化驗證標準規範的說明裡面,非常詳細在第6.2.4/5/6/7/8有一個實作指引,作了很明確的定義。接著評鑑風險有提到一件事,重現性風險、…都要考慮。有一件事非常重要,如同剛剛王博士與蔡老師有再三提到要考慮外部的問題,如果我們用擇一法的話,外部的這一件事是並沒有考慮到的,所以在公式上我們就直接採用20或者是文件上所提到的數字,未來可以給法院接受,因為有學術依據。但完全踢掉的話,我們認為完全沒有辦法接受,因此整個資料做完又要再重做一次,比如這是財政部的資料,但台北市不會用這麼粗的單位,而是用這麼細的單位發的時候,是不是就會被對出來的問題,因此假設資源可用性又要再被檢證一次的時候,適合不適合在這個公式中被踢掉,這個要想一想。

  • 接著是重現性的問題,它的定義是根據資料將時序連結到PII來計算。有一個資料連結到我的資料,這個重現性就會變高。權重是容易被理解,但為什麼最後是乘以鄧巴數/資料集中總個體數,其實我數學不是很好。因為這個資料是每一年要公布的,所以每年公布像公務員就是每一年增加2%,政府每一年幫我們加薪一點點,但是個人並不是這樣的,當他的資料在變動的時候,他其實很容易就對出來了,這一件事只要多花的兩、三年就知道最近某某公司的董事長響應政府提高收入的政策,馬上全部公司加薪多少錢,也許我就好好去對這個地區的資料,我就可以對出來某某人都是某公司的人受惠於政府的宣導政策及公司的配合政策,因此我覺得這一件事是重要的。

  • 但重要性用擇一的方式沒有被考慮的其實是可惜的,是不是可以考慮要點中要求三個都要考慮的時候,我不知道在數學上,因為我個人數學不是很好,法律人數學好的人很多,但我不是那一個。(笑)

  • 因此我們是不是要權重加以計算…如果最後還要再處理一次的話,要不要在這邊處理,這不是很清楚,因此這是各位專家再想一想。

  • 我關心的是像我這種數學不好的人,我想所有去識別化的資料到OPEN DATA,都要面臨社會溝通的問題,如果把去識別化做到最好跟數學都可以證明,最後都要面對社會溝通的問題,我們這時必須要用聽得懂的方法告訴他,以剛剛這一件事來講,我就請我的數學比較好的解釋給我聽,他直接說跟我一樣的資料有22個,如果有每一個資料欄位就放心多了,那就比剛剛各位解釋了很多鄧巴數(笑),其實我很認真,也有去查,所以我是覺得希望各位專家再用一個比較基礎的方式能夠告訴我。

  • 其實我們有做逐字紀錄,所以老師剛剛做的白話解釋,已經記錄到網路上了。

  • 老師有提到相當多的層面,但有一項可以先明確回答,也就是對誰的財務衝擊?

  • 原來我們在設計衝擊構面評分的時候分兩個面向來看,第一個定量、一個是定性,第1到第4是定量,5、6、7、8其實是定性的描述,其實是沒有一定的公式去進行換算,主要是去識別化操作小組的共識,並沒有一定的公式。

  • 額外要解釋的是針對可識別性的部分,並不是指已經處理完的資料,而是指原來的資料當中有無包含直接識別,是有直接的定義。

  • 有關於財務衝擊的部分,指的是對機關內部的財務衝擊,以上簡要說明。

  • 非常感謝,不曉得翁老師有沒有要補充的?

  • 去識別化其實很專業,像大數據的時代,像人類的資料不單是當事人自己的,跟他有接觸的就會自然而然觀察及蒐集他的資料,所以社會大眾其實對某一個或者是集合起來的這些個人資料之利用正當性。

  • 包括在很多領域,醫療、電信等等,所以消費者最關心的不單只是自己的個人資料會不會被人家用,如果被人家用的時候,他的隱私會外洩,但我們看全世界各國的資料可以知道大概的趨勢是一個社會都會想要去做資料採礦,但一個關鍵點是利用者除非在法律上有一定正當的權利或者是契約同一不用去識別化,或者是不相干的第三人想要來利用這個資料,很重要的原則是要去識別化。

  • 不過我們的標檢局很努力幫我們草擬出世界上這一些規範,但對大眾來講還是不懂,像很多國外的○網站就可以看得到,比如這一個網站在從事電子商務的時候,關於消費者電子資料搜集時有無符合當地的隱私標準,比如像美國會有○,或者是像日本就有○,像國內也有發展TPIPAS也是隱私標章。這一個概念到底有無去識別化,像剛剛先進有提到到時候已經不是個資了,所以要能夠利用,可能要滿足在不同的情境底下,對消費者來講比較難,所以我們要導入中介的專業組織來幫各位作把關,像跟國內的TPIPAS來合作,以上是我的淺見。

  • 比較另類的觀點,我提出來這一些所謂的標準流程其實是建築在一個有可能會傾倒的風險,風險是一開始我們有說過一切的標準是法務部的函釋,他們認為個人資料只要經過去識別化就不是個人資料。但是行政函釋我們都知道還是會經過之後司法審判的檢驗,甚至可能會逆轉。從個人資料保護法裡面清楚告訴你的是,個人資料搜集、處理及利用都必須經過書面的同意或者是有其他法律的但書及利用的條件來使用,我今天問各位一個問題去識別化處理是不是個人資料處理?在去識別化資料之前需不需要得到他的同意或引據法律但書?

  • 我非常認同蔡教授所講的,操作性滿高的標準,另外要用這個標準流程去處理個人資料去識別化要進入所謂的OPEN DATA,它的操作成本、行政成本等是否很高?我並不是說這個標準完全不可行,我的觀點是要引用這個標準去進行個人資料的處理最好還是要用個人資料保護法第16條公務單位基於公務需求才去做這樣的處理,另外其實是輔助我們在觀察國際情勢上看到的,很多公務機關或非公務機關在搜集資料時,其實在收取資料條款時已經說如何做去識別化處理,在去識別化處理都吸納規則訂出來,大家可以看危機媒體協會去看並不會去搜集,但在搜集的過程中一定會有相關的紀錄被紀錄下來。

  • 但這一些資料會進行某些標準去進行去識別化處理,他們認為是去識別化的資料會轉成OPEN DATA的使用,我們認為這樣比較符合方式,因為公務單位在搜集時如果用吸納的條款,並不是一定要經過這麼嚴正的規則,就可以依照比較簡單的方式來處理。

  • 至於非常嚴謹,我認為已經非常嚴謹,它的成本應該是非常高,其實光擬訂成本已經有時間成本,更需要成本,我覺得它還是必須在一個特殊的狀況下才去運作。

  • 另外再補充,比如美國的地理資訊局他們其實大部分的地理圖資都是跟民間的○公司取得,民間機關去吸納,先訂定同意書,被吸納的民眾說資料是會作去識別化處理,最後再把這樣的資料提供給公部門,我認為這是相輔相成的模式,不是每一件事都要經過這麼繁複的標準,補充一點淺見。

  • 因為法務部今天也有在這邊,我之前看函釋並沒有定義「去識別化處理」本身這一件事的性質,只是說做完之後就不是個資,所以這應該是未定義的狀況。我不知道法務部有沒有想要補充的?

  • 103年11月17日,這部分基礎的解釋過程裡面,當然是有參考了歐盟他們的做法,歐盟1995年個人資料保護指令在一開始的時候很清楚定義到有關於個人資料定義是直接、間接識別格式,在立法理由的說明內再去強調一個反向的,若是該資料無從直接或間接識別該個人資料狀態的話,當然就非我們個資法所定義的個人資料。

  • 剛剛也有提到符合把一些資料本身直接、間接識別的狀態去做一個處理,打成無從直接、間接識別該當的過程,這個處理是不是還要再得到當事人的同意等等,其實歐盟有經過一個所謂法律的解釋,WP 216的解釋去處理到這個問題時,他們是把它放在處理的概念裡面,若是針對於個人資料在進行處理的這個過程,你用的這個措施是讓它不要去識別出該個人方式的話,這也不會造成對當事人權益造成損害,因此歐盟現有的法令認為這個是許可的,因此我們參考歐盟的見解,而且剛好在103年11月17日當時日本也正在進行整個在修法提議的過程,剛剛標檢局的簡報裡面也有提到日本的修法,日本的修法在去年已經完成,他們預計會在明年度開始會實施,約一年半的時間。

  • 他們的法律是在討論有關於匿名化的措施,他們還沒有制定法律之前,在日本的國內討論這個問題,他們也是認為若用加工的方式,也就跟歐盟討論的情況,「加工」就是我們剛剛所討論的處理。以加工的方式讓資料去識別出該當事人是誰的狀況,它也會變成一個非個資的狀態,因此我們當時是先根據整個勾稽的走向先提出一個資本的說明,但是真正的重點還是在於應用去識別化的技術去達成無從直接、間接識別該當事人,這是一個很抽象的描述,具體要如何做,我們終於從抽象走到具體,我們可以讓各位看到這個過程如何進行,雖然這個過程或許大家有很多不同的意見來參與,但我覺得踏出第一步是最重要的,以上。

  • 因為剛剛有說網路上500位朋友可以留言,我想法務部既然在,線上的問題我們先問一下。他說如果機關將來通過驗證並拿到標章的時候,如果像健保案時,這個意義是不是可以拿來當免責事由,或者是由當事人承擔舉證責任,而非機關承擔舉證責任?

  • 拿到隱私權的認證標章就可以拿來當作表彰,我覺得這一步太快,取得這樣的標準或驗證,真實的意義不在於現在立刻就可以說,絕對不可以被處罰,當然意義不在這邊,最重要的意義是蔡政委有提到很重要的觀點,這其實是自律管理的模式,在還沒有面臨法律訴訟之前,我願意用一個比較嚴謹的方式來做,這個過程、方式可以公開、透明向大家說明,如果未來在法院有個案依據的話,我覺得因為這個有比較清楚檢視的依據進行,先不論是後面認定的結果為何,我們當然是期盼給外界達到一個這樣驗證的流程至少可以證明做這一件事並不是故意要去違反法律等等的思考模式,其他進一階段因有驗證過程,所以輕而易舉卸除所有的舉證責任,我認為這個還是回到法院,舉證責任在第一階段會先由被告(機關)說明你的東西去識別化的程度如何,就像今天所說的事實該如何做,若經過一個階段這樣的舉證明確之後,就看法官怎麼樣去做採信。

  • 所以是增強,並不是絕對。

  • 同樣因為時間的關係,我想邀請剛才沒有發言過的社群及其他機關的參與者,如果有問題就請直接舉手。

  • 我是資策會的大數據所,我不是法律的專家,我是技術人員。從技術的角度,我覺得制定的標準是很合理的第一步,也就是制定了人家可以依循要怎麼做才可以達到大家可以認可的去識別化,如果K值訂很高的話,其實猜到的機會是相對很低,受的損害是不高。

  • 剛剛也有人提到成本是不是很高?從技術的角度,假設你已經要把哪一些欄位定義成間接可以識別,可以開發成一組資料來做匿名其實不是相對那麼難,如果大家可以同意技術的話,可以從科技的角度來說,開發出這樣的tool可以能夠應用到各種不同的資料,其實相對來講並不是那麼難。

  • 技術上,確實從0到1是最貴的,從1到2比較容易。但當然也有人力定期驗證的成本。

  • 各位大家好,我是彭彥翰。我想講衝擊構面評分的部分。一個資料可識別性如果達到直接識別的傷害,跟全國人民的傷害在我們眼裡是一樣的,這在上面是很不合理的一件事,很多東西都5分,事實上相較起來並不是同等級的傷害,所以在這個很根本的評分上就已經有很可以質疑的地方,所以從這個模型就讓我們覺得需要修正,考慮的事情有一點太多,又必須把每一個東西都訂在範圍裡,可能比較不準確。

  • 再來,我很在意的是這一份超辛苦的報告,但結論卻是告訴我們建議持續引入新的技術以滿足不同的需求。所以我在想說在小組的研究當中到底有沒有比你們認為K匿名法更好的?或者是其他可能的需求?

  • 第三,因為我們有講到第三方單位來進行評分,我有一個直覺,這真的是直覺,如果有心這個人,我不能明確定義這個人在這一群當中的哪一個,我知道有心要侵犯,如果有意要找到我,他到底可不可以找到?我們能不能用某一種,我只是假設有一個程式,我們可以算出透過所有可以搜尋的資料,經過幾個步驟才可以精準比對出一個人在哪一格,我們是不是可以訂一個數字,比如5萬次以上,我們就說這個資料安全?會不會比這麼複雜的評估還要更直接或準確,如果我們有第三方客觀單位來做這一件事,當然我這只是想法,謝謝。

  • 我想提出質疑的是衝擊構面評分的部分,有一個無影響,我想應該是不太可能吧!或多或少應該都有吧!

  • 另外這一份報告老實講是滿專業的,如果要講給一般大眾聽,甚至是到立法院聽讓立委聽,立委不可能聽得懂這一種東西,要如何讓立委們及一般民眾聽得懂,我想這是非常重要的地方。

  • 各位長官、先進,大家好,我是工程師,我覺得今天聽到這個東西非常親切。大家在講衝擊構面圖,我覺得這個是相當好的一步,因為任何的模型都有一些不完美,這是我從讀博士班得到的很好的結論。

  • 我自己本身的專業是做通訊,所以我玩機率完了很多年,一直玩到偵測與評估,所以今天看這個東西的感覺是你今天要做這一件事要讓大家很不容易猜到,當你手上有一個資料的時候,你已經很不容易猜到,假設我們手上有更多的資料,如果這個資料過了很久,或者是這個東西搭配了其他的資料,我們有沒有辦法更容易猜到他?這是我今天也許想要提出來,這並不一定是今天討論的重點,這也許是之後我們在開會時會再討論到,假設如果我們今天已經知道一件事,如果有一個人已經拿了A部門的資料、再拿B部門資料,可以猜得中,這樣怎麼辦?我們可不可以把這一些資料收回來?經過部會的協調,也許部會用去識別化的方式不一樣,你怎麼樣統一的標準,例如這一些資料送出去之後給誰使用?或者是部會間如何協調?這一些東西去識別化的資料變高的時候,也許價值就變低了,在去識別化不同評估的時候,是不是不同的人拿到不同的資料,我們知道拿到A資料的人,我們知道拿到B資料會更容易猜中,是不是要限制同時拿到的規則?

  • 接下來下一步是不是當我們檢驗這一些資料時,是不是拿到去識別化程度的時候,我自己寫程式,我們知道把一個東西放在一起是不是要做一些close的交叉檢驗,以上淺見。

  • 剛剛提到連結攻擊,我們之前的建議書裡也有討論到,是不是也可以請專業的機構來處理。但今天的主題是去識別化的驗證,所以這確實不在今天的討論範圍內。

  • 還有沒有其他的發言?(無人舉手)

  • 那我想請財資中心回答剛才大家的問題:為什麼一開始使用K匿名法?具體的定期驗證成本有多高?有沒有更加量化或自動化的方式?如何讓這個模式繼續走下去?大概是這些問題。

  • 我這邊簡要說明一下,第一個是針對我們為什麼選用K匿名法的原因。主要是我們看了雖然沒有說一定要用K匿名法,而是說可以用K匿名法,所以我們直接評估用K匿名法的方式來做。

  • 當然我們看K匿名法之外,我們也有稍微看一下其他的方法,不過坦白講,這個技術持續發展中,K匿名法是相對比較容易施作的,其他實作的方式,我相信還是要等未來衛福部、內政部用其他的方法是不是有其他可以改善的空間,這是第一個說明的部分。

  • 第二個說明的部分,有很多在座先進有興趣的都是衝擊構面的部分,其實我們一開始在做衝擊構面的時候也很疑惑,因為這個是控制措施裡面沒有明定的,因為財政資訊中心原來就有導入了BS1002○的制度,本來就有PIA的機制在,是一個隱私風險的機制,我們去看了一下大部分去建立隱私風險評鑑的方式不離期望值的概念,有一個機率、有一個損失的衝擊,我去計算出隱私評鑑的結果怎麼樣,不過雖然不管是BS1001或IS2007的機制,坦白說這一些機制當中都沒有被量化,可能我做過PIE之後,我做出來3分或5分哪一些要納入處理?這個是在評鑑制度當中不會被擬訂的。不過大部分導入的驗證機關怎麼做?他們會說我現在的能力還做多少?因為像這樣驗證的標準很重要的概念是持續性的改進,當評估出來的結果比如可以改善三樣,比如今年訂的標準是5分以上就去處理,如果5分處理完再來看,5分以上都解決掉,明年就會把我這個PI評鑑的結果取3分以上訂定改善方法來處理,這個是一般的操作模式。

  • 我們也訂了衝擊構面的評分,本來的想法是類似這樣的概念,隨著技術的嚴禁跟相關的工具開發越來越齊全,機關對於處理個人資料能力一定會進步,我們再來處理衝擊構面評分處理的方式。我們也很期待衛福部、內政部定義他們可以實作的方式,這個未來我們也可以參考來改進,以上。

  • 非常感謝。這真的是第一例,之後會不斷持續有新的資訊進來,vTaiwan這個討論區會一直開放到5月19日,之後就看情況了。

  • 在這中間有任何新的資訊,很歡迎書面寫到我們的討論區上面來。

  • 最後請蔡政委作結論。

  • 今天的討論,我想大家可以看到非常專業,確實各行各業都有參與討論。

  • 我先說行政院推這個部分當然是從Open Data的推動上,我們需要一個機制,剛剛法務部也提了,不是只有臺灣,國外所謂的個資基本上的要件也是去識別化,要識別到某一個個人這才是個資,定義就是這樣的情況。

  • 當然去識別化本身是一個法律的用言,當時要處理的部分是因為我們有一個個人資料保護法,個人資料保護法裡面有一些法律的責任,包含了刑事的責任,去識別化是法律的用言,同時還有非常多的專業技術層面的問題,所以以這樣涉及到法律的處理,我們有幾種方式,一種方式是我們就用抽象名詞各自處理,我們認為各自去處理的結果,從一個規範的角度來講並不是一個最好的規範,因為不確定的規範本身同時也是讓大家無所適從,因為根本不知道如何做,各個部會說用去識別化找到的方式,這樣的成本是更高的,對於整個社會的角度來講,我們也不認為這是一個好的方向,既然你要有一個規範,我們應該要讓這個規範本身有一個可確定性,一個各自表述的規範,對於整個社會的好方式,所以我想先讓大家瞭解說為什麼我們積極推動這一件事,我們希望有一個規範,這個規範是可確定,大家也可以預期到如果沒有這樣一個可確定規範的話,將來到法院去的話,法官也不是這個專業,個案上又要花很多司法資源再去認定這個到底是或不是。

  • 所以,我們如果回來從這樣的角度去思考的話,去識別化本身既然是一個法律的條件跟科技、技術層面的問題,我們是不是應該要來思考在當下,因為科技不斷地進步,這並不是只有在去識別化這一件事,不斷有科技進來,我們必須要不斷跟上科技,我想醫療也一樣,有不斷新的治療方式出現,但我們只能從當下最可能、最合理的方式找到去識別化的方式,如果在那個當下,這個機構、這個個人已經做了這一件事,我們還有沒有必要讓他去坐牢?這是我們要思考的問題,我們還有沒有要讓他負法律的責任?如果接下來要不要用其他的方式來處理一些例外的情況,例如它已經盡到我們已經期待他已經盡到合理義務的話,我覺得從法律的規範來講,我們做這一件事有兩個意義,一個是去識別化本身有涉及到非常多技術層面的問題,各個部會去做這一件事不是最好的政策、策略,並不是讓法官無所適從來認定是否已去識別化,這麼高層面的方式一定要仰賴一個機構此方式是否在當下已經合理盡相當的注意義務所採行的方式,因此,我們才會說有一個第三方,並不是各個機關自己說已經做好了,而是由第三方專業學術來驗證說這以當時的技術來講是合理可行,而且從法律的評估上是我們覺得在法律的責任處理上已經可以被接受的方式,所以我想今天我們就在尋找當下是什麼樣的方式,我們認為如果擁有這一些資料用這樣的方式去處理,已經從我們的價值判斷來講,它已經是可以被接受而不需要用法律的責任來處理,但是用其他的方式,大家可以思考,然而就法律的處理上我們應該要有比較清楚的規範,這是我想跟各位說明一下。

  • K匿名法是其中一個方式,接下來衛福部跟內政部會去嘗試其他的方式,理論上去識別化也不只是只有一種方式,在剛剛討論的方式當中,不同的DATA BASE應該有不同的方式,如果有第三方認證的機構同時一起在認證的過程裡面驗證這樣的方式,我相信對於將來到司法體系裡面再處理的時候,也應該可以有一個比較好的依循,我希望社會在這個事情上有限的資源、費用及成本上一起來處理這個問題,謝謝。

  • 今天謝謝大家,也非常謝謝線上的1,200位朋友,謝謝!