-
部長好,這次想和您請教「數據公益」這個概念。請問「資料」和「數據」有什麼不同,可以請部長說明嗎?
-
「資料」(data)可以區分成「個資」(個人資料,personal data)和「數據」(無關個資的資料,non-personal data)。
-
「數據公益」的基本概念是,個人自願提供資料,經過處理後成為無關個資的資料,也就是「非個資數據」,作為公益使用。
-
個資的運用是當事人自主去運用,叫做「Mydata」,有一個個人化自主運用的數據平台,舉例來說,像良民證以前都要跑去警察局辦,但現在因為警政署接上了「Mydata」,所以就可以直接在線上透過「Mydata」平台、行動自然人憑證等等方式證明你是你,之後警政署就直接把良民證寄到你家之類的這些個人化資料應用,但這個不會是「Open Data」,這個跟「Open Data」一點關係都沒有。
-
因為我們講「開放資料」,有的時候到底在講個資的部分,或者是數據的部分會有一點分不清楚,也有人會誤以為覺得好像要把別人的個資開放來創造價值,當然絕對不會這樣做。
-
我們現在是區分成兩種,也就是個資是個人化資料運用的「Mydata」,跟無涉個資「數據公益」的部分,這兩個都是在「資料」的框架裡面。
-
所以這樣算起來的目的或者是想要促進社會公益的這件事是?
-
不太一樣的是,個人化資料運用主要是讓當事人方便,並不是有公共利益的那種價值,只是說這裡的個資自主運用的主體應該是個人,並不是你在運用的時候,你要捐出任何部分來做公益的使用,那完全是你跟存放你的個資機關、跟要運用那個機關中間的關係而已,所以這個只能說是便民服務,可以這樣子講。
-
但是當我們在說數據公益的時候,很重要的是,我們還不認識別的想要用的人,也可以拿他來做進一步的再利用,不需要回來為這個好比像我們量測了空氣品質,空氣品質公布之後,有些人拿來做警訊,好比你出去跑步前,如果空氣品質不好就會自動通知你等等,但是當初量空氣品質的人並不知道會有這樣的運用,所以跟剛剛講個資的時候,是你跟存個資的機關、運用的機關是三個彼此互相知道的,是不一樣的,這邊是數據釋放出去之後,一定會有下一手的人來處理他,但是那個人你本來不認識,處理完之後再釋出,給人再去運用、利用,那個說不定處理的人也不認識,很像非同步的情況。
-
但是一定是非營利的狀態嗎?
-
對公共有益的狀態。我們現在講的是「高應用價值」,這個高應用價值裡面就有各種不同的運用,但是基本上因為用的是政府的錢,所以當然不太可能純粹是為了某個私人賺錢,所以我們投資讓他賺錢,這個好像不太可能,而是任何人都可以取用,因為任何人都可以取用,所以是有公共的利益。
-
所以即使取用之後,把這個數據衍生作為一個公司的⋯⋯
-
但不能阻止其他人也拿這個去做別的運用。這個跟好比像是我們招標,來了一個廠商,只把數據給他,但是別人都拿不到,這個時候就只有這個廠商執行我的計畫時,他可以創造價值,等於他的競爭者都拿不到,如果是以「Open Data」角度來看的話,您剛剛講的數據去做加值運用等等,舉例來說像發6,000元的ATM經緯度或者是ATM無障礙設施等等,這個是數據,因為無涉個資,我們釋出的時候,Line立刻就拿來做了一個導航、地圖什麼的,但是Line不能阻止其他人做類似的這種地圖,當然Line最後要賣廣告、賺錢,我們瞭解,但是我們還是說這個是公益的運用,主要的原因並不是哪一家可以用。
-
但是Line地圖要收費也是可以的?
-
他不能壟斷。
-
但是他可以收費。
-
他如果要收費的話,一定要加更多的加值服務,因為如果他不加加值服務,任何一個免費版的功能都跟他是一樣的。
-
所以目前部裡有沒有什麼樣的政策,也就是官網上有一些有關於數位部現在治理的運用是什麼,有已經正在走的,我們已經具體看到的政策。
-
對,像我們看到的高應用價值,這個到「data.gov.tw」,就會看到一個新的專區,這個專區就會用氣候環境、災害防救、交通運輸、健康醫療、能源管理、社會救助這六個,這六個顯然都有公益性,每一個再點下去就會有一些細的分類,好比像社會救助裡面,有友善高齡、弱勢平權、社福輔助,這些就是之前我們徵詢各界說哪一些是我們已經放出來的,哪一些是我們還沒有放出來,他們想要看到的數據,把這兩個進行一些討論之後,我們就透過他們主題策展的方式,為了要符合民間的需求,然後特別策展這些資料,讓他的精確度提高,或者讓他本來拿不到的資料,後來拿得到了等等。
-
所以裡面也包含原本在那裡面的⋯⋯
-
對,就是主題策展,這個是一個。另外一個很重要的是,我們每年都會辦總統盃黑客松,很多都是運用數據來解決問題,當他在輔導的過程中需要更多的數據出現時,我們也會幫他找這些數據,像2020年的透明足跡,就是要取得所謂的農地工廠,好比像專案列管,需要後續查處的非低污特登名單查複情形之類的,他的目的就是要做一個某種地圖,讓大家可以知道這個專案列管勘查到底污染有沒有改善,沒有改善的話,是不是要拆遷等等,這個顯然也是有公共利益,但是本來經濟部比較沒有用他們要的那種很明確的,像經緯度等等的方式來釋出這個資料,也就是在總統盃黑客松的過程中協調出來,經濟部也瞭解到這個是數據,並不是個資,他也願意釋出。
-
所以就變成是固定釋出的項目?
-
對,會變成一個類似供給方跟需求方的關係,我們叫做「數據管線」。
-
所以像剛剛講的,經濟部很像就跟第二題在聊的,實質促進改變人力。
-
對,其實透明足跡有很多做法,剛剛講的是其中一個,另外一個他們還有做「掃了再買」,可以讓你在超市掃它的條碼,但是出現並不是它的價格,而是造成的環境影響,也就是用之前裁處的紀錄算出來,所以特別便宜是因為後代子孫之類的,意思這樣子,那也是一種促成改變的方法,所以並不是單個部會的某個數據就可以造成這些改變,通常這些活化影響是找很多的來源,甚至也包含使用者自己貢獻的,像資安院有一個同仁江明宗最近有做一個哪裡缺蛋、哪裡不缺蛋的地圖,這個就不是賣場來登錄,而是你每一次去買的時候,有沒有蛋,你自己在那個地圖上面回報,你就可以即時看到到底哪裡比較買得到等等。
-
數據公益並不一定提供的是政府,也可以是使用者或者民間企業等等,自己捐出這些數據來。
-
所以像剛剛必須先有地圖,然後民眾就有管道可以貢獻他的資料?
-
沒有錯。
-
原本開放資料當中,我們也可以貢獻資料?
-
對,像圖層有一個地址轉成經緯度是什麼,那個數據相關的服務,那個是內政部所提供的。
-
社交距離的APP是透過這個概念?
-
那個是藍牙技術,這個就是我們叫做隱私強化技術,也就是本來很有可能會曝露個資的,但是你透過一些比較先進的演算法,你透過處理之後,讓實際上每個人看到的那個部分,好比像我跟你在某個距離之內,我收得到你的某個訊號,但是我從這個訊號完全沒有辦法反推出來你是誰,他最後能夠做到的是,如果我確診的話,可以想辦法通知到你,但是我也不知道你收到了沒有,也沒有辦法發出這個之後就疫調你,他只是通知訊息來使用。
-
像這樣子是最小程度,幾乎不太可能或者以藍牙來講,那一次幾乎是完全不可能把它變成個資部分,都是停留在數據這裡,但是這個是中間經過相當多的設計,如果沒有設計好的話,還是有可能會有洩漏個資的情況,所以這中間叫做「隱私強化技術」,確實也是數位部非常投入的技術,去確保如果像這邊聯絡得到你的資訊,要怎麼樣透過統計處理等等,變成完全不可能還原到你身分的東西,這邊叫做「數據」,才可以拿出來應用。
-
像您剛剛說隱私跟個資外流的部分,現在比較具體的要怎麼做,我們才可以強化?
-
舉例來說,其實你剛剛講到疫情的過程是很好的例子,因為在有社交距離之前,很多的做法是你在店門口自己寫你的聯絡方式,甚至包含你的姓名。在早期實聯制推出前,還有很多場合要求你寫身分證字號,這個是過度蒐集,是沒有必要的,只是要通知你,為何需要你的身分證字號,這個是毫無疑義,所以指揮中心說不要有這個欄位,是叫做「實聯制」,而不是「實名制」,其實只是需要聯絡得到你的方式。
-
最後再透過隱私強化技術,是可以做到連你的手機號碼都不需要,就還是可以通知得到你,所以是逐步讓個資不需要被蒐集,但是最後數據可以做有公益的運用。
-
但是隱私強化是用寫程式,因為不知道是怎麼強化,是一直不斷驗算嗎?是要怎麼樣實際上做到強化?
-
有相當多的做法,舉例來說,好比如果現在要跑一個統計數據,以前有一種做法是,我要跟那個機關要全部的個資,在我這邊跑完統計,我再把統計發布出來,但是現在也有一種做法是反過來的,我把統計的方式是交給這個機關,由本來的機關幫我跑完之後,只把跑出來的統計結果給我,這樣他的個資就不會在我跑統計這邊的人就不需要看到,但是還是可以跑得出相同的結果,這個是比較容易想像的一個做法,還有很多別的做法。
-
所以我們不斷推的是各種方式,根據那個數據⋯⋯
-
根據它的實際需求,沒有錯。
-
像之前有提到資策會去年有提到數據利他主義,是在解釋這個定義的時候,很像提了一個目前臺灣需要設計一套可以提供資料互信的基礎,我們現在已經有那樣的基礎。
-
就像剛剛講的,如果是本來「Open Data」的部分,因為「Open Data」絕大部分是跟個資沒有關係的,那個其實就已經是由公部門提供數據來發揮公益,包含高應用價值等等,那個是有評估的機制,當然資策會提到比較是民間,尤其是一些大的業者為何要捐這個東西,這個是比較沒有一個機制的,尤其是對很多業者來講,這個是可以賣錢的。好比:像對電信業者來講,在某一個時段、某一個地方到底有多少人,這個叫做「信令資料」,對他們來講,這個是一個生意,也就是他可以是一個最小統計區,所以在這個區裡面有多少人不會侵犯到任何人的個資,但光是在這個區裡面有多少人的資料,就已經很好賣了。
-
但是,好比像在疫情期間有一些公益的用法,像某一個觀光區太擠了,所以就事前通知你說你去那邊的話無法保持社交距離等等,當時因為防疫是重大的公益,所以當時指揮中心希望電信公司都配合,把他們本來可以賣的這些信令資料捐出來,變成可以在1968 APP直接看到社交距離是不是能保持的這種熱點情況。
-
當然也有很多研究人員會覺得有某一區的信令資料,他用來研究好比像人口的變遷之類的,也是相當好的一些公益用法等等,現在也有在協調這些電信商如果覺得過了一陣子,可能已經不是即時性的,他也不太容易賣得出去到某個程度、符合這個條件,也許可以考慮捐出來,也是透過「Open Data」的方式,讓大家可以看到至少一個概略的輪廓等等,像這些都不是政府釋出,而是民間願意釋出的這些做法。
-
當然對電信商來講有很多數據,也不是只有信令資料,到底哪一些公益性質才大,其實他們也很需要民間來集思廣益,所以我們產業署最近有辦一個「公益創新,徵案100」的活動,已經成功徵集了100個可能用得到通訊或者是傳播相關數據的想法,我們也在積極媒合這些想法跟電信商,找出電信商可以提供一些東西,這些新創或者是社群、非營利組織可以提供這些數據的一些用法。不過這個我瞭解很抽象,所以我講實際的例子好了。
-
我們最近會有一次公開的討論是,國家公園裡面如果有人去爬山,可能突然間心肌梗塞之類的,如果是在一般的建築物裡,就會找AED,也就是找心肺復甦的裝置,當然在國家公園裡是不可能步道上碰巧有AED這種事,但事實上是存在一些做法,好比像手機的最後連線資料,你可以換算成不一定很準,而是概略的GPS為止,然後就從國家公園管理處或者是附近支援的地方飛無人機載AED到的那個位置,然後投放下去,他就可以用了,但是這個就很需要很多數據提供者的配合,這樣子電信商是不是願意一起來用,或者是這樣用起來到底公益多少等等,這並不是任何一個人說了算,而是大家要在一起討論,我們很快也會辦工作坊來做這樣具體的討論。
-
所以是5月6日要在宜蘭辦的高峰會嗎?
-
不是,這個是4月29日會在IEAT會議中心來進行這個案子的討論,你如果到「Join」平台上,按「眾開講」跟政策討論的話,會看到我們正在討論兩個,一個是我剛剛講無人機投送AED,另外一個是電信業者願意貢獻的,也就是利用機器人協助視障跟高齡者來進行室內導引,室內導引就是讓他不會絆倒,這個也需要很多通訊技術,像雷達做定位之類的,這些同樣也需要剛剛講到數據公益的建置,但是如果沒有具體的視障者或者是高齡者參與的話,其實我們很難預先知道投入多少會造成多少公益,所以需要大家一起討論。
-
所以數位部會媒合企業?因為政府提供資料,大家會覺得是理所當然的事,但是要企業願意放下利益、以公共利益為上,其實是違背人性的,是要如何鼓勵他們,是用獎勵辦法,如何實質上可以讓他們做到?
-
這個是非常好的問題,當然不完全是違背人性,因為有些業者,像做空氣盒子的,本來就是賣元件的,並不是蒐集出來,然後轉賣那些資料,而是希望越多人裝這些元件越好,因為就是賣這個硬體的,所以如果像這一類的,或者是像在教學的場域,本來就是賣教材、教具的,他也不是想要全部收起來賣數據,也是希望越多的國中小、補習班用越多越好。所以我不覺得所有的業者都會反對數據公益,相反的,想要壟斷數據的業者是少數,當然想要壟斷數據的業者,很可能是想要做精準行銷、投放等等的這些用法,你剛剛的問題是如何鼓勵跟說服他們。
-
當然像剛剛的信令資料,剛蒐集到的經濟價值最高,但是隨著時間過去,就越來越不會有人買這種非即時性的資料,這個時候把這個捐出來來做公益,無形之中也有一種品牌變好的感覺,也讓運用這個資料的人,可以先熟悉資料格式,這個時候就會養成一個所謂的資料生態,在這個生態裡面,它的下游,雖然目前用的是開放的數據,但是之後當這些人已經熟悉這些格式之後,如果哪一天接到什麼案子說就是要分析當下信令的數據,自然就會跟這一家電信公司,並不是別的電信公司買數據,所以等於是試吃包的觀念,這是其中一種做法。
-
像大部分的業者都想要提供數據,但是他們其實不知道大家缺什麼,所以你們的角色是居中去媒合他們?
-
對,而且我們是透過像群眾募資等等的方式,透過多元的募資管道,讓這些數據的提供者發現真的這個公益價值高到大家願意捐錢讓這個運用發生,這個時候就會知道如果他提供這個數據的話,一方面如果未來真的好比像要投資一定的經費,這些群眾募資或者是社會影響力投資者是願意出錢幫他建置後面的東西,另外一方面是這樣子釋出之後並不是單方面釋出就開個記者會,而是會持續對大家生活造成很好的影響,這個時候大家就會感謝他,所以他的公益價值可以換算成某種品牌價值。
-
部長你剛剛說的群眾募資是?
-
其實像透明足跡個別都有在群眾募資平台,目前可能flyingV、嘖嘖、挖貝是比較大的,所以這一次的徵案100,我們也會去挑裡面看起來有可能大家會願意出錢贊助的部分,不是我們自己架平台,而是同樣去媒合剛剛這三個群眾募資平台跟這邊100案裡面願意進入群眾募資的部分來進行媒合。
-
上面募資的活躍度,我們會用一種平方募資的計算方式,募資程度最好的,我們就會給獎金,最好會到500萬的獎金,所以一方面也是鼓勵這一些創新的團隊,不管是無人機投AED或者是室內導引,可以取得永續經營所需要的資金。
-
這個有計畫什麼時候放到目前的階段嗎?
-
我們剛剛才公告候選團隊100案,所以上群眾募資應該是今年年底,大概是11月30日左右的事情,但是那個是募資的結算期,開始募資是8月,所以就是8月會有可能50案左右,這個可能要看實際媒合跟評選的狀況,從8月到11月是讓群眾來募資,我們11月底會結算平方募資的狀態,到明年1月的時候會公告20案,公告這20案是因為這個社會真的不錯,願意出錢、出力、出數據來讓他成功。
-
留到20案算是滿多的?
-
對,希望各個領域有一些標竿的案例,如果最後辦得好的話,也許每一年辦。
-
這個是第一次?
-
對,這個是第一次。
-
像你剛剛講建置平台,像官網上的T-Road嗎?
-
T-Road比較不是數據的交換,很多是個資,當然也包含一些別的資料,T-Road是機關跟機關,尤其是持有全國性個資的機關中間交換的平台,所以跟剛剛講的開放數據在外面是完全不一樣,事實上T-Road的特色是不會跟對外提供服務的網路重疊,它完全是機關之間的內網,這個內網跟別的內網都是分開的,所以確保經過這個交換的時候,並不會外流。
-
這個其實也達成要所謂數據公益?
-
不相干的,但是T-Road要達成數據公益,有一種想法是可以透過T-Road安全的資訊交換,去把個資交換到一個透過隱私強化處理成數據這樣的隱私強化技術的提供者,這個提供者會收到很多個資,這個時候要透過T-Road交換,並不是別的不安全方式交換,這個就很重要,但是這個還沒有布署,因此T-Road還沒有貢獻到數據公益來,但是未來並不是不能想像這個情況。
-
因為我覺得以一般民眾會想的是,我們不太理解數據的應用,大家只會覺得它的個資要外洩。
-
但是數據就不是個資,資料分成數據跟個資,所以數據不管怎麼應用,個資都不會外洩,因為數據的定義並不是個資。
-
但是覺得這個很像大眾並不是非常理解它。
-
對,需要新聞工作者幫忙。在歐盟有一個NPD(non-personal data),NPD現在中文翻成「數據」,PD(personal data)現在叫做「個資」,這兩個都是資料。
-
像去年歐盟有提這個概念,因為那個時候聽到數據公益的時候,我們那個時候剛好在聯絡社創中心,他們說這個會是接下來大家很熱門的議題,所以現在國際社會都是在關注或者是努力這個部分嗎?
-
對,其實歐盟各成員國中間,個資是不能隨意流通的,但是各成員國間,只要是數據,就可以隨意流通,所以數據的流通性是比個資強非常多,但是在以前是因為這兩個常常混在一起,因為都叫「資料」,所以裡面只要有一點個資就沒有本身流通,現在的趨勢是透過隱私強化技術,讓它徹底跟個資無關,剩下來數據的部分,你愛放哪裡就放哪裡,這個是一個趨勢。
-
我們跟其他國家間的數據其實都是開放的?
-
我們的「Open Data」,當然跨國也可以使用,他們的開放數據,我們也可以使用,當然是這樣子。
-
這些國家目前的發展方向,有我們可以參考的嗎?或者是之前愛沙尼亞數位治理,我們是可以朝他們這個方向走?
-
愛沙尼亞的特色是,他不是完全自己維護這些底層「數位公共建設」,他們是跟好比像芬蘭或者是冰島組成聯盟,大家是透過Public code組成彼此看得到彼此程式碼的方式,所以我發現問題了,我修正之後,等於幫助其他人修正,很像共用火車軌道的感覺。
-
我們之前在數位部成立前,個別有些地方政府或者是機關做這種Public code的事情,但是並不是政策,但是我們成立之後,我們部自己的,包含官網等等,其實如果看官網,可以發現跟英國的GDS,也就是英國數位服務的官網非常像,因為透過Public code的方式,他們把設計制度,也就是網站怎麼樣公開出來,我們是直接套用,他們也不會告我們侵權,因為他已經拋棄掉著作財產權。
-
當我們這樣用之後,開始出現國內別的機關,或者是自己兩個署或者是資安院,也覺得不用自己開發整套前端系統,直接用數位部的就好了,這樣子以後如果修正有什麼問題,像加了新的無障礙支援,像下游這一些都可以自動取得這一些好處,不需要分別再去找廠商再招標怎麼樣,每個機關還是會有自己的廠商,那個廠商就是跟別的廠商同樣維護這個公共近來的部分,所以這個概念就是公共程式比較新的,我們就是受到愛沙尼亞國家啟發的概念。
-
除了這個之外,還有其他國家有參考的嗎?
-
其實非常多,我們很持續在跟其他國家互動、討論,像最近大家知道法國用國家研究的預算,用他們的超級電腦訓練出所有語言模型「Bloom」,國科會就是運用「Bloom」的模型,打算加上臺灣本地的資料去做到臺灣的引擎。
-
數位部在這個裡面,我們負責的是AI的驗測,也就是驗證跟測試,確保他不會亂講、亂翻,翻譯的時候是真的可以照顧到我們這邊用中文的方法,而不是別的地方用中文的方法,或者別的國家語言,像台語等等。
-
我們在開發這些驗測工具的時候,我們就會去參考包含像美國NIST有一個AI的風險評估架構或者是剛剛講到的法國這邊,他們最近才有議員來,他們議員本身就是學這個的,所以我們就聊了很多,交岔AI驗測的部分,因為我們都不是只用英語就好的地方,所以特別是在翻譯準確度上,可以融入當地的社會期待上,其實我們有很類似的想法,因此就花了不少的時間討論。
-
我覺得這個是滿好的題目,語言模型如何符合到當地對於語言運用的期待,這個是當地人說了算的,而不是語言模型那個公司說了算的。
-
我剛剛講的是,我們去參考別人的,如果我們要作為一個可以像對其他國家廣告或者是宣傳,他們也可以來說「我們這樣做不錯,你們要不要參考看看」,或者是可以提供給他們作為的例子?
-
就像你剛剛講到的,我們所做的這些其實Public code,其實別的國家如果要用的話早就用了,像在疫情期間,我剛剛講的那一位同仁江明宗所做的很多地圖,其他國家看到就用了,其實不需要取得授權或者是同意,所以本來我們這邊做得好的,其他國家看到之後,本來就會直接來使用,因為我們拋棄掉著作權。
-
目前大家感興趣的,有一個部分是,我們的網站怎麼樣透過分散式的儲存,確保即使我們的機房都受到攻擊、受到資安的分散式阻斷攻擊,還是沒有辦法讓我們的網站下架,就是因為我們用了IPFS的Web 3技術,這個技術在全世界都有志願者,所以同時是我們的官網可以讓全世界20萬臺電腦,只要他願意就可以幫我們存備份,就算沒有存備份也可以幫我們緩解攻擊的頻寬,等於有捐出頻寬跟捐出硬碟,所以剛剛講數據公益是捐數據來當公益,這邊講的是捐頻寬、硬碟來做公益,他的公益是什麼?就是確保我們的網站不會被打掉,像這樣子的想法,在國際上公開之後,就很多人有興趣,甚至包含IPFS的作者,也覺得臺灣這樣的範例是很好的範例,他們會到處幫我們宣揚。
-
像剛剛所說如果數據公益接下來,基本上就是未來的一個趨勢。
-
因為沒有人會想要公開數據之後發現有個資,這樣就很不妙。
-
所以我們可以用哪一些方式?本來想說有哪一些方式是可以跟國際交流,但是這樣子聽起來,很像我們只要在上面的,大家想要⋯⋯
-
那些數據本身想要就可以去運用,但是我們可以交流如何產出這些數據的方式,就是剛剛講Public code的方式,我們一方面輔導各個部會導入這些隱私強化技術,但是二方面我們也會把這些合規、驗證的這些技術指引,我們會把它公開,所以其他的國家,如果自己暫時當地沒有用過這一些隱私強化技術的話,他可以參考我們的技術指引,在他們當地建立有這樣能量的團隊。
-
我剛剛講到其實是最直觀的,也就是把程式碼統計程式放到資料這邊算,而不是把資料放到程式這邊算,但是也有很多的做法,好比像兩邊各跑一個AI模型,這兩個模型中間只交換他們算出來的結果,但是不交換Raw Data,這個是分散式學習,這個也是一種做法。
-
或者是我有很多個資、你有很多算力,但是我不是很相信你不會洩漏我給你的個資,但是我自己沒有這麼多的算力來計算,所以現在有另外一種做法叫做「同態加密」,也就是我把我的個資加密交給你,你是在加密的情況之下對他運算,你完全不知道你在算什麼,但是你運算完之後結果給我,我一解密就是運算的結果,這個叫做「同態加密」。
-
另外一個做法是,我這邊有很多個資,你是要跑統計,但是你的統計演算法不想交給我,所以你就告訴我說你大概需要好比像某個行政區哪一些人哪一些欄位的資料,我合成出每一個都是模擬市民,但是每一個人都不是真人的那些資料,這個叫做合成資料,而且數學上可以證明你拿這個絕對不可能反推出任何個人的資料,但是你去跑統計的結果,會跟你跑在正式的資料一樣,這個就叫做合成資料;所以剛剛講到非常多種做法,每一個都有適合跟不適合的情境,這個技術指引也是我們可以跟國際互相教學相長、交流的東西。
-
所以這個技術指引要去哪裡找?或者是你們的官網?
-
有一個叫做「多元創新司」,之後會發布這樣的指引,等到發布了應該是會有新聞稿。
-
就是有一個地方可以看?
-
-
對於數據公益未來願景或者是希望達成什麼樣的未來,有一點抽象?
-
可能分兩個部分講:第一,我們會希望政府手上有的這一些數據可以讓機關更放心讓民間來運用,這個是全世界都在往這個方向走,舉例來說,像剛剛講的發6,000元提款機在哪裡,如果政府自己來開發APP,首先就不太可能比LINE開放得容易用,而且也很容易被大家覺得像許願池一樣,為什麼沒有這個語言的版本、為何品牌的手機開不了之類的,我們如果是遞送這個服務,我們不可能做到面面俱到,但是如果遞送服務的同時說「這個服務只是拋磚引玉,你如果覺得這個服務不夠好,數據在這裡,你拿著數據做更適合的服務。」這樣子我們就不需要在更開始的時候就照顧到所有的需求,我們照顧到一部分的需求,照顧的方式也是公開的,如果可以照顧更多的需求,拿去用就好了。
-
為何在之前覺得政府自己出錢做APP,有的時候大家會覺得讓民間的競爭力削弱了,很重要的原因是之前民間開發的APP時,後面的數據並不是在那個APP上架或者上網的同時就同時用開放的API,或者是開放數據公開,所以就會有剛剛講到的很像壟斷的情況,很像如果不是得標的那一家廠商,你根本拿不到這些數據,這個時候等於就對公益是沒有好處的,可能只對那家廠商的EPS有好處而已,所以我們第一個願景是,為何叫做「多元創新司」,也就是任何人都可以拿這個來進行創新,而不是只有得標的那一家廠商可以拿這個來進行創新,這個第一個願景。
-
第二個願景,我們會希望個資跟數據是分得非常開,所以不會很像大家覺得像你剛剛講的會有一些疑慮,這麼多的「Open Data」,難道沒有混著個資?你去找是沒有的,但是總是覺得可能有的感覺,未來個資部分會有獨立機關的個資會進行管控,為何現在強調數據公益,就是不管這個個資會如何定義個資,在定義外面的部分我們來盡可能運用,但是我們絕對不會去凹也把某些個資這樣用,絕對是不會的,這兩個分得很快,活化運用的部分就讓大家安心,而不是讓大家覺得很有價值,而有一點不安心的根據;所以第一個確保多元都可以創新,第二個是個資跟數據的區分是讓大家都可以很安心。
-
本來覺得這個是一個很像有點美好的名詞,本來覺得有點模糊,我就是會把數據跟個資混在一起的人,但是聽您講完之後就知道其實是這樣子,我們當時在討論這個題目的時候,大家都會有不斷個資怎麼辦的問題。
-
對,其實本來「數據」在中文裡面,本來就有「統計數據」「數據分析」的用法,本來就不會跟個資混在一起,如果叫統計數據就不是個資。但之後是因為巨量資料的時候,因為有別的地方翻成「大数据」,然後就全部混在一起了。所以為何當年我們都用「巨量資料」,因為「巨量資料」裡面可能是有個資的,所以是「資料」。
-
但是在當年某個地方翻成「大数据」以前,其實「統計數據」在我們這邊的意思就已經是排除個資了,但是大家有一點混在一起了,這個沒有辦法,不是我們能控制的管轄領域,所以「數據公益」指的就是歐盟所謂的「non-personal data」,透過隱私強化技術,最後出來的是數據。
-
所以這個也是數位部要做的?
-
對,我們的施政方針裡面,甚至在成立前很公開講說去把這個數據公益的制度完備,其實本來都有在做,只是那個概念有點混淆,所以我們要完備的並不是從頭做什麼,而是把本來在做的「Mydata」個資部分、「Open Data」數據的部分越開越好,這個才是最重要的。
-
好像差不多了,謝謝。
-
謝謝。