接著,我們每年要舉辦研討會,也希望有更多的案例,能夠在這個研討會上有更多的交流,讓資料的價值可以提升並擴散更多的運用,以上科技部報告,謝謝。
接著是計算資源的部分,因為有了學界的能量、數據,可以轉換成更有用,以提升相關的運用。
接著,我們主動蒐集清理、做識別化的資料,對於提高品質有用,希望能夠讓使用者可以更精準找到資料。
再來,這些承諾事項的三大部分,未來我們會有一些精進做法,在資料集平台的部分,我們會朝向增加更多資料集的多樣性,希望這個平台的可用性更高。
接著,資料往往是有domain know-how,所以建議要有相關的解釋資料讓民眾運用。再來,資料很多,建議可以先從跟生活密切有關的來發展,如果有好的案例,就可以形成更多、更棒的案例,讓我們的生活有更多正向的循環。
這個研討會我們蒐集到與會者的意見,大概分成兩個部分:與會者都希望同時用政策,讓民間共同來參與,像公部門的資料占九成,但其實民間也有非常多的資料很有價值,如何透過政策來引導,促進橫向的連結,像資料跟資料間的串接,必定會帶來更多資料的價值。
我們今年在7月的時候,開了一次線上使用者研討會,一開始我們本來很希望可以用實體的方式,但後來因為疫情的關係,採用了線上,來參加的對象包含了官方,像消防署等等的使用單位,產/學研/民間都有參加,非常感謝唐政委協助參加我們這個活動,做了很多的分享跟交流。
再來精準度的部分,我來之前,特別跟我們的研究團隊洽詢,也就是在107年的時候,全臺灣PM 2.5預測值的誤差值,在兩年之後,也就是在109年的時候其實下降到107年的1/4,預測的誤差下降到1/4,其實成效是非常顯著的。
計算資源究竟可以做什麼?我們這邊用一個簡單的案例跟大家來分享,所運用到的資料是環保署在國家的空品測站、智慧城鄉、空品感測器所蒐集到每天即時的資訊,同時用到的是我們國網中心的計算資源,以及最重要的是,我們學界長期累積起來的一些預報能量,這三個元素加起來之後,我們有機會做到72小時空氣品質的預報模式,甚至有一些空污溯源的模式,很多查報的機關也需要這樣的資訊,也就是當今天的計算資源或者是資料量不足的時候,其實都是做不到的。
接著是我們提供的計算資源今年開始的使用情形,有超過1,000個運算主機的使用,像GPU的上半年平均使用量有超過1,800片。
這頁要重現的是地球環境相關資料目前運用的情形,在338個資料集當中,我們公部門提供的資料有9成,私部門占了1成,近一年的瀏覽次數,公部門的資料集是43%,私部門是57%。
資料集平台這一年的概況,資料集目前已經包含了環境、語音、資安、AI訓練用的影像等等開放資料,除了這些開放資料以外,我們也由國網中心,運用他的專業、資訊的能量來做這些資料的清理、標註的工作,讓使用者所需要的開放資料,能夠更快速地來做運用,所以使用的狀況,我們今年有300人次以上的造訪,也有將近100TB的資料被下載,所以跟前一年相較其實成長了滿多的。
再來,這個資料集的平台,其實持續透過問卷調查、蒐集意見,一方面藉由使用者需求回饋給我們優化平台的設計,因為這些使用者的回饋,我們在資料集的使用平台上,我們也增加了一些熱門、最新資料集、標籤等等的服務,也有一些推薦的工具,也有釋出一些工具,提供批次下載資料集的一些功能,這都是一方面跟使用者間互動所瞭解到、所做的一些優化。
像剛剛提到國網中心的主機,其實也是臺灣三個非常重要的資訊的廠商跟國網中心來建造的,充分運用到民間的技術,和他們管理上的一些能量。
再來,我們在規劃使用者研討會的時候,我們同時安排了公私部門使用者來分享他們在資料上的運用的經驗、成果,在邀請參加的名單上,我們也邀請了推動小組的民間委員和民間的社群、業界及資料的使用者,大家一起來參與。
在執行這個承諾事項的過程中,我們也充分運用公私協力的精神來做這樣的推動,首先政府資料集裡面,雖然絕大部分是公務部門所提供的一些資料,但是也主動洽詢跟資料集平台有關的私部門來提供一些資料集,希望可以讓這個資料集的運用可以更為廣布。
再來,我們每年邀集公民團體召開資料使用的研討會,希望藉由更多的討論、案例的分享,可以促成更多的這些成果的運用跟進一步擴散。
第二個部分,除了提供資料集以外,我們也提供國網中心的計算資源,因為很多的資料透過運算,其實會有更多更好的運用,所以這個部分是我們認為國網中心可以這樣做,因為是國內科研運用上最主要的運算平台。
這個承諾事項包含三個部分,第一個部分是承諾在國網中心建立資料集的平台,這個data會在聚焦水、空、地、災,我們提到水資源、空氣品質、地震、災防等等,還有跟地球環境有關與民生有關係的資料集之服務上。
主席、各位委員、與會代表,大家好,現在由科技部報告第二案開放資料集平台提供加值運用事項及目前推動的進度。