對啊!
但如果一開始不建立結構化系統的話,大家都會選那個「沒辦法」,然後把PDF附件上去,所以在這邊整理出來至少好比訂了九個欄位,行政規則、法規解釋,這九個裡面如果有三個,至少這三個用結構化方法提供;如果這六個不適用,那也沒有辦法,也就是PDF附件,我們是用這個策略來進行。
我們會先從這一種半結構化文字開始,目的就是先建立起跟它相對應的API,然後我們接下來再說那一些比較不結構化的部分,裡面的這一些結構有的,我們就比照辦理。結構沒有的部分,就是加一個欄位叫做「任意文字」,那就隨便本來填什麼就填什麼進去,甚至用PDF附件,我也沒有辦法。
我想要說的是,我們之所以挑公報網的原因,是因為要整理一個API是相對容易的,因為格式相對齊一,如果是函釋跟行政規則的話,除了一定有送達目的機關、日期幾號、發文字號外,所有其他的欄位都是任意文字。這跟法規命令不一樣,法規命令還有一個格式,但如果是函釋的話,那個格式是任意的。
我們還是回來看,法規命令草案當即日起生效的時候,剛剛已經講了因為「眾開講」的關係,這將會變成Open Data。函釋不在裡面,而且地方政府的行政規則也不會在裡面,這邊包含了也許40%、50%左右的量,但是確實有一大塊黑的地方,確實也是真的。
對,兩、三個版本。
不一定是同一家廠商,地方政府的行政規則就是另一套。
開放資料只要確定有了,那就不能收回,後續任何對顆粒度的要求就是循正常程序討論。
好像是多選一?我不記得了,好像是有一個欄位。
沒錯。
同一個想法,也就是最小阻力路徑的想法:如果司法院資訊處的格式比較友善,就從那裡下手,如果比較不友善,再回來法務部。
但當時是給特定人,以特定目的為利用。這個東西要轉成甲類資料的時候,我們還是要按照正當程序來處理。
我知道。
我想就判決確定是公開資料,這我們可以專門來檢討。
正在上訴的先不去管它,就是判決確定?
是判決後。
是的。
如果這個紙本,好比能跟光碟同時遞送,這邊的結構化資料在上一層才能進行匯集分析,這時能把紙本跟光碟等同的函釋,必須是要準備光碟的人是具有特定的身份、公務及專職做這一件事等等,目前法務部還是要先做出這個解釋。如果沒有這個解釋的話,即使中間結構化建立再好,在最上面判決看起來的時候,仍然是A4掃描的結果,這是實際情況跟大家分享。
但這個稿子是建立在聽錄音打字的人屬於公務人員,本於職權、符合所有相關法令,而且有認證的人來做這一件事,這樣它的產出,才會說跟本來的紀錄具有相同效力。
這件事我也有跟司法院的資訊處進行討論、協調。聽起來,他們需要法務部進行一個函釋,好比我舉一個例子:在進行訊問的時候,其實取證的時候是用錄音,可是上法院的時候很少聽錄音,大部分是看稿子,也不一定看全部的逐字稿,而是看某一段的稿子,這時就需要一個函釋說「這段稿子的有效性,相當於那一個錄音的有效性,除非有人提出質疑。」
所以,可能在來源是有結構化的,但是經過兩、三層出去之後,在司法體系裡面就變成圖片的資料,必要時還要用OCR。
在中間除了克漏字的這個情況之外,好比像我在第一個階段有結構化資料,但必須要印成A4掃過去,所以裡面表格的線段,除非像 @ronnywang 那麼厲害,能夠用OpenCV把它還原回來,不然的話就又回到純文字,最多PDF變成Word檔,進Word改完之後再出去。
其實從偵查、起訴,甚至中間警察去進行訊問、製作筆錄,到所有能夠呈上法庭的所有這些紙,目前按照現行的作業內部法規流程,都必須是紙本,所以就會變成不同的機關,從警察局到偵查,所有這些東西進行資料交換,是用他們自己的電子系統印出來,印出來之後厚厚一疊送到下一站,那一站用掃描機,再把它掃描回JPEG檔之後進行OCR的讀取。
我沒有這樣說的意思,就是邀請大家一起做。
這件事如果是院長並不覺得需要解決,民眾也沒有聲音是覺得需要解決的問題,那我自己無法去做這樣的建議。
就像我剛才說的,要先問:這件事你解決了社會上哪些特定族群的什麼問題?我們才能在政務會議提出來。提出來之後,院長認為真的要解決這個問題、指示人事總處進行辦理,我們才能從政務委員的角度,去幫助院長協調他覺得需要解決的問題。
因為要做紀錄剖析這一件事,它需要的量能跟你拿一個特定、專屬的資料庫,你只是讓它出CSV,需要的資訊人力是不一樣的,可能是十倍以上的量能。要有十倍以上的量能,就必須要有十倍以上的政治意志去支撐。
對,這個結構很適合用區塊鏈來存,但以上不代表政策指示(笑)。
但現在的問題是,這還是需要剛剛所講的紀錄剖析。如果要做剖析的話,需要有個政治意志出來說,我們去清查之前所有的派令,然後衍生出一套穩定的事務紀錄(stable transaction log),而且是只能添加(append-only)的紀錄…
總統府是一個比較特殊的單位,我們沒有辦法直接請求他們去建立任何系統。人事總處以我所知,所有的這些派令他們都有一份複本。
所以當他制定的是通則性政策,要做證據導向討論時,那我們剛剛講的「給予解決社會上特定人民問題的政治壓力」這個渠道比較走不通,我只是想要講這一件事。
我知道(笑),我完全同意。但你講的是不特定人,要放假就是不特定人都要放假,我這邊講的是,像內政部的櫃台,來申請服務的一個人。
這是非常有趣的組織法的狀況了,因為理論上院的處是協助部會去聯絡,所以像人事總處、資安處、教科文處,都沒有開放資料諮詢小組的原因是一樣的,因為理論上他們本身的業務不及於跟第一線人民,去進行資料上的界接或說明。
我完全尊重人事總處的總規劃,相信各界的需求都有收進去,但在他們有一個通盤規劃進來之前,我以政務委員的身份不適合發表意見。
對,我另外一個補充:人事總處目前在2017年度對於整個組織改造,還有包含組織改造前繞過規範的借調、外包、駐點及約聘僱等等,其實正在整理一個通盤的想法,包含大家之前一直很關心的,資訊相關人力或相關人力怎麼配置,或者新科技要不要有專門辦公室等等這些東西。
我也同意這是一個問題。
在沒有界接的情況下,既然沒有主要索引值,那唯一的做法可能是在那一張卡制發的時候,留個副檔上傳到某個空間,但這裡馬上碰到個資法,這條路我覺得比較走不通。
所以那個門禁卡的制發是否有上網,它和講的那一個公告系統或者是任何其他系統有所串接?以我的理解是沒有,但說不定有,只是我還不知道。
這個應該不在剛才的統計裡。因為那個識別證只是能夠進門的意思,並不是忽然有一個員工編號的意思,這個是兩件事。
如果你把所有公告的自然語言加以剖析的話,想必把調職、復職互相對消之後,就可以得到從使用端這邊目前實際的人數,甚至連人名都會有。但從借調端,從計畫那邊拿的話,我們院裡也沒有這個資料,這個是說實話。
在人事總處,其實每一次有外面機關借調進來的時候,會在行政院內部的系統裡面發一個公告,這個公告是「某某機關的某某人,因為某某原因,從即日起借調到某某單位任職」。但這樣發完之後,其實我從院的內網也沒有看到資料庫去查詢這一件事,這就變成是紀錄剖析(log parsing)的工作。
如果用雙重計畫轉包借調的狀態,那從來源端跟結果端統計,會產生不一樣的數字。
…從明年開始運作的時候提出討論。
我如果沒有記錯的話,高、屏、澎是在一起的,但金、馬因為是不同的省,我相信福建省政府主席,也就是另外一位政務委員,對這件事有裁量權。這不是我的業管範圍,我不會幫景森政委表示任何意見(笑)。
未來這個工作,就會落到六都的列管範圍裡面,所以這一都就要負責,跟旁邊各縣市至少回來的資料欄位要統一。這件事我們期待台北、台中,以及以我所知其他都,慢慢都有開始比較懂資料的朋友進入一級協調的情勢下——這個要用非常和緩的方法講,不能講成組改——我相信六都慢慢都會開始有這一個量能,去協助附近的行政。
之前的問題是,不管是國發會的管考處,或者以前的NICI,沒辦法下到這些地方縣市去協作。像我前兩天才去澎湖,其實我沒有辦法每天跑這些地方,跟他們的資訊中心進行協調。
有時院級往所有的縣市進行某個資料普查,通常會交一些試算表上來,欄位的名稱不一樣就算了,好不容易弄到一樣,也可能比較有資訊量能的那些回來的資料很詳細,但比較沒有資訊量能的縣市,就可能出現明明從網頁上看起來就有三十五筆,但回報回來只有三筆的情況。
當然我們也瞭解到資訊系統絕對不可能馬上整併,但至少可以做到格式一致。