對,就是有一些目標性。
我們如果有這樣的經驗,在規劃臺灣杉 5 號用途可能會更具體。
沒有,就是用臺灣的。但是其實 2025 年規劃有臺灣杉 5 號,也是 GPU,我其實跟國網中心主任在談一個事情,過去臺灣杉 2 號在買的時候,並沒有需求,並不知道要做什麼,當時我還記得漢銘一直問你,當時我一直講說為什麼買一個帝寶的毛胚屋,我寧可小一點,上面的服務可以做好一點,上面要查一些法規很像是因為採購法的關係。
我們只是希望有一些人在訓練 super large 的 model,然後 push 國網有那樣的能量,技術上可以串接手頭上的 GPU 來作服務,然後對民眾說明的時候,我們就說透過數位部⋯⋯我一開始是希望透過部長掌握的數位政府司,知道政府對民間有哪一些溝通上的需求,利用這個 model 來作一些服務。
當然,很多人會問你這個做出來以後,怎麼樣營運,其實有了以後要做服務,這才是真正貴的地方,但是在第一年跨部會署科發基金,並沒有到後面的操作。
這樣的串接,未來就可以跟金融界輸入自己要的一些規定、平常用的對話資料,然後在這個 prototype 下再做 adaptation,中小企業也可以做類似的事情,我們想說串接這樣的經驗,其實還是希望盡量 open 出去。
我們希望數位部扮演的角色是,因為數位部知道對民眾的服務有哪一些需求,因此請數位部幫忙找各部會對話機器人服務、蒐集法規,我們也可以讓這個原型的 prototype 去做一些 domain 的 adaptation,就會產生所謂的垂直應用。
我們如果有 1,000 個帳號開放給 g0v 這些社群來使用,然後我們那些資料就可以再做一次 Reinforcement learning,然後到 12 月就可以做一些公開的 demo,接下來第三階段就是要把一些道德倫理什麼東西都要放上去。
我跟部長說明一下,這分幾個階段,第一個,我們希望在 6 月有一個這種核心的 model 出來,今天來跟您請教也是希望怎麼樣擴大社群參與,他們把這些核心的程式放到 GitHub 上的時候,下面的應用社群就可以進來用,比方在 6 月核心程式出來,然後 8 月創造出⋯⋯我講很快,因為我知道您都沒有問題。
反正我們有李宏毅的 speech to text 跟 text to speech 這些事情⋯⋯
都是。
其實吳政委的想法,世界各地的孔子學院慢慢撤出,臺灣怎麼樣去填補那一塊的需求,像中英翻譯、文字編修,因為現在用它來寫推薦信,非常好用。
就是要稍微篩選一下,因為這個功能我們定位成未來政府對民眾溝通的數位助手,還希望做到英翻中、中翻英文字編輯的。
就看。
基本上就是繁體中文。
對。資料上有網頁資料,維基百科的資料等等各式各樣的資料,有中文的。
是用臺灣的資料。
對。我們偏好是要更大,像 GPT 3,也就是 175 個 billion 的 size。
沒有。
不同的。
其實跟聯發科合作的,他們當時也是只有用 6 片的 GPU,中研院、國教院、聯發科⋯⋯Size 也是小的。
對,那些既有的。
對,然後所有的資料都是用臺灣的語料庫。當然你要去講接下來做完要怎麼做應用,我們的想法是邀請數位部,因為想說可以將整個政府對民眾的服務、數位助手、數位助理就用 Chat Bot 的形式。
現在我的構想是,國網本身也 operate 半個臺灣杉 2 號,所以整個構想就除了學研界—像李宏毅老師就做了 Reinforcement Learning、所謂 AI 李白的蔡宗翰—那幾個開始在用,計算資源是希望來自於國網,我們的企圖是整個 GPT 3,但是要放臺灣的語料庫。
是半個。
對。
他說是 2 號。因為華碩是台智雲,臺灣杉 2 號有一半是切給台智雲用。
華碩也是。
就是 BLOOM。
MediaTek 的模型只有 1 billion parameters,然後這個 ChatGPT 是 175 billion parameters,所以那個範圍是差很多的。
太好了。(笑)基本構想是這樣子,臺灣的學研界沒有練過這麼大的模型,本身有其意義,國網的 GPU 目前沒有跨很多可以串接。
他說他是代替李次來,我們原本是這樣的構想,您也知道政委對外講說年底要有。
其實 2 月 13 日跟主委報告的時候,那時本來找李次,他剛好去立法院,後來呂署長有來。