但是這個是資料庫,並不是轉換前後的句子。
右邊是新聞,左邊是鄉民的。
應該是看需求,如果希望內文也可以自動生成的話,可能要著重那一塊,那就是一個model,像一開始新聞的句子怎麼出來,那又是另外一件事,一開始的句子,我們現在是做sample,要怎麼挑這一句話之類的,那又是另外一件事,如果想要分析回文,然後我們可能有回覆別人之類的,那也是另外一塊,就是看現在的需求是什麼。
可是要回什麼,也要看他們到底講了什麼,而我們要回什麼的感覺。
對,但是如果要做到那個的話,就要先做輿情分析,先知道他們講的話。
因為是在講工業區。
可是我在想資料庫大不大,也有跟每一段時期鄉民講話的風格有關。
都有。
對,新聞稿都是紫爆或者是紅色警報的時候才會有稿出來。
對,他們那個就是紫爆或者是嚴重之類的。
應該是說在PTT上面po文只要有紅色警報的時候就會開始po文,紅色底下就不太放。
對。
後面沒有很仔細去看,但是也是有一些結果,但是就沒有很專注去看他的樣子。
其實是VAE,可以想像如果autoencoder的話,那就是新聞的input,出來會是新聞的out put,那如果有GAN的話就會生成另外一個風格,以這次的應用來說,就是從新聞風格變成鄉民的風格,當然也是能從鄉民的風格變成新聞的。
在訓練model的時候是用一個轉譯模型。
另外我們也需要了解鄉民講話的方式,因此爬一個鄉民在討論空氣品質的資料庫,我們從八卦版、高雄和台中的地區版爬有關空品的標題、內文甚至是回復。因此就有兩個database。
先從第一個,一開始的想法就像剛剛所講的,想要在PTT這個平台po文,如果要po文給鄉民的話,就要用他們的語言,所以那時我們就在想我們有的東西是什麼,我們有的東西就是新聞稿的內容,因此我們利用PTT蒐集一個關於空品議題的新聞資料庫。