第二關,當這個基礎模型訓練出來之後,你可以做你剛剛講對齊的工作,對齊現在有兩派做法,一派是找一些肯亞的朋友,或者是一些 Mechanical Turk 之類的,這些人就要做不舒服的工作,事實上就是幾個他不舒服的東西他要選哪個讓他更不舒服,所以真的是很不舒服的工作。這樣子不舒服的工作做一陣子之後,這個模型在基礎之上就學會什麼東西讓人舒服、讓人不舒服,這個是 OpenAI 的做法。
j previous speech k next speech