因為獎懲就看題目答對或者是答錯,任何人只要給一系列的問題或者是正確或者是錯誤的答案,任何人都可以做這種對齊微調,所以不需要工程師,而是需要出題目的人。