現在像 OpenAI 的 Voice Engine 這麼好的技術、高檔的技術,像 ElevenLabs 等等目前還是商用,但是如果是有一些開發能力的話,你用開放源碼的模型,也可以做到 7、8 成,它可能需要訓練的時間要比較久,可能並不是 15 秒,而是需要 150 秒,但是如果是公眾人物的話,要取得我 1,500 秒講話的錄音也是非常容易的事,目前大概是差在需要多少訓練的時間,以及合成多語言口氣上精確的程度,但是要合成到可能 8、9 成都不困難,大概都可以免費取得。
j previous speech k next speech