大概 15 秒左右。好比像你剛剛是用華語跟我講話,但是只要有你的聲紋模型,像 OpenAI 有一個 Voice Engine,你講英文的部分,我也可以現在合成。