所以我覺得影像這一部分,都是漸進式的進展,反而聲紋合成變得比較自然了,像wavenet出來之後,聲紋合成變得非常好,這一種抑揚頓挫完全是人講的,你聽不出任何問題來。
j previous speech k next speech