所以你要做的事情在preparation stage,就是你把那裡面區域的部分detect到,然後變成一個token,實際在轉換的時候,就是把那個地區塞進去這樣子?
j previous speech k next speech