影像辨識,其實我們的做法是用了兩個深度學習的model:第一個是認照片、認裡面有什麼東西,像我現在照照片,裡面有人、桌子跟飲料。第二個model是用資料語言處理,像我現在有人、飲料、桌子,然後我要造句,這個造句的部分是NLP,我們不能說造句之後再翻譯,這不見得會work,這個不能直接做,我想Paul專家會比我清楚一點,因此我們是language skill up其實並不是很trivial。