問:我們看到訊飛語音識(shí)別的技術(shù)已經(jīng)非常成熟,那么你認(rèn)為“應(yīng)用”的空間在哪里,未來語音識(shí)別技術(shù)還有什么挑戰(zhàn)?
李開復(fù):云端識(shí)別技術(shù),訊飛已經(jīng)解決了。“應(yīng)用”在哪里?這并不是一些專家在實(shí)驗(yàn)室里拍腦袋就能想到的。大家可以來試,可以在訊飛的云平臺(tái)上試一試,可能成功的會(huì)比較少,但能夠摸索到成功的應(yīng)用的概率也會(huì)增加。
語音技術(shù)方面,主要挑戰(zhàn)還有三方面:
- 一、語音識(shí)別相對(duì)容易,但語義理解相對(duì)困難。讓軟件聽懂容易,但理解會(huì)比較難。
- 二、如果能在一定程度上做到語義理解,那么怎么樣讓開發(fā)者介入不用太花時(shí)間?
- 三、用戶體驗(yàn)的期望值。語音是人類最自然交流的方式——與多點(diǎn)觸摸不同,一旦人們開始使用語音交互,會(huì)有比較大的心理預(yù)期:我愛怎么說就怎么說,你應(yīng)該能理解,這是一個(gè)比較長(zhǎng)久的挑戰(zhàn)。這中間,應(yīng)該有巧妙方式來降低這種感受。
問:語音技術(shù)里面,是不是使用的人越多,語音技術(shù)也會(huì)愈加成熟?
李開復(fù):當(dāng)然了,更多人參與,獲得更多自動(dòng)回饋,可以實(shí)現(xiàn)一個(gè)良性的正向循環(huán)方。一個(gè)人能力有限,一億用戶,每人使用 3 秒鐘,就是 3 億秒,這個(gè)數(shù)據(jù)量是龐大的。實(shí)際應(yīng)用中,正確的輸入可以被視作是“一次正確訓(xùn)練和學(xué)習(xí)”,吸收改進(jìn);一個(gè)錯(cuò)誤的結(jié)果,比如訂餐時(shí)識(shí)別錯(cuò)誤取消訂單,可以視作“不正確的學(xué)習(xí)”,同樣吸收改進(jìn)。
但這個(gè)比“聽寫”更困難:錯(cuò)了,是語音錯(cuò)了還是語義錯(cuò)了,或者其中一個(gè)正確、一個(gè)錯(cuò)誤;對(duì)了,是語音對(duì)了語義對(duì)了,或者其中一個(gè)正確、一個(gè)錯(cuò)誤。當(dāng)回饋量大于累計(jì)量和使用量,可以讓我們邁出一大步。
問:什么樣的語音應(yīng)用是用戶期待和接受的?
李開復(fù):我認(rèn)為有三個(gè)方向。1,相對(duì)是語音識(shí)別,而非深度語義理解的應(yīng)用,或者說“淺語義,深語音”。比如聽寫(Demo 中有提到教育領(lǐng)域的聽寫測(cè)試、KTV 評(píng)分、發(fā)短信、日程提醒),——輸入法也很重要,這個(gè)比較保險(xiǎn)。
2,娛樂性應(yīng)用,比如 Siri 這樣的調(diào)侃調(diào)戲類應(yīng)用。這種識(shí)別錯(cuò)了也無傷大雅,很愛使用。蘋果很聰明,用調(diào)侃 Siri 錄了很多語音,然后慢慢把真正的應(yīng)用做好。
3,在一些“眼忙手忙”的場(chǎng)景,這個(gè)時(shí)候語音需求就會(huì)很大,比如駕車的時(shí)候,這時(shí)候是不能多點(diǎn)觸控的,這算一個(gè)“剛性需求”的場(chǎng)所。
在這里我建議開發(fā)者:想把語音放進(jìn)來的時(shí)候,不是那么容易,因?yàn)檎Z音的 API 和語音的用戶體驗(yàn),比一般的 API 要難很多,比如百科全書類、地圖、本地商家,O2O,線上模式拉來線下消費(fèi),因?yàn)橛姓Z義部分在里面,要花很多時(shí)間去把它調(diào)好,不能用簡(jiǎn)單的 API 隨便聯(lián)接起來。
