訊飛:成長為影響移動互聯(lián)網(wǎng)產(chǎn)業(yè)的力量?

2012-04-14 22:27:02來源:《商業(yè)價值》雜志作者:夏勇峰

一個大學(xué)里的語音實驗室,如何成長為一股影響移動互聯(lián)網(wǎng)產(chǎn)業(yè)的力量?

一個大學(xué)里的語音實驗室,如何成長為一股影響移動互聯(lián)網(wǎng)產(chǎn)業(yè)的力量?

在美國熱播劇《生活大爆炸》中有一集十分有趣:宅男Raj手持一部iPhone 4S,愛上了其中的語音助理Siri,雖然后者只是一種發(fā)女聲的手機功能,但Raj深陷其中不能自拔。他會詢問Siri附近的咖啡館在哪兒,并想象自己去那里與它約會,甚至?xí)孲iri給自己放首歌,深情地邊聽邊說:“只有你最懂我。”

 

訊飛:成長為影響移動互聯(lián)網(wǎng)產(chǎn)業(yè)的力量?

雖然劇情夸張,但起碼這從一個側(cè)面證明,手機語音功能的普及讓普通老百姓也開始能接受這樣的笑料,也證明了在移動互聯(lián)網(wǎng)時代,語音技術(shù)正在成為一種流行的、全新的人與手機的交互方式。

在微軟創(chuàng)始人比爾·蓋茨眼中,未來影響世界的三個技術(shù)領(lǐng)域——語音、觸摸和視覺中以語音居首;而蘋果公司更是在新一代iPhone中直接將語音助理Siri作為了其最大賣點之一。

擁有語音技術(shù)的公司成為大眾熱點,也成為移動互聯(lián)網(wǎng)的行業(yè)焦點,這使得一家在公眾視野蟄伏了10年的中國本土公司逐漸浮出水面。

訊飛立足點

1999年春節(jié)前夕,安徽合肥,現(xiàn)在的科大訊飛董事長、當時的中國科技大學(xué)在讀博士生劉慶峰實際上正面臨兩難選擇。他所在的中國科技大學(xué)的語音實驗室一直與一家福建企業(yè)合作,可對方因為種種問題資金遇上了困難,連實驗室的基本工資都發(fā)不出。作為這個實驗室的負責(zé)人,他要么“事了拂身去”,出國并繼續(xù)他的博士學(xué)業(yè)——這樣整個團隊勢必會解散;要么留下來牽頭帶領(lǐng)這幫一起干的伙伴們繼續(xù)前行。

據(jù)科大訊飛副總裁江濤回憶,“慶峰其實只需要把實際情況跟大家說清楚,跟自己就半點關(guān)系沒有,但他還是不動聲色地以個人名義借了錢回來給大家發(fā)工資”。

“當時我還是有點過度樂觀吧。”劉慶峰說,“我們下決心產(chǎn)業(yè)化,當時的信心和現(xiàn)在一樣,認為未來每一部手機、轎車、家電、玩具,語音都將成為一個基本需求點,而且以我們的技術(shù)能力,有可能成為行業(yè)領(lǐng)導(dǎo)者。”

在此之前,實驗室參加“863計劃”的比賽剛剛以3.0的高分奪得第一名。中科大的學(xué)生當時會聚了全國精英,而在團隊里還有一些外面的技術(shù)高手,劉慶峰認為解散太可惜。資方并不懂技術(shù),較為急功近利,經(jīng)常進行研發(fā)方向的調(diào)整,把團隊折騰得夠嗆,劉慶峰決定站出來解決這一切。“本來我們的夢想是成為類似美國貝爾實驗室的存在,我就當個總工程師挺好,可形勢的發(fā)展讓我不得不站出來當CEO。半年之后,感覺還不錯。”他說。

這就是科大訊飛的成立故事,從里面不難看出這家公司的一些特征:技術(shù)驅(qū)動、對語音未來的篤定以及濃濃的校園風(fēng)格。這使得它和美國硅谷一些知名技術(shù)公司擁有相似的氣質(zhì)。

可是語音到底什么時候能夠產(chǎn)業(yè)化并且獲得收益?沒有人心里有譜。

其實早在20世紀70年代,世界各國就有很多組織開始研究語音技術(shù),包括語音識別、文本朗讀、指令判斷等。到20世紀80年代,語音就開始被稱為“未來5年的技術(shù)”,可過了一個又一個5年,它卻似乎永遠站在遠方,離普羅大眾的距離從未真正接近過。在國內(nèi),20世紀80年代“863計劃”也扶持了很多語音實驗室進行相關(guān)研究,中科大、清華、聲學(xué)所、語言所等均在其列,只是研究的側(cè)重方向各有不同。

為什么語音技術(shù)難以產(chǎn)業(yè)化?因為語音技術(shù)說白了就是機器對人聲音的識別、判斷與輸出,涉及到不同國家、不同口音的人和大量聲學(xué)、語言學(xué)、數(shù)字信號處理知識。作為一項基礎(chǔ)技術(shù),它不僅考驗語音聽和寫的能力、搜索能力、語音合成能力,還有復(fù)雜得多的與電腦相關(guān)的數(shù)據(jù)庫等后臺能力。

在單機時代,光是辨別語音所需要的龐大數(shù)據(jù)庫存儲和計算能力就讓人頭疼。要想語音識別準確,就必須有海量數(shù)據(jù)庫進行匹配,還要通過算法來讓它實現(xiàn)快捷高效,這幾乎是一件不可能完成的任務(wù),硬件的門檻將無數(shù)研究者阻擋在技術(shù)商用化的門檻之外。

可是從20世紀末開始,一切似乎正在發(fā)生變化;ヂ(lián)網(wǎng)的興起讓這樣一種模式成為可能:大量的存儲計算放在服務(wù)器端(云端)來完成,而前端的電腦則只需要采集聲音和給出反饋就可以了。只不過網(wǎng)絡(luò)帶寬的限制以及電腦麥克風(fēng)當時并不普及,語音技術(shù)還沒獲得生根發(fā)芽的土壤。

此時的科大訊飛,在拿到第一筆投資、還未能盈利之前,就做出了一項“風(fēng)險很高”的決定:以企業(yè)的方式,與中國在語音研究領(lǐng)域領(lǐng)先或有特色的院校建立聯(lián)合實驗室形成了“產(chǎn)學(xué)研”結(jié)合的雛形。

它的邏輯很簡單:語音技術(shù)未來一定很值錢;各個院校擁有不同細分領(lǐng)域的語音技術(shù),融合起來才能具有威力;能將中國最好的做語音研究的人才盡可能網(wǎng)羅到一起。這筆“技術(shù)投資”,為訊飛今后的發(fā)展提供了堅實的基礎(chǔ),這也是訊飛從技術(shù)核心出發(fā)的第一項重要決定。

從B到C

心氣高、兵馬壯的訊飛,幾乎在做第一個產(chǎn)品時就遭遇了挫折。“當時我們做了一個面對消費級PC市場的統(tǒng)一輸入法,你可以用語音、手寫等各種方式輸入中文,可產(chǎn)品辛苦研究出來卻沒有人買賬。”江濤說。

對當時的訊飛來說,消費級市場實在是一個難以跨越的坎,因為它意味著要為產(chǎn)品建立一個全國的銷售網(wǎng)絡(luò)、服務(wù)網(wǎng)絡(luò),光服務(wù)成本就入不敷出。再加上2000年初,“統(tǒng)一輸入法”這樣的產(chǎn)品并沒有市場,消費者根本沒有對于語音的認知,而鍵盤和鼠標已經(jīng)足以滿足他們在PC上簡單的輸入需求。

這時候,劉慶峰做出了第二個重要決定:砍掉辛苦努力了很長時間的B2C業(yè)務(wù),專注于B2B企業(yè)級服務(wù)。

在之前1999年中國國際高新技術(shù)成果交易會上,科大訊飛只有幾平方米見方的展臺上迎來了幾位客人,他們對訊飛的產(chǎn)品表現(xiàn)出不同一般的興趣與了解。這是華為的人,作為移動通訊設(shè)備廠商,他們看到了語音對于移動通信產(chǎn)業(yè)的意義。雙方幾乎一拍即合,華為采購語音引擎,訊飛則成為其技術(shù)供應(yīng)商。

好的技術(shù)總會有價值,與消費者相比,企業(yè)客戶更專業(yè)、理解力更強,這讓幾乎全技術(shù)班底的科大訊飛不用再去做那些不擅長的事,將精力聚焦在了語音技術(shù)本身和運營服務(wù)中。

客戶接二連三地來,訊飛也終于擺脫了剛開始的茫然,進入有序發(fā)展,并接連引入了聯(lián)想投資、復(fù)星資本等投資方。“聯(lián)想和復(fù)興的風(fēng)格完全不一樣,前者對我們工作很細致,幫助我們建立了管理體系;后者則完全信任,給了我們更強的信心。”2004年依靠B2B,訊飛實現(xiàn)了盈虧平衡。

已經(jīng)有了一定實力的訊飛開始將目光再次瞄向最終用戶,可它卻用了一種由企業(yè)到用戶的曲線方式。它向自己的電信運營商客戶如中國電信提出了一項要求:希望從只提供技術(shù)引擎,變?yōu)樽约簛碇苯幼鲞\營與維護。這樣來與用戶發(fā)生接觸。

與此同時,它還發(fā)現(xiàn)了另一個“金礦”,那就是教育市場。學(xué)習(xí)不過是“聽說讀寫”,其中很多層面涉及語音,通過提供這一垂直場景的帶讀、朗誦語音評測等技術(shù)功能,訊飛已有斬獲,基本上對教育市場(學(xué)習(xí)機)形成了近乎壟斷的優(yōu)勢。

2008年,科大訊飛上市。在企業(yè)級市場上技術(shù)加實干,為它贏得了極大空間,可上市之后干什么?訊飛將目光重新投注在了其初衷上。

當時做統(tǒng)一輸入法為什么失。“不是模式錯了,而是模式?jīng)]有適合當時的背景。”劉慶峰說。而現(xiàn)在,背景環(huán)境似乎已經(jīng)轉(zhuǎn)向。

新基礎(chǔ)服務(wù)提供商

2007年開始,移動互聯(lián)網(wǎng)迅速發(fā)展。iPhone手機和Android系統(tǒng)的發(fā)布讓智能手機迅速開始普及,移動帶寬到3G時代得到了明顯提升,而手機天然的隨身性和麥克風(fēng)等硬件所賦予的良好交互性,為語音類產(chǎn)品發(fā)展提供了天然機遇。

訊飛一方面深入語音研究,對技術(shù)最前沿能做到什么樣心里有底,另一方面,與數(shù)千家合作廠商日復(fù)一日的密切接觸,能讓它對產(chǎn)業(yè)引爆點的判斷更加精準。

傳統(tǒng)語音技術(shù),無外乎語音合成、語音搜索、語音聽寫三類,在準備了很長時間之后,2010年末,訊飛推出了自己的“語音云”平臺,將語音能力提供輸出接口,讓很多移動互聯(lián)網(wǎng)創(chuàng)業(yè)者能由此為自己的應(yīng)用引入語音能力。而在此之外,訊飛則選擇擅長的領(lǐng)域做一些“示范應(yīng)用”,在第一代語音云上,示范應(yīng)用是訊飛語音輸入法和互聯(lián)網(wǎng)電視語音搜索。

這是另一片戰(zhàn)場,國外谷歌等互聯(lián)網(wǎng)公司也有提供類似服務(wù),但訊飛在技術(shù)上有著過硬的功夫。2006年到2011年,訊飛連續(xù)6年獲得英文語音合成國際大賽(Blizzard Challenge)第一名,2008年獲得國際說話人識別評測大賽(NIST)第一,2009年則又拿下高難度混淆方言測試指標冠軍。

到2011年末,一年時間訊飛語音云用戶總數(shù)超過1000萬,而之后三個月,用戶總數(shù)超過了3000萬,合作伙伴超過3100家,每天服務(wù)請求量超過700萬次。這是一個驚人的數(shù)字。

2012年3月22日,訊飛在北京國家會議中心舉辦新一代“語音云”發(fā)布暨語音開發(fā)者大會。聯(lián)想控股董事局主席柳傳志來了,創(chuàng)新工場董事長兼CEO李開復(fù)來了,小米公司、大眾點評、知乎等互聯(lián)網(wǎng)公司也來了,現(xiàn)場人數(shù)達到2300人之多,場面火爆。所有人的目的都只有兩個字:語音。

新一代語音云增加了自然語言理解、個性化語音識別、口語評測等新能力特性,而其示范應(yīng)用,則是一款名為“訊飛語點”的工具。

在試用過程中,訊飛語點雖然還有一些小Bug,但總體表現(xiàn)出了很強的辨識度和易用性。比如當你念出“把張三的手機號碼發(fā)短信給李四”,語點就能自己識別出人名、指令,并完成相關(guān)操作。除此之外,它還能設(shè)置日程提醒、手機導(dǎo)航,還能查詢天氣、股票等信息,甚至可以做算術(shù)、講笑話。這一應(yīng)用將新的語音云平臺能力展露無遺。

毫無疑問,經(jīng)過10多年發(fā)展之后,訊飛有了兩塊最具價值的資產(chǎn),那就是語音云和相關(guān)技術(shù),再往上,各個實驗室是“正在下金蛋的雞”,而產(chǎn)業(yè)合作還在將這些金蛋換成金錢。

據(jù)《商業(yè)價值》了解,考慮到新一代語音云平臺多出了很多新的特性,不僅增加了指令和個性化學(xué)習(xí),而且還大幅提升語音識別準確率,訊飛今年年初曾面臨兩個選擇:一個是獨享自己的語音云平臺,基于它推出新的創(chuàng)新產(chǎn)品,二是直接將升級版的語音云平臺向整個行業(yè)開放。

在思索一段時間后,訊飛還是決定選擇后者,因為作為一種基礎(chǔ)能力,開放的語音技術(shù)力量將能支撐整個行業(yè)用更快的速度前行。

現(xiàn)在,訊飛的想法是自己做10%。“我們做開放平臺跟訊飛的特點有關(guān)。語音應(yīng)用無處不在,在每個領(lǐng)域都有前景,能力要和應(yīng)用場景深度結(jié)合才有用,這是一條漫長的路。”劉慶峰說,“我們有最好的嘴巴和耳朵,還有基本思維,可是需要大家一起教育它。”

而相關(guān)的應(yīng)用場景,最主流有三類:手機基礎(chǔ)操控類,比如打電話、發(fā)短信、設(shè)置日程等;助理類,訂酒店、問路、問天氣等;還有行業(yè)伙伴在各個行業(yè)的產(chǎn)品中增加聽說功能。這已經(jīng)是一個相當大的布局,訊飛正在向著新一代移動互聯(lián)網(wǎng)基礎(chǔ)服務(wù)提供商的位置前行。

有人覺得,科大訊飛的幾個發(fā)展點都踩得很正,并且符合語音技術(shù)產(chǎn)業(yè)化的成熟節(jié)奏:成立后不久就找到了華為、中興等移動設(shè)備商作為客戶,用穩(wěn)定的收入站穩(wěn)了第一步;后來又在合適的時間點與移動運營商合作,同時發(fā)現(xiàn)教育市場這片金礦,成為其中語音最有影響力的技術(shù)產(chǎn)品提供商;2008年上市后,開始從企業(yè)級往移動互聯(lián)網(wǎng)消費端滲透,做訊飛語音輸入法并獲得一定成功,第一版語音云平臺也擁有了3000多個合作者,未來機會很大。

這確實是科大訊飛比較重要的三個發(fā)展階段,但它遠遠不是全部。

劉慶峰認為,訊飛走的是一條“彎曲的直線”,朝著正確的方向,但中間也有很多不為人知的失敗,“我們不是剛好踩到點,只是很多踩不到點的地方大家都看不到而已”。

對他而言,訊飛目前的成果經(jīng)過了幾代人的努力,核心技術(shù)持續(xù)突破,到如今才真正達到了大規(guī)模實用的門檻。而訊飛一直在朝著既定目標前進,那就是讓語音真正成為所有人身邊能使用的產(chǎn)品。

贊助商鏈接: