在智能語音和人工智能產業中,技術革新很快,想要贏得領跑局面就必須從源頭技術上保持領先。而保持領先的秘密是“甘坐十年冷板凳“的決心,是對企業科研人員反復實驗,去窮盡每一種可能,推動技術上的微小改變的耐心,也是直面失敗的恒心。
正如創立22年的科大訊飛在探索人工智能實現路徑上的曲折,作為“年輕后浪“的熊世富在接下科大訊飛語音識別技術這個接力棒以來,失敗也是他最常面對的事情。
人工智能被很多人稱之為改變未來的顛覆性技術,而深度學習則是加速人工智能發展的顛覆性創新。
2010年以前,語音識別的主流方式是使用高斯混合模型(GMM)來建模,雖然語音識別的錯誤率有效的降低了,但GMM在自然場景下卻無法達到實用的級別。想要實現語音識別技術更廣泛的商用,必須有新的突破。2010年,微軟通過研究如何利用深層神經網絡改善大詞匯量語音識別,成功地使得大規模的語音識別得到突破性進展,而這一研究也改變了世界語音識別業界格局。
而科大訊飛也成為除了微軟總部以外,第一批接觸深度學習并著手開始研究的團隊。一年后,科大訊飛已經將深度神經網絡(DNN)成功應用到中文語音識別領域,并通過語音云平臺提供給廣大開發者使用。
熊世富便是在那個技術引領變革的時代,開啟了對人工智能語音領域的深入探索,從一個代碼小白一步步蛻變為行業專家。
如今,在加入科大訊飛的第七年,熊世富帶領團隊成功研發新一代端到端語音識別系統并全網上線,又一次保持了科大訊飛語音識別國際領先的地位。旁人總以為這位享譽公司的技術大咖應該“天賦異稟”,自帶“碼力超強”的光環。殊不知,技術能力并不是一蹴而就,是要經過時間打磨、沉淀出來。研究生培養方式不同于本科生,除了理論知識,還要求工程實踐能力。在中科大語音研究實驗室攻讀研究生的第一年,當時熊世富導師要求大家寫一個程序,他想了想,撓了撓頭,于是請教了同學:“哎,Hello Word,用編程語言咋寫來著?”
孤身一人來到一個雖不算陌生的領域,但這里的一切規則都要重新學習、探尋,岔路曲徑通幽,沿途也有驚喜的收獲。
初識深度學習是熊世富在科大訊飛實習的期間。從最開始的跨語言遷移學習的任務到提升深度學習的訓練效率,帶著升級打怪的快樂,熊世富總在語音方向里探索最前瞻的技術領域。
而魄力,則是他個人在探索深度學習技術上的優勢和個人特色。從職業生涯的開始即選擇了一條大規模深度學習探索之路,而這種選擇也一直延續至今。
2013年,當業界詬病深度學習的訓練效率之時,還是實習生的熊世富隨即想到了多卡訓練這條路徑,多卡背后的代名詞是計算資源,大資源加持實驗才能找到答案。“也是幸運,當時我的導師是現今已為我們首席科學家的魏思,跟著他一起探索了很多前沿的方向。當時要申請計算資源,研究院都會批準,雖然我只是一個實習生?!毙苁栏幻看位貞洠几袊@AI研究院對于前瞻研究重視,對于技術的包容以及對人才的支持。也正是研究院的這種氛圍,讓這位中科大高材生畢業之后留了下來。
科大訊飛董事長人劉慶峰曾經不止一次講過這樣一段話:“一定要對未來人工智能的核心技術突破,不能抱著急功近利的想法。基礎理論的創新,源頭技術的創新,往往是具有最大的不確定性的。人家說三年不鳴,一鳴驚人,事實上真正做原創,可能你要坐十年冷板凳、甚至一輩子冷板凳的心理準備?!?/p>
這也是中國科研工作者需要攀越的下一座高山:如果不知道哪一年看到曙光,那么做技術的人還會用盡全力么?
“甘坐十年冷板凳這句話對我們這些科研人員的影響力是巨大的,這也是我們對技術的追求,因為我們相信科技創新才能真正引領未來?!毙苁栏徽f到。
2018年,科大訊飛提出了引領性的全新語音識別框架——深度全序列卷積神經網絡(DFCNN),進一步提高語音轉寫的準確率,引領語音識別技術的發展。而在此之前,最好的語音識別系統采用雙向長短時記憶網絡(LSTM),但是,這一系統存在訓練復雜度高、解碼時延高的問題,尤其在工業界的實時識別系統中很難應用。
而在另一邊,熊世富早已在2017年悄然開始了下一代的端到端語音識別系統的研發。“研發一代儲備一代,這是我們對技術的要求?!彼?,當上一代技術DFCNN尚未成熟之時,熊世富就已經開始研究更新一代的端到端智能語音系統了。
相比傳統語音系統,端到端系統具有結構簡潔、通用性強、不依賴語言學知識等優點。進一步它能夠通過縮減人工預處理和后續處理,盡可能使模型從原始輸入到最終輸出,給模型更多可以根據數據自動調節的空間,增加模型的整體契合度,避免了多個模型間的誤差傳導。更通俗一些,端到端技術即針對需要多階段的或多步解決的問題,模型可以堆在一起優化。因此它也被認為是未來智能語音的主流技術框架。
思想很簡單,但簡潔背后總逃不過“字越少,事越大”定律。該技術思想原本在翻譯任務中發揮重要作用,而將端到端技術運用語音方面的研究也是一個個頂尖團隊嘗試的方向,然而其效果始終沒有敵過非端到端技術。
構建端到端智能語音系統,熊世富花了整整兩年半的時間。
“確實啃下了不少硬骨頭,尤其是項目后半段在區分性訓練技術上,明明已經在大數據上驗證了,但仍然無法達到想要的效果”。為了突破這項技術,熊世富就花了整整三個月時間攻關。
沒有結果的時候,自我質疑是常態?!捌鋵嵾@三個月有一個半月是無用功。從科研的角度來看,做任何事情都可能面臨失敗,十個項目能夠成功兩個已經是非常了不起的成績了,我們要接受做的大部分事情都可能是失敗的結局?!?/p>
“可是從前期的實驗結果和我過多年做語音識別的經驗來看,我相信端到端語音識別技術一定是有前景的,可能真的會比上一代更好?!毙苁栏灰贿叧恋頂祿?、一邊迭代算法的系統,繼續尋找問題所在。
2018年,科大訊飛端到端技術初露鋒芒,就在國際口語機器翻譯評測比賽(International Workshop on Spoken Language Translation,簡稱IWSLT)中,以在英德方向語音翻譯任務上端到端模型(End-to-End Model)顯著優勢,獲得世界第一。
如果說 2010年深度學習的引入,是語音識別領域上一次顛覆性創新,那么新一代端到端語音識別的研究,無疑標志著語音識別新一輪創新的里程碑。
新一代端到端語音識別系統帶來的效果提升非常顯著 —— 識別效果相比傳統語音識別系統提升了15%-30%,在特定場景下,特別是時下的應用熱點端側語音識別場景上,新系統能實現效果不降,系統資源占用大幅下降。
同時,科大訊飛也成為使用這項技術最廣泛的一家公司,系統于2019年在業界首次全網上線,并在訊飛輸入法、翻譯機、語音轉寫等重點業務上使用,并為語音識別帶來了更大的想象空間和更豐富的產品形態,如方言免切換、多語種統一建模、中英隨心說等。
回憶起端到端語音識別系統成功的原因,熊世富認為:“當時業界大部分團隊包括公司內部也有團隊都在做小數據的訓練,而我認為只能用大數據,才有成功的可能性,而這后來也證明是成功的關鍵突破。另外的難點在于算法框架的參數調整難度非常高,而這卻是我個人的優勢所在,在科大訊飛,我經歷了一代代最新語音識別框架的迭代和更新,也可以說一直在接觸業界最前沿的技術?!?/p>
從研發到一項技術真正的落地,人們對它的要求通常是苛刻的。這一點從Gartner技術曲線便可以看出:一項新技術剛出現的時候是萌芽期,然后進入期望膨脹期,然后再回落到低谷期。在低谷期,各種各樣的困難逐步找到解決方式,才能夠進入穩步的爬升期,再形成一個生產成熟期。
開發的新一代端到端語音識別系統,是熊世富和他團隊所做努力的第一步。“端到端語音識別技術一個難點在于它非常依賴數據,在通用領域數據積累豐富,但在垂直領域里,會有各種面向行業的專有名詞,端到端的效果還不夠好。所以端到端系統現在面臨的是如何深入各個領域,去解決一個領域的效果問題。只有攻克這一難題,端到端模型才能真正‘走出去’。”
或許,可以將聲學模型和語言建模能力結合可以打破數據的限制,來解決垂直領域的一個個定制問題?!氨热缥蚁肴タ次骱缡惺赘唬P头浅H菀字苯虞敵鍪澄锲贩N的西紅柿,想要達到精準的轉化非常難。上一代深度學習只是進行聲學建模,而目前我們在嘗試將聲學和語言解耦,雖然是聯合訓練,但是可以達到把特定領域的詞語單獨拎出來替換為我們想要的語言?!?/p>
熊世富創新性提出的熱詞整詞建模方法,顯著的提升了熱詞識別效果,也為攻克端到端語音識別的領域定制問題奠定了關鍵的基礎。
不過,伴隨著人工智能技術門檻的降低,核心技術領先的窗口期也在逐步縮短。帶領團隊持續提升公司語音識別的領先水平,屹立于世界的前沿是熊世富和他團隊持續在做的努力?!皦毫σ恢倍荚冢桓矣薪z毫松懈。始終保持每年技術進步30%,這是我們對技術的要求,也是科大訊飛每一位科研人員的自我要求?!?/p>
而隨著萬物互聯的時代到來,物理空間和現實空間融合共生,每一次科技的技術突破,都是為了讓人們可以使用更為貼近“自然”的方式與機器進行溝通?!拔磥聿还苁俏覀兒腿斯ぶ悄?,還是和機器人之前,都應該是自然的交互。如智能汽車、智能家居,都能和你對話和交流,并能夠理解你所講的話,從而提供服務?!?/p>
尋找下一代人機交互的方式,則是熊世富和團隊的終極使命。
“或許多模態技術能夠打通人機交互的最后一公里,進而帶來顛覆性的交互體驗?!毙苁栏活A測道。多模態技術,也叫深度學習多模態融合,指機器從文本、圖像、語音、視頻等多個領域獲取信息,實現信息轉換和融合,從而提升模型性能的技術。如在車載交互領域,科大訊飛的汽車級視線追蹤技術讓用戶注視即可實現喚醒交互,目光所至皆可控制。同時,唇音融合語音技術的創新型加入,具備唇音免喚醒、唇音檢出、唇音增強三大核心能力,開口說話就能一語直達,就算是輕聲細語,也能聽清。
從面對國內語音市場的一片空白到如今技術實力代表著全球領先水平,科大訊飛智能語音發展的歷程也在一定程度上代表了科大訊飛的一路走來的創業歷程。
可以說,在智能時代,科大訊飛就是一面中國智能語音的旗幟。中國語音產業聯盟剛剛發布的《2020-2021 中國智能語音行業白皮書》引用德勤數據顯示,作為大型智能語音科技企業的代表,科大訊飛憑借較強的研發優勢,以60%的市場份額穩居第一,競爭優勢明顯。
而科大訊飛的理想也從讓機器開口說話到讓機器能聽會說,能理解會思考,用人工智能建設美好世界。
我們曾經將科大訊飛比喻為一個很寬、很深的生成式神經網絡。
一個典型的生成式神經網絡包括了輸入層、編碼層、輸出層,對于一個AI企業而言,輸入是AI三要素:算力、數據、算法,輸出是技術和產品,編碼層則是企業的組織方式和技術方法論,以及企業的人才。
在《不一樣的科大訊飛,他們把計算機視覺踢進“世界杯”》這篇文章中,我們了解了科大訊飛對人才的重視,以及獨特的組織方式。而在《科大訊飛認知智能,從場景中來,到行業中去》這篇文章中,我們則窺探了這個無限拓寬的神經網絡的秘密——如何定義并建立對不同行業的真正認知。
這其中保證這個很寬、很深的生成式神經網絡發展張力的源泉,或許可以從創業之初的故事來的探尋——在公司歷史上著名的“半湯會議”上,當團隊聚集在一起對于公司未來議論紛紛之際,最終創始人劉慶峰拍板,“繼續做語音,誰不樂意直接走人”,堅定了“智能語音”的戰略方向?!叭紵盍恋幕鸢?,要么率先燎原,要么最先熄滅”,劉慶峰在當年的年度大會上說的話至今仍被掛在科大訊飛大廈的墻上,激勵著公司在智能語音與人工智能道路上不忘初心,堅守前行。
如今科大訊飛已經在這個領域深耕了22年,這其中保證這個很寬、很深的生成式神經網絡發展張力的源泉就是——源于熱愛的初心堅守。因為熱愛,才會22年不斷堅守,從未改變初心;因為相信,才會甘坐十年冷板凳的精神從源頭創新持續突破,讓人工智能多項核心技術世界領先,在國際競爭中擁有話語權,或許這也是科大訊飛創業22年來最大的財富。而他們一路走來,在引領中國人工智能行業的變革中,也讓世界更加美好。