研究方向
-
語音識別及語音喚醒
面向家居,、車載,、??辦公室,、公共空間,、強(qiáng)噪聲、近遠(yuǎn)場等復(fù)雜場景,,研究多語言,、多模態(tài)、端云一體的語音識別及喚醒技術(shù),通過平臺方式提供豐富的開發(fā)者定制模型自學(xué)習(xí)能力,,讓業(yè)務(wù)具備語音模型的自定制能力,。
-
語音合成
研究高音質(zhì)、高表現(xiàn)力的語音合成技術(shù)及個性化語音合成,,說話人轉(zhuǎn)換技術(shù),,主要應(yīng)用于語音交互、信息播報和篇章朗讀等場景,。
-
聲學(xué)及信號處理
研究聲學(xué)器件,、結(jié)構(gòu)和硬件方案設(shè)計,基于物理建模和機(jī)器學(xué)習(xí)的聲源定位,、語音增強(qiáng)和分離技術(shù),、以及多模態(tài)和分布式信號處理等。
-
聲紋識別與音頻事件檢測
研究文本相關(guān)/無關(guān)聲紋識別,、動態(tài)密碼,、近場/遠(yuǎn)場環(huán)境聲紋識別,、性別年齡畫像,、大規(guī)模聲紋檢索、語種方言識別,、音頻指紋檢索,、音頻事件分析等。
產(chǎn)品及應(yīng)用

語音識別及語音喚醒(虛擬文案)
致力于用最自然的人機(jī)語音交流方式,,打造公共空間真實場景下的智能服務(wù)機(jī)器,。主打業(yè)內(nèi)首創(chuàng)的強(qiáng)噪聲環(huán)境下的免喚醒語音交互、語音識別,、流式多輪多意圖口語識別等技術(shù),,已應(yīng)用于交通行業(yè)和新零售行業(yè)。
1)地鐵語音售票機(jī):全球首臺地鐵語音售票機(jī),,用戶能夠用該機(jī)器進(jìn)行語音站點查詢,、語音模糊地點查詢并完成路徑規(guī)劃;用戶購票時間由30秒下降至10秒,。
2)快餐店語音點餐機(jī):用戶可以用人機(jī)交流式的語音交互方式,,完成客制化點餐需求的快速下單。

語音識別及語音喚醒(虛擬文案)
致力于用最自然的人機(jī)語音交流方式,,打造公共空間真實場景下的智能服務(wù)機(jī)器,。主打業(yè)內(nèi)首創(chuàng)的強(qiáng)噪聲環(huán)境下的免喚醒語音交互、語音識別,、流式多輪多意圖口語識別等技術(shù),,已應(yīng)用于交通行業(yè)和新零售行業(yè)。
1)地鐵語音售票機(jī):全球首臺地鐵語音售票機(jī),用戶能夠用該機(jī)器進(jìn)行語音站點查詢,、語音模糊地點查詢并完成路徑規(guī)劃,;用戶購票時間由30秒下降至10秒。
2)快餐店語音點餐機(jī):用戶可以用人機(jī)交流式的語音交互方式,,完成客制化點餐需求的快速下單,。
團(tuán)隊成員

任小楓
實驗負(fù)責(zé)人
華盛頓大學(xué)計算機(jī)科學(xué)與工程系客座教授,擁有加州大學(xué)伯克利分校博士學(xué)位,。加入阿里巴巴之前,,曾擔(dān)任亞馬遜資深主任科學(xué)家,負(fù)責(zé)Amazon Go計算機(jī)視覺算法的研發(fā),。相關(guān)論文被引用10,000次以上,,是CVPR和ICCV會議的領(lǐng)域主席。

鄢志杰
語音實驗室研究員
西安電子科技大學(xué)博士,,曾在美國OGI從事博士后研究,。在IEEE Trans等學(xué)術(shù)刊物及會議上發(fā)表論文近百篇。曾獲中國科學(xué)院杰出科技成就獎(2014年),、中國語音產(chǎn)業(yè)聯(lián)盟先進(jìn)個人(2016年),。

高 杰
語音實驗室資深算法專家
德州大學(xué)達(dá)拉斯分校博士。擁有50篇會議和期刊論文,。研究領(lǐng)域包括聲紋識別,、語種識別、音頻檢測,、語音識別,、機(jī)器翻譯、自然語言理解,、推薦系統(tǒng)等,。曾任Facebook和SRI的研究科學(xué)家。

潘 攀
視覺智能實驗室資深算法專家
擁有伊利諾伊大學(xué)芝加哥分校博士學(xué)位,。拍立淘以圖搜圖的創(chuàng)始人之一,,研究領(lǐng)域包括深度學(xué)習(xí)、視覺搜索與識別和三維視覺等,。曾先后在三菱美國研究院和富士通北京研發(fā)中心從事視覺技術(shù)工作,。已發(fā)表20余篇論文,擁有多項授權(quán)專利,。

劉 鑄
資深技術(shù)專家
紐約大學(xué)博士,,研究領(lǐng)域包括視頻內(nèi)容理解和分析,三維視覺,,機(jī)器學(xué)習(xí),。曾任AT&T科研實驗室主任科學(xué)家,哥倫比亞大學(xué)和紐約大學(xué)的客座教授。擁有140多項美國專利,,發(fā)表70余篇論文,。曾獲AT&T科技獎?wù)隆EEE高級會員,,IEEE TMM和SPL副主編,。
學(xué)術(shù)成果
論文
- Bin Wang, Pan Pan, Qinjie Xiao, Likang Luo, Xiaofeng Ren, Rong Jin, and Xiaogang Jin. Seamless Color Mapping for 3D Reconstruction with Consumer-Grade Scanning Devices. In: Proceedings of the 4th International Workshop on Recovering 6D Object Pose Organized at ECCV 2018, Munich, Germany, 2018
- Bin Wang, Pan Pan, Qinjie Xiao, Likang Luo, Xiaofeng Ren, Rong Jin, and Xiaogang Jin. Seamless Color Mapping for 3D Reconstruction with Consumer-Grade Scanning Devices. In: Proceedings of the 4th International Workshop on Recovering 6D Object Pose Organized at ECCV 2018, Munich, Germany, 2018
- Bin Wang, Pan Pan, Qinjie Xiao, Likang Luo, Xiaofeng Ren, Rong Jin, and Xiaogang Jin. Seamless Color Mapping for 3D Reconstruction with Consumer-Grade Scanning Devices. In: Proceedings of the 4th International Workshop on Recovering 6D Object Pose Organized at ECCV 2018, Munich, Germany, 2018
- Bin Wang, Pan Pan, Qinjie Xiao, Likang Luo, Xiaofeng Ren, Rong Jin, and Xiaogang Jin. Seamless Color Mapping for 3D Reconstruction with Consumer-Grade Scanning Devices. In: Proceedings of the 4th International Workshop on Recovering 6D Object Pose Organized at ECCV 2018, Munich, Germany, 2018
- Bin Wang, Pan Pan, Qinjie Xiao, Likang Luo, Xiaofeng Ren, Rong Jin, and Xiaogang Jin. Seamless Color Mapping for 3D Reconstruction with Consumer-Grade Scanning Devices. In: Proceedings of the 4th International Workshop on Recovering 6D Object Pose Organized at ECCV 2018, Munich, Germany, 2018
競賽
- 2018 KITTI囊括三項道路場景分割任務(wù)第一。
- 2017ACM多媒體大會,,大規(guī)模視頻分類比賽(LSVC)冠軍,。