研究方向
-
語(yǔ)音識(shí)別及語(yǔ)音喚醒
面向家居、車(chē)載,、??辦公室,、公共空間、強(qiáng)噪聲,、近遠(yuǎn)場(chǎng)等復(fù)雜場(chǎng)景,,研究多語(yǔ)言、多模態(tài),、端云一體的語(yǔ)音識(shí)別及喚醒技術(shù),,通過(guò)平臺(tái)方式提供豐富的開(kāi)發(fā)者定制模型自學(xué)習(xí)能力,讓業(yè)務(wù)具備語(yǔ)音模型的自定制能力,。
-
語(yǔ)音合成
研究高音質(zhì),、高表現(xiàn)力的語(yǔ)音合成技術(shù)及個(gè)性化語(yǔ)音合成,說(shuō)話人轉(zhuǎn)換技術(shù),,主要應(yīng)用于語(yǔ)音交互,、信息播報(bào)和篇章朗讀等場(chǎng)景。
-
聲學(xué)及信號(hào)處理
研究聲學(xué)器件、結(jié)構(gòu)和硬件方案設(shè)計(jì),,基于物理建模和機(jī)器學(xué)習(xí)的聲源定位,、語(yǔ)音增強(qiáng)和分離技術(shù)、以及多模態(tài)和分布式信號(hào)處理等,。
-
聲紋識(shí)別與音頻事件檢測(cè)
研究文本相關(guān)/無(wú)關(guān)聲紋識(shí)別,、動(dòng)態(tài)密碼、近場(chǎng)/遠(yuǎn)場(chǎng)環(huán)境聲紋識(shí)別,、性別年齡畫(huà)像,、大規(guī)模聲紋檢索、語(yǔ)種方言識(shí)別,、音頻指紋檢索,、音頻事件分析等。
產(chǎn)品及應(yīng)用

語(yǔ)音識(shí)別及語(yǔ)音喚醒(虛擬文案)
致力于用最自然的人機(jī)語(yǔ)音交流方式,,打造公共空間真實(shí)場(chǎng)景下的智能服務(wù)機(jī)器,。主打業(yè)內(nèi)首創(chuàng)的強(qiáng)噪聲環(huán)境下的免喚醒語(yǔ)音交互、語(yǔ)音識(shí)別,、流式多輪多意圖口語(yǔ)識(shí)別等技術(shù),,已應(yīng)用于交通行業(yè)和新零售行業(yè)。
1)地鐵語(yǔ)音售票機(jī):全球首臺(tái)地鐵語(yǔ)音售票機(jī),,用戶能夠用該機(jī)器進(jìn)行語(yǔ)音站點(diǎn)查詢,、語(yǔ)音模糊地點(diǎn)查詢并完成路徑規(guī)劃;用戶購(gòu)票時(shí)間由30秒下降至10秒,。
2)快餐店語(yǔ)音點(diǎn)餐機(jī):用戶可以用人機(jī)交流式的語(yǔ)音交互方式,,完成客制化點(diǎn)餐需求的快速下單。

語(yǔ)音識(shí)別及語(yǔ)音喚醒(虛擬文案)
致力于用最自然的人機(jī)語(yǔ)音交流方式,,打造公共空間真實(shí)場(chǎng)景下的智能服務(wù)機(jī)器,。主打業(yè)內(nèi)首創(chuàng)的強(qiáng)噪聲環(huán)境下的免喚醒語(yǔ)音交互、語(yǔ)音識(shí)別,、流式多輪多意圖口語(yǔ)識(shí)別等技術(shù),,已應(yīng)用于交通行業(yè)和新零售行業(yè)。
1)地鐵語(yǔ)音售票機(jī):全球首臺(tái)地鐵語(yǔ)音售票機(jī),,用戶能夠用該機(jī)器進(jìn)行語(yǔ)音站點(diǎn)查詢,、語(yǔ)音模糊地點(diǎn)查詢并完成路徑規(guī)劃;用戶購(gòu)票時(shí)間由30秒下降至10秒,。
2)快餐店語(yǔ)音點(diǎn)餐機(jī):用戶可以用人機(jī)交流式的語(yǔ)音交互方式,,完成客制化點(diǎn)餐需求的快速下單。
團(tuán)隊(duì)成員

任小楓
實(shí)驗(yàn)負(fù)責(zé)人
華盛頓大學(xué)計(jì)算機(jī)科學(xué)與工程系客座教授,,擁有加州大學(xué)伯克利分校博士學(xué)位。加入阿里巴巴之前,曾擔(dān)任亞馬遜資深主任科學(xué)家,,負(fù)責(zé)Amazon Go計(jì)算機(jī)視覺(jué)算法的研發(fā),。相關(guān)論文被引用10,000次以上,是CVPR和ICCV會(huì)議的領(lǐng)域主席,。

鄢志杰
語(yǔ)音實(shí)驗(yàn)室研究員
西安電子科技大學(xué)博士,,曾在美國(guó)OGI從事博士后研究。在IEEE Trans等學(xué)術(shù)刊物及會(huì)議上發(fā)表論文近百篇,。曾獲中國(guó)科學(xué)院杰出科技成就獎(jiǎng)(2014年),、中國(guó)語(yǔ)音產(chǎn)業(yè)聯(lián)盟先進(jìn)個(gè)人(2016年)。

高 杰
語(yǔ)音實(shí)驗(yàn)室資深算法專(zhuān)家
德州大學(xué)達(dá)拉斯分校博士,。擁有50篇會(huì)議和期刊論文,。研究領(lǐng)域包括聲紋識(shí)別、語(yǔ)種識(shí)別,、音頻檢測(cè),、語(yǔ)音識(shí)別、機(jī)器翻譯,、自然語(yǔ)言理解,、推薦系統(tǒng)等。曾任Facebook和SRI的研究科學(xué)家,。

潘 攀
視覺(jué)智能實(shí)驗(yàn)室資深算法專(zhuān)家
擁有伊利諾伊大學(xué)芝加哥分校博士學(xué)位,。拍立淘以圖搜圖的創(chuàng)始人之一,研究領(lǐng)域包括深度學(xué)習(xí),、視覺(jué)搜索與識(shí)別和三維視覺(jué)等,。曾先后在三菱美國(guó)研究院和富士通北京研發(fā)中心從事視覺(jué)技術(shù)工作。已發(fā)表20余篇論文,,擁有多項(xiàng)授權(quán)專(zhuān)利,。

劉 鑄
資深技術(shù)專(zhuān)家
紐約大學(xué)博士,研究領(lǐng)域包括視頻內(nèi)容理解和分析,,三維視覺(jué),,機(jī)器學(xué)習(xí)。曾任AT&T科研實(shí)驗(yàn)室主任科學(xué)家,,哥倫比亞大學(xué)和紐約大學(xué)的客座教授,。擁有140多項(xiàng)美國(guó)專(zhuān)利,發(fā)表70余篇論文,。曾獲AT&T科技獎(jiǎng)?wù)?。IEEE高級(jí)會(huì)員,IEEE TMM和SPL副主編,。
學(xué)術(shù)成果
論文
- Bin Wang, Pan Pan, Qinjie Xiao, Likang Luo, Xiaofeng Ren, Rong Jin, and Xiaogang Jin. Seamless Color Mapping for 3D Reconstruction with Consumer-Grade Scanning Devices. In: Proceedings of the 4th International Workshop on Recovering 6D Object Pose Organized at ECCV 2018, Munich, Germany, 2018
- Bin Wang, Pan Pan, Qinjie Xiao, Likang Luo, Xiaofeng Ren, Rong Jin, and Xiaogang Jin. Seamless Color Mapping for 3D Reconstruction with Consumer-Grade Scanning Devices. In: Proceedings of the 4th International Workshop on Recovering 6D Object Pose Organized at ECCV 2018, Munich, Germany, 2018
- Bin Wang, Pan Pan, Qinjie Xiao, Likang Luo, Xiaofeng Ren, Rong Jin, and Xiaogang Jin. Seamless Color Mapping for 3D Reconstruction with Consumer-Grade Scanning Devices. In: Proceedings of the 4th International Workshop on Recovering 6D Object Pose Organized at ECCV 2018, Munich, Germany, 2018
- Bin Wang, Pan Pan, Qinjie Xiao, Likang Luo, Xiaofeng Ren, Rong Jin, and Xiaogang Jin. Seamless Color Mapping for 3D Reconstruction with Consumer-Grade Scanning Devices. In: Proceedings of the 4th International Workshop on Recovering 6D Object Pose Organized at ECCV 2018, Munich, Germany, 2018
- Bin Wang, Pan Pan, Qinjie Xiao, Likang Luo, Xiaofeng Ren, Rong Jin, and Xiaogang Jin. Seamless Color Mapping for 3D Reconstruction with Consumer-Grade Scanning Devices. In: Proceedings of the 4th International Workshop on Recovering 6D Object Pose Organized at ECCV 2018, Munich, Germany, 2018
競(jìng)賽
- 2018 KITTI囊括三項(xiàng)道路場(chǎng)景分割任務(wù)第一,。
- 2017ACM多媒體大會(huì),,大規(guī)模視頻分類(lèi)比賽(LSVC)冠軍。