京東云旗下言犀獲端到端任務(wù)型對話生成排行榜第一

11月15日消息,京東云旗下言犀近日在國際上影響力最廣泛的任務(wù)型對話數(shù)據(jù)集MultiWOZ上以103.4的分數(shù)斬獲端到端任務(wù)型對話生成排行榜第一。
MultiWOZ數(shù)據(jù)集端到端任務(wù)型對話回復生成榜單(榜單自下而上),圖源:京東科技黑板報,下同
據(jù)悉,MultiWOZ數(shù)據(jù)集是國際上影響力最廣泛的任務(wù)型對話數(shù)據(jù)集,由劍橋大學提出,聚焦大規(guī)模多領(lǐng)域多輪次的任務(wù)型對話。MultiWOZ數(shù)據(jù)集中70%的對話是包括2-5個領(lǐng)域的多領(lǐng)域?qū)υ?是自然語言處理領(lǐng)域最經(jīng)典,挑戰(zhàn)性最高的數(shù)據(jù)集之一。言犀本次參與的是端到端任務(wù)型對話生成任務(wù)。
由于其具有挑戰(zhàn)性的設(shè)置,MultiWOZ任務(wù)型對話數(shù)據(jù)集一經(jīng)發(fā)布吸引了全球眾多高校和科研機構(gòu)的參與,包括來自清華大學,香港科技大學,微軟研究院,亞馬遜,DeepMind以及Salesforce等多個研究小組。
本次言犀團隊提出的Mars模型,創(chuàng)新性地利用語義感知的對比學習方法來增強對話上下文表征與對話狀態(tài)和對話策略之間的關(guān)系建模,從而使對話系統(tǒng)更好地完成任務(wù)。除了總評分,Mars模型在三個分項評價指標Inform, Success和BLEU也分別以89.9、78.0、19.9排名第一。
作為業(yè)內(nèi)首個大規(guī)模商用的智能客服系統(tǒng),言犀支撐了京東客戶服務(wù)全鏈條和全生命周期,日均生成1000萬對話,服務(wù)京東5.8億用戶和17.8萬商家。
在文本生成領(lǐng)域,言犀目前可以實現(xiàn)短文、長文的生成,依靠領(lǐng)域性大模型K-PLUG,可以實現(xiàn)短文本和長文本的自動生成。目前言犀商品文案生成模型已經(jīng)覆蓋了京東的3000多個三級品類,累計生成文案30億字,應用于京東發(fā)現(xiàn)好貨頻道、搭配購、AI直播帶貨等,累計帶來超過3億元GMV。
在語音生成領(lǐng)域,言犀使用基于端到端網(wǎng)絡(luò)結(jié)構(gòu)的聲學模型,對于音調(diào),音量,時長等信息進行了顯式建模,同時使用了基于對抗神經(jīng)網(wǎng)絡(luò)的神經(jīng)網(wǎng)絡(luò)聲碼器,可以合成非常自然的并且高質(zhì)量的語音,只需要30分鐘訓練數(shù)據(jù)可以生成定制化精品音色,同時只需要10句話就可以實現(xiàn)高質(zhì)量的小樣本音色克隆。目前言犀語音合成API日均調(diào)用量超過20億次,支持中文、英文、泰語,廣東話、成都話等各類方言、音色。
在數(shù)字人生成領(lǐng)域,言犀面部動作方面通過自研的3DNeuralRender神經(jīng)渲染器,可以高保真地合成主播面部細節(jié)。動作上,言犀研發(fā)的動作合成方案,基于RIFE插幀多插入點的快速動作過渡,可以讓數(shù)字人的動作更加流暢自然;互動中,2D及超寫實、高精度3D數(shù)字員工驅(qū)動方案,可以實現(xiàn)音唇精準同步。言犀目前擁有100+數(shù)字人形象,廣泛的應用于政務(wù)、金融、零售直播等領(lǐng)域。
在數(shù)字孿生領(lǐng)域,京東云利用數(shù)字孿生技術(shù)對產(chǎn)線和制造工藝進行仿真優(yōu)化,縮減現(xiàn)實世界中的調(diào)優(yōu)試錯環(huán)節(jié),進而降低產(chǎn)業(yè)成本,提升產(chǎn)業(yè)效率。
