參測(cè)情況
本輪智能疫情防控機(jī)器人(在線類)評(píng)測(cè)共有15家企業(yè)報(bào)名參加,16款產(chǎn)品參與評(píng)測(cè)。聯(lián)盟通過技術(shù)測(cè)試、材料審查和企業(yè)披露等方式對(duì)參評(píng)產(chǎn)品進(jìn)行了評(píng)測(cè)。
結(jié)果分析與建議
1. 基礎(chǔ)功能豐富多樣,業(yè)務(wù)功能有待完善
本輪評(píng)測(cè)功能部分測(cè)試了疫情防控在線服務(wù)機(jī)器人的多渠道管理、富媒體消息互動(dòng)、情緒安撫等六項(xiàng)基礎(chǔ)功能指標(biāo),測(cè)試了疫情查詢、問題咨詢、自診問診等五項(xiàng)業(yè)務(wù)功能指標(biāo)。下圖給出了功能部分的評(píng)測(cè)結(jié)果,列出了參評(píng)產(chǎn)品對(duì)各項(xiàng)指標(biāo)的支持情況:

圖1 基礎(chǔ)功能測(cè)試結(jié)果
總體而言,參評(píng)產(chǎn)品在多渠道管理支持能力和富媒體消息互動(dòng)支持能力方面表現(xiàn)良好,所有參評(píng)產(chǎn)品均支持兩種及其以上渠道管理,最高的支持達(dá)到六種,全面覆蓋了PC端和移動(dòng)端用戶。參評(píng)產(chǎn)品在會(huì)話異常處理上表現(xiàn)比較接近,大部分產(chǎn)品部分支持該功能,在情緒安撫功能支持上兩極化差異較明顯,全面支持和不支持?jǐn)?shù)量相近,兩者合計(jì)數(shù)量占比超過八成。主要有以下三個(gè)方面的特點(diǎn):
-
多渠道管理能力普遍支持較好,保障不同渠道用戶訪問服務(wù)的便捷高效;
-
交互方式多樣化,超過半數(shù)參評(píng)產(chǎn)品支持圖像交互,信息展示更立體;
-
會(huì)話異常處理結(jié)合情緒安撫,有效提升了用戶情感體驗(yàn)。

圖2 業(yè)務(wù)功能測(cè)試結(jié)果
針對(duì)不同疫情防控場(chǎng)景,測(cè)試選取了不同的測(cè)試數(shù)據(jù),根據(jù)產(chǎn)品對(duì)語料的反饋相關(guān)度設(shè)置了0~4分五級(jí)評(píng)分標(biāo)準(zhǔn)。通過測(cè)試結(jié)果得出,多數(shù)產(chǎn)品對(duì)咨詢、問診和防控業(yè)務(wù)場(chǎng)景支持能力較好,高效回復(fù)率分別達(dá)到35.6%、40.9%、45.0%,有效回復(fù)率分別達(dá)到70.6%、63.4%、60.0%。但是在政策和新聞等信息類業(yè)務(wù)場(chǎng)景中,多數(shù)參評(píng)產(chǎn)品得分情況較差,不能較好的反饋實(shí)時(shí)信息,這方面的能力需要繼續(xù)加強(qiáng)。
2. 對(duì)話質(zhì)量參差不齊,性能指標(biāo)有待優(yōu)化
智能疫情防控在線服務(wù)機(jī)器人的核心技術(shù)是自然語言處理和對(duì)話系統(tǒng),產(chǎn)品能否準(zhǔn)確識(shí)別對(duì)話中的關(guān)鍵詞,并理解用戶意圖成為服務(wù)效果的關(guān)鍵,因此本次評(píng)測(cè)選取意圖理解和關(guān)鍵詞識(shí)別作為核心性能指標(biāo)。作為一款以自然語言處理為核心技術(shù)的產(chǎn)品,測(cè)試數(shù)據(jù)集的設(shè)計(jì)尤為重要,通過分析用戶對(duì)疫情信息關(guān)注的不同角度,本次測(cè)試數(shù)據(jù)集選擇咨詢、問診、防控和信息查詢四個(gè)不同場(chǎng)景。測(cè)試使用的數(shù)百條語料由聯(lián)盟人員通過對(duì)疫情相關(guān)信息和知識(shí)的調(diào)研,并分析各家產(chǎn)品的特點(diǎn)后設(shè)計(jì),涵蓋了疫情相關(guān)術(shù)語以及用戶比較關(guān)心的問題。下圖給出了16款參評(píng)產(chǎn)品的性能指標(biāo)測(cè)試結(jié)果(產(chǎn)品序號(hào)根據(jù)評(píng)測(cè)先后順序排列)。

圖3 性能指標(biāo)測(cè)試與分析結(jié)果
總體來看,各家參評(píng)產(chǎn)品在關(guān)鍵詞識(shí)別和意圖理解能力上參差不齊,準(zhǔn)確率最高值與最低值相差都超過了50個(gè)百分點(diǎn)。在關(guān)鍵詞識(shí)別能力上,有6款產(chǎn)品的準(zhǔn)確率超過60%,基本可以識(shí)別出“新型冠狀病毒”、“N95口罩”、“發(fā)燒干咳”、“密切接觸者”等疫情強(qiáng)相關(guān)詞匯,以進(jìn)行關(guān)鍵詞匹配和擴(kuò)展,確保答復(fù)的準(zhǔn)確性和豐富性。在意圖理解能力上,有7款產(chǎn)品的準(zhǔn)確率超過50%,可對(duì)用戶提出的問題有針對(duì)性的進(jìn)行答復(fù)、相關(guān)問題推送和情緒安撫,從而提供精確、及時(shí)、有效的服務(wù)。
通過圖3中的性能指標(biāo)產(chǎn)品分布情況可知,多數(shù)參評(píng)產(chǎn)品意圖理解和關(guān)鍵詞識(shí)別準(zhǔn)確率分布在[0.2,0.4)和[0.6,0.8),反映出參評(píng)產(chǎn)品在性能上的兩級(jí)分化,建議相關(guān)企業(yè)及時(shí)豐富疫情相關(guān)語料并進(jìn)行產(chǎn)品優(yōu)化,提升問題解決率。
3. 用戶需求攀升,交互量日益增加
在本輪評(píng)測(cè)中,除上述功能和性能指標(biāo)外,還統(tǒng)計(jì)了截至2月12日各參評(píng)產(chǎn)品的訪問量、交互量以及用戶平均在線時(shí)長(zhǎng)情況。具體數(shù)據(jù)如下圖所示。

圖4 參評(píng)產(chǎn)品運(yùn)營(yíng)情況
由圖4可知,從訪問量上看,超七成產(chǎn)品的總訪問量達(dá)到了百萬級(jí),其中總訪問量超過二百萬和三百萬的產(chǎn)品約占三成;從日均訪問量上看,約70%的產(chǎn)品日均訪問量在一萬到二十萬之間,僅有10%的產(chǎn)品突破了二十萬大關(guān);從交互量上看,約75%的產(chǎn)品總交互量超過了百萬條,約78%的產(chǎn)品日均交互量超過一萬條;從用戶平均在線時(shí)長(zhǎng)上來看,超五成產(chǎn)品達(dá)到了2分鐘以上,約37%的產(chǎn)品用戶平均在線時(shí)長(zhǎng)不足1分鐘,另外平均在線時(shí)長(zhǎng)超過3分鐘的產(chǎn)品數(shù)約占36%。
4. 建議與反饋
聯(lián)盟通過分析疫情防控機(jī)器人(在線類)的評(píng)測(cè)結(jié)果,結(jié)合終端用戶的實(shí)際需求,提出以下建議:
-
注重信息和答案的真實(shí)性和準(zhǔn)確性:在疫情防控、政策宣貫、信息查詢等場(chǎng)景下,保證數(shù)據(jù)和問題結(jié)果的真實(shí)性極為重要。例如:本次評(píng)測(cè)中發(fā)現(xiàn),各款產(chǎn)品對(duì)“白酒能否替代酒精消毒?”的解答不盡相同,甚至得到相反的答案;
-
確保疫情相關(guān)知識(shí)的豐富性與時(shí)效性:如氣溶膠傳播、SARS-CoV-2等疫情術(shù)語的解釋及核酸檢測(cè)、人工肺等醫(yī)療手段的闡述;
-
適度增加富媒體消息的交互:采用圖文結(jié)合的方式,能更加清晰簡(jiǎn)潔的回復(fù)用戶提出的問題。例如在“如何正確佩戴N95口罩?“問題上,以圖片示意每一步佩戴操作,相對(duì)而言更為明確和具體;
-
適當(dāng)發(fā)起多輪對(duì)話關(guān)聯(lián)上下文語義信息:在人機(jī)對(duì)話過程中以多輪次問答的形式采集用戶信息,幫助用戶明確問題,從而動(dòng)態(tài)且精準(zhǔn)地為用戶解答并推薦相關(guān)問題。









