2015 年 2 月,三名英國少女取道土耳其遠(yuǎn)赴敘利亞,成為「圣戰(zhàn)新娘」。半年后,其中一位少女 Kadiza Sultana 在交戰(zhàn)中喪生。
據(jù)反恐專家估計,當(dāng)時已有約 50 名女子從英國赴敘利亞加入極端組織 ISIS。ISIS 在西方有大批擁躉,其通過 Facebook、Twitter、YouTube 和手機(jī) App 等社交平臺發(fā)布的煽動性極強(qiáng)的宣傳、招募視頻,對極端主義分子具有極大的吸引力。
互聯(lián)網(wǎng)豐富了人們信息溝通的同時,也充斥著大量不良甚至危害性極強(qiáng)的信息,互聯(lián)網(wǎng)的便利條件加速了這類有害信息的傳播速度和傳播范圍。針對互聯(lián)網(wǎng)上存在的涉恐、涉暴、涉黃等有害信息,各國政府在不斷完善法律、制度等約束手段的同時,正在尋求技術(shù)上的解決方案。
極限元則是國內(nèi)首家采用音視頻雙通道檢測技術(shù)實(shí)現(xiàn)互聯(lián)網(wǎng)涉恐、涉暴、涉黃等有害信息監(jiān)測的供應(yīng)商,使用人工智能技術(shù)針對不同數(shù)據(jù)類型進(jìn)行有害信息特征提取,訓(xùn)練檢測識別所需的聲學(xué)、圖像模型,對視頻中的聲音、標(biāo)志物、標(biāo)志性場景等要素進(jìn)行語音與圖像的雙維度檢測,極限元已為相關(guān)部門及需要自檢的互聯(lián)網(wǎng)信息發(fā)布平臺網(wǎng)站提供了這項(xiàng)技術(shù)解決方案。

應(yīng)用于安全領(lǐng)域的語音技術(shù)
與國外互聯(lián)網(wǎng)上頻繁出現(xiàn)的極端主義視頻相比,中國社會的一大頑疾則是電話詐騙。
據(jù)統(tǒng)計,2011-2015 年,全國電信詐騙案數(shù)量從 10 萬增長至 60 萬,飆升 6 倍,每天至少有 14 萬人在進(jìn)行電話詐騙。在被成功詐騙的人群中,中老年人占比 41.32%,而這對正在步入老齡化的社會來說,極為不利。
于 2014 年正式運(yùn)營的極限元由來自華為、搜狗、中科院等企業(yè)、科研機(jī)構(gòu)的語音專家創(chuàng)立,安全領(lǐng)域的語音識別、語音關(guān)鍵詞檢索技術(shù)則是極限元商業(yè)化落地比較成熟的項(xiàng)目。
針對電話詐騙層出不窮的亂象,極限元推出了反電信電話詐騙系統(tǒng),幫助電信運(yùn)營商和地方公安部門有效檢測、識別出詐騙電話及詐騙類型。目前,反電信電話詐騙系統(tǒng)已成功應(yīng)用在全國十幾個省、市、自治區(qū)。
作為三大移動運(yùn)營商和地方公安部門的語音技術(shù)供應(yīng)商,極限元綜合應(yīng)用了語音識別、語音關(guān)鍵詞檢索等技術(shù),推出詐騙電話檢測技術(shù)解決方案。
電信運(yùn)營商會監(jiān)測每天外呼頻次異常的情況,統(tǒng)計外呼頻次過高的主叫電話號碼并抽樣采集部分通話錄音用于自動檢測,詐騙電話監(jiān)測系統(tǒng)會分析錄音數(shù)據(jù),并進(jìn)行指定關(guān)鍵詞檢測,判斷是否滿足各種詐騙類型的匹配條件,對確認(rèn)的詐騙錄音會輸出詐騙類型和告警提示,由相關(guān)部門做進(jìn)一步處理。而目前,極限元的詐騙電話檢測方案能識別包括郵包快遞、社保卡、信用卡等 11 種詐騙類別。
另一個實(shí)際應(yīng)用案例是公安技偵場景,針對技偵部門辦案時需要處理的海量通話錄音,極限元應(yīng)用聲紋識別技術(shù)能找出某個犯罪嫌疑人相關(guān)的所有通話,同樣,極限元也能應(yīng)用戶的要求,通過語音識別技術(shù)找出包含某些敏感關(guān)鍵詞的所有通話。
相比語音助手等其他語音交互相關(guān)應(yīng)用,話務(wù)場景下的識別準(zhǔn)確率更為關(guān)鍵。然而,在電話錄音識別檢測場景中,通話質(zhì)量不佳會導(dǎo)致準(zhǔn)確率下降。通常通話錄音內(nèi)容審核功能的實(shí)現(xiàn)方式普遍為,將通話語音轉(zhuǎn)化為文字,再基于文本信息進(jìn)行關(guān)鍵詞檢索,實(shí)現(xiàn)內(nèi)容審核。極限元則結(jié)合應(yīng)用場景,使用語音關(guān)鍵詞檢索技術(shù),將通話錄音識別結(jié)果輸出音頻檢索網(wǎng)絡(luò),將指定的語音關(guān)鍵詞轉(zhuǎn)換成音素在檢索網(wǎng)絡(luò)中進(jìn)行匹配,輸出檢索結(jié)果。
這種方式不僅繞開了生成文字所需的解碼過程,提高檢索效率,還能避免語音轉(zhuǎn)文字可能帶來的誤差,提高識別準(zhǔn)確率。例如將人名「張珊」轉(zhuǎn)寫成「張山」后就無法準(zhǔn)確的檢索正確的人名,而基于音素的檢索是使用「zhang shan」進(jìn)行匹配,很大概率上可以命中關(guān)鍵詞。盡管由于語音關(guān)鍵詞檢索會造成同音字的誤判,但產(chǎn)生的誤差依然比語音轉(zhuǎn)文字,再進(jìn)行關(guān)鍵詞匹配要小很多,而帶來的準(zhǔn)確率提高和效率提升的優(yōu)勢卻很明顯。對于海量錄音數(shù)據(jù)內(nèi)容審核的應(yīng)用場景,也更為實(shí)用。
極限元聯(lián)合創(chuàng)始人馬驥表示,語音關(guān)鍵詞檢測技術(shù)應(yīng)用場景還有很大的拓展空間,只要能產(chǎn)生大量音頻數(shù)據(jù)的行業(yè)都可以使用音頻審核技術(shù),比如對呼叫中心客服人員的錄音質(zhì)檢、檔案館錄音數(shù)據(jù)的信息檢索等。
在互聯(lián)網(wǎng)有害信息音視頻雙通道檢測方面,除了暴恐類有害音視頻檢測,極限元的技術(shù)還能應(yīng)用至直播平臺及網(wǎng)站、社區(qū)鑒黃工作,向其提供基于云端的 SaaS 平臺接口,省去網(wǎng)站人力檢測所需的高昂成本。
語音與圖像的跨界融合
據(jù)馬驥介紹,或許是語音安全領(lǐng)域?qū)儆谔?xì)分的市場,因而,在目前主流的語音技術(shù)供應(yīng)商中,涉足泛安全領(lǐng)域的并不多。
通過與客戶的不斷合作,極限元積累了自己獨(dú)有的優(yōu)勢——響應(yīng)及時,能夠滿足用戶的定制化需求。然而,在與客戶的一次次接觸中,極限元意識到,客戶的需求往往涉及文字、語音、圖像、視頻中多個數(shù)據(jù)類型,客戶希望采用同一家公司的方案同時解決自身的所有需求。
但是人工智能行業(yè)剛起步,市場上并沒有能夠同時提供智能語音和計算機(jī)視覺解決方案的技術(shù)供應(yīng)商。語音識別公司幾乎沒有涉及圖像識別,而如果圖像識別公司,要跨越到語音行業(yè),也面臨著挑戰(zhàn),首先是語音識別相關(guān)的人才極度匱乏,其次是技術(shù)難度會相對較高。
正是看到了客戶的需求以及這個市場空缺,極限元希望從語音識別跨界到圖像識別,目前,極限元的圖像識別技術(shù)已在泛娛樂領(lǐng)域有所應(yīng)用,比如在直播過程中,識別主播的手勢并佐以特效,實(shí)時檢測視頻中的二維碼廣告并判斷進(jìn)行屏蔽還是推薦導(dǎo)流。上文提到的互聯(lián)網(wǎng)有害信息的音視頻雙通道檢測方案,也是語音和圖像技術(shù)的綜合應(yīng)用成功案例。

技術(shù)升級:實(shí)時識別是語音檢測的未來
目前,極限元與客戶的合作,是先錄音后檢測,對呼叫中心來說,不能及時響應(yīng)客戶訴求或?qū)嵤┪C(jī)干預(yù),對公安機(jī)關(guān)而言,這對抓捕不法分子等后續(xù)環(huán)節(jié)造成了時間上的滯后。因此,極限元希望將技術(shù)改良為實(shí)時通話檢測。但在實(shí)操環(huán)境下,檢測處理時間有限,傳輸音頻帶寬消耗大,而且語音安全行業(yè)數(shù)據(jù)并發(fā)量很高,這都是實(shí)時處理必須面臨的阻礙。
極限元的解決辦法是繞過帶寬瓶頸,直接將其實(shí)時方案部署到客戶的主機(jī)上。然而,這又會帶來另外一個問題,客戶的錄音采集服務(wù)器普遍只能支持音頻的轉(zhuǎn)碼解碼的需求,極限元若想將其機(jī)器學(xué)習(xí)解決方案集成至客戶方,則需要客戶的設(shè)備擁有加載幾百 G 的機(jī)器學(xué)習(xí)模型的能力,客戶以及客戶的設(shè)備供應(yīng)商都需要做出改變。
而在技術(shù)的實(shí)現(xiàn)層面,實(shí)時檢測也與當(dāng)前的存量錄音檢測有著本質(zhì)上的區(qū)別。實(shí)時檢測考驗(yàn)極限元的「當(dāng)前識別+記憶修正」的語義理解能力,即如何動態(tài)合理地優(yōu)化緩存空間。在實(shí)時對話中,很有可能前 5 秒的對話表達(dá)一個意思,結(jié)合后 5 秒之后,表達(dá)意思就完全不同。這需要機(jī)器在理解一句話時,具備綜合考慮,甚至是理解兩三句話之前某句話的能力。
另一方面,由于有著巨大的數(shù)據(jù)量,通過存量錄音檢測的方式,不需要對場景進(jìn)行精細(xì)分析,只需匹配關(guān)鍵音素即可。實(shí)時檢測則不同,實(shí)時發(fā)生的對話意味著極少的已知信息,因此在監(jiān)測過程中需要對場景進(jìn)行分析,理解上下文。這需要極限元放棄音素識別法,在通用的語音轉(zhuǎn)文字匹配關(guān)鍵詞并進(jìn)行語義理解層面繼續(xù)打磨。而且對于存量錄音檢測,極限元能夠?qū)σ纛l進(jìn)行降噪和格式處理,而在實(shí)時檢測中,這些功能的實(shí)現(xiàn)也提出了更高的技術(shù)要求。
馬驥介紹,目前,極限元正在攻克以上難關(guān),同時,馬驥認(rèn)為,攻克難關(guān)還不夠,做音頻技術(shù)的解決方案,一定要結(jié)合用戶現(xiàn)場數(shù)據(jù)。他說,「在實(shí)驗(yàn)室攻關(guān)成功,并不意味著到用戶現(xiàn)場就一定好用,我們還需要結(jié)合用戶數(shù)據(jù)進(jìn)行優(yōu)化。」而這正是他們的努力方向。
此外,除了安全領(lǐng)域中一些智能語音技術(shù)的成功應(yīng)用,極限元還是國內(nèi)為數(shù)不多幾家可以提供語音合成定制化服務(wù)的公司,從錄音人選型、錄音采集、語料標(biāo)注、模型訓(xùn)練,到合成引擎優(yōu)化、跨平臺移植開發(fā)等語音合成個性化音庫定制開發(fā)全流程,為用戶提供個性化的發(fā)音人音庫定制開發(fā)服務(wù),相關(guān)技術(shù)已成功應(yīng)用于搜狗、360 的多款智能軟、硬件產(chǎn)品中。成熟的語音合成定制化解決方案為極限元帶來了穩(wěn)定的銷售收入。









