騰訊科技訊 12月17日,由鵬城實(shí)驗(yàn)室、新一代人工智能產(chǎn)業(yè)技術(shù)創(chuàng)新戰(zhàn)略聯(lián)盟共同舉辦的“新一代人工智能院士高峰論壇”在深圳舉行。論壇匯聚了國(guó)內(nèi)人工智能領(lǐng)域頂尖專(zhuān)家,共同探討行業(yè)變革與技術(shù)創(chuàng)新,探尋AI邊界,是人工智能領(lǐng)域最值得關(guān)注的年度盛會(huì)之一。
騰訊Robotics X實(shí)驗(yàn)室主任張正友在論壇上發(fā)表題為《人工智能和智能機(jī)器人》的演講,闡述了人工智能和機(jī)器人的發(fā)展趨勢(shì)及技術(shù)突破點(diǎn)等問(wèn)題。張正友博士是ACM Fellow(國(guó)際計(jì)算機(jī)學(xué)會(huì)院士)和 IEEE Fellow(國(guó)際電氣電子工程師學(xué)會(huì)院士),是世界著名的計(jì)算機(jī)視覺(jué)和多媒體技術(shù)的專(zhuān)家,于2018年3月加入騰訊,擔(dān)任騰訊機(jī)器人實(shí)驗(yàn)室“Robotics X”主任,負(fù)責(zé)整個(gè)實(shí)驗(yàn)室的籌備、管理與運(yùn)營(yíng)。
以下為張正友博士演講實(shí)錄:
各位領(lǐng)導(dǎo)、各位院士、各位同學(xué),大家好!首先感謝高文老師邀請(qǐng),給我一個(gè)機(jī)會(huì)跟大家分享一下我對(duì)人工智能和智能機(jī)器人的一些想法。
在此之前我想介紹一下我自己,因?yàn)槲沂亲罱呕氐絿?guó)內(nèi)的,我從1986年就離開(kāi)了祖國(guó)。我是1985年從浙大畢業(yè)的,當(dāng)時(shí)第一次接觸計(jì)算機(jī),用的是大型計(jì)算機(jī),可能大家都沒(méi)用過(guò),我當(dāng)時(shí)用的是打孔的卡片,和電腦交互。畢業(yè)以后就去了法國(guó),在法國(guó)之后用的電腦就越來(lái)越小,剛開(kāi)始我學(xué)的是語(yǔ)音識(shí)別,后面轉(zhuǎn)到計(jì)算機(jī)視覺(jué),當(dāng)時(shí)覺(jué)得語(yǔ)音識(shí)別太簡(jiǎn)單了,只是一維信號(hào),所以開(kāi)始做立體視覺(jué)。我參與開(kāi)發(fā)了世界上第一個(gè)用三維視覺(jué)做導(dǎo)航的的移動(dòng)機(jī)器人。然后我還參與了歐洲Mars Rover,也就是航天機(jī)器人,還有海底機(jī)器人。在法國(guó)十幾年之后,我去了日本,在日本待了一年,開(kāi)發(fā)了世界上第一個(gè)用人工神經(jīng)網(wǎng)絡(luò)做人臉表情識(shí)別的系統(tǒng)。1998年加入了微軟研究院,在微軟工作了20年,開(kāi)發(fā)了“張氏標(biāo)定法”,就是攝像機(jī)標(biāo)定的方法,現(xiàn)在全世界都在用這個(gè)方法,無(wú)論是無(wú)人駕駛、機(jī)器人還是視覺(jué)方面都在使用。我也參與開(kāi)發(fā)了Kinect深度傳感器,還有遠(yuǎn)程呈現(xiàn)機(jī)器人的研究工作。我介紹這些,主要是講我為什么有現(xiàn)在的這些想法,這是和我的經(jīng)歷有關(guān)系的。
下面我講一下人工智能,人工智能是一個(gè)多學(xué)科的交叉研究,現(xiàn)在大家可能都覺(jué)得人工智能都是和計(jì)算機(jī)有關(guān),其實(shí)它是和腦神經(jīng)學(xué)、認(rèn)知科學(xué)、社會(huì)科學(xué)有緊密關(guān)系的,它主要的目的是模擬包括識(shí)別、分析、認(rèn)知和決策等等方面的智能。
人工智能技術(shù)是有很多層次的,從基礎(chǔ)設(shè)施到硬件計(jì)算能力、算法、技術(shù)方向,包括計(jì)算機(jī)視覺(jué)、語(yǔ)音處理、語(yǔ)言處理等等,到最后運(yùn)用到具體的技術(shù),解決行業(yè)的各個(gè)問(wèn)題。
人工智能技術(shù)其實(shí)已經(jīng)發(fā)展了好多年,從最開(kāi)始基于規(guī)則,慢慢的基于統(tǒng)計(jì),現(xiàn)在開(kāi)始做一些數(shù)據(jù)方面的研究,應(yīng)用也是很多的。
人工智能經(jīng)過(guò)幾個(gè)高潮和低潮,現(xiàn)在火起來(lái)了,這里面很大的原因就是深度學(xué)習(xí),深度學(xué)習(xí)讓我們的識(shí)別率在很多方面得到很大提高,超出了我們?cè)趯?shí)際應(yīng)用中需要的精確度。比方說(shuō)以前很長(zhǎng)時(shí)間,語(yǔ)音識(shí)別可能只達(dá)到77%,現(xiàn)在已經(jīng)能達(dá)到97%了,其實(shí)是可以用了。所以催生了很多公司,包括大公司和小公司,還有創(chuàng)業(yè)的很多公司。這里我列了一些國(guó)內(nèi)的公司。
騰訊有一個(gè)騰訊AI開(kāi)放平臺(tái),網(wǎng)址是AI.qq.com,它依托騰訊的三個(gè)實(shí)驗(yàn)室,一個(gè)是騰訊AI實(shí)驗(yàn)室,一個(gè)微信AI實(shí)驗(yàn)室,還有一個(gè)優(yōu)圖實(shí)驗(yàn)室。我加入騰訊創(chuàng)建了一個(gè)機(jī)器人實(shí)驗(yàn)室,目前還沒(méi)有技術(shù)可以用到AI平臺(tái)上。現(xiàn)在騰訊AI平臺(tái)已經(jīng)開(kāi)放了100多項(xiàng)AI能力的接口,大家需要的話(huà)可以去試一試,歡迎大家使用。
下面就回到我今天要講的主題,我加入騰訊就是想創(chuàng)建機(jī)器人實(shí)驗(yàn)室,為什么我要參與這項(xiàng)工作?因?yàn)槲矣X(jué)得我們?cè)诓痪玫膶?lái)要進(jìn)入到人與機(jī)器人共生的時(shí)代。為什么我這樣講?剛才我講了好多方面,一是從計(jì)算的演變,計(jì)算從最初的大型計(jì)算機(jī)到PC的普及,到互聯(lián)網(wǎng)的興起,到智能手機(jī)的普及,到現(xiàn)在可穿戴式或者陪伴的設(shè)備的涌現(xiàn),這些都說(shuō)明了這個(gè)計(jì)算能力從最初的固定的時(shí)間、固定的程序、固定的地方慢慢變得移動(dòng)化、無(wú)處不在,還有連續(xù)化,你隨時(shí)隨地可以拿到你要的信息。另外計(jì)算也變得非常個(gè)人化,無(wú)論是GPS還是信息,都是在你的手機(jī)、PC上,得到無(wú)微不至的關(guān)注。
另外從感知技術(shù)上看,剛才講到我最早用的是打孔的卡片,慢慢有了鍵盤(pán)、鼠標(biāo),后面又有了攝像頭、觸摸器等等。現(xiàn)在我們的智能手機(jī)上有很多的傳感器,除了攝像頭麥克風(fēng)以外,還有很多其它的傳感器,現(xiàn)在設(shè)備變得越來(lái)越主動(dòng)、個(gè)人化和多模態(tài)。但是我們現(xiàn)在還沒(méi)有充分地把這些感知技術(shù)用起來(lái),我們大部分人都是把手機(jī)放在口袋里的,女士可能都是放在包里的,這些就是我們的技術(shù)還沒(méi)有得到充分的應(yīng)用,所以我認(rèn)為我們應(yīng)該把這些傳感器從口袋里面或者是從女士的包里面解放出來(lái),這是我們以后需要追求的機(jī)器人的方向,就是要從非常發(fā)達(dá)的感知技術(shù)里面把這些能力用起來(lái)。所以我覺(jué)得隨著技術(shù)發(fā)展和感知技術(shù)發(fā)展,機(jī)器人必然會(huì)出現(xiàn),但是目前還不夠,所以我們還要繼續(xù)研發(fā)。
接下來(lái)講一下機(jī)器人的現(xiàn)在與未來(lái)�?梢园褭C(jī)器人分成6個(gè)部分,第一部分是機(jī)器人本體,可能很多人都忘記了,說(shuō)到人工智能,人家都以為就是一個(gè)算法就夠了,但是它還要一個(gè)本體,這樣才能實(shí)現(xiàn)真正的智能,本體就包括它的手臂、腿等等。第二是感知,因?yàn)闄C(jī)器人需要了解周?chē)沫h(huán)境,才能做決策。第三是執(zhí)行器,如果沒(méi)有執(zhí)行器的話(huà),機(jī)器人本體動(dòng)不起來(lái)。第四是動(dòng)力系統(tǒng),第五是交互系統(tǒng),機(jī)器人需要跟機(jī)器人交互,還需要和人交互,所以交互系統(tǒng)也是非常重要的。第六是決策,機(jī)器人要識(shí)別、規(guī)劃,還要學(xué)習(xí)。
講到機(jī)器人,大家都會(huì)想機(jī)器人很早就存在了,以前我們講的是工業(yè)機(jī)器人,它更多的是有關(guān)自動(dòng)化的,預(yù)先設(shè)計(jì)好了之后做重復(fù)的運(yùn)動(dòng)�,F(xiàn)在我們開(kāi)始慢慢往自主方向發(fā)展,自主的目的就是要在有很大不定性的動(dòng)態(tài)的環(huán)境里面,它要自主地決策需要做的事情,然后完成任務(wù)。
我們把自主分成兩部分,一部分是反應(yīng)式自主,它不需要很多深度思考,比方說(shuō)我們走路的時(shí)候可能絆了一跤,我們很快獲得平衡,或者是機(jī)器你踹它一腳,它馬上獲得平衡,這是反應(yīng)式自主。第二個(gè)是有意識(shí)的自主,需要你決策路徑,比如機(jī)器狗遇到門(mén),回去規(guī)劃一個(gè)開(kāi)門(mén)動(dòng)作。
怎么實(shí)現(xiàn)這兩種自主呢?我用了一個(gè)叫做SLAP的范式來(lái)描述它,這是講一個(gè)機(jī)器人的架構(gòu)。SLAP是什么意思呢?就是感知Sense和行動(dòng)Act之間要緊密結(jié)合,它幫助我們實(shí)現(xiàn)了反應(yīng)式的自主,然后在這上面有一個(gè)Plan,它是做規(guī)劃的,這個(gè)規(guī)劃是幫助我們?nèi)?shí)現(xiàn)有意識(shí)的自主,在這個(gè)周?chē)覀冃枰硗庖粋(gè)能力,就是Learn,我等會(huì)兒還會(huì)繼續(xù)強(qiáng)調(diào),機(jī)器人需要通過(guò)和外界交互,通過(guò)學(xué)習(xí),不斷地提升自己的能力。
當(dāng)你有了智能以后,機(jī)器人就可以在很多場(chǎng)景里面,比方說(shuō)在智能制造、老年陪伴等等很多方面都有應(yīng)用。
機(jī)器人本體目前有6個(gè)趨勢(shì),第一個(gè)是仿生的機(jī)器人,比如說(shuō)蛇形機(jī)器人,它可以進(jìn)入到比較復(fù)雜的環(huán)境里面,比方說(shuō)在地震或者其它環(huán)境里面搜尋有沒(méi)有人還活著。第二是靈巧的操控,第三個(gè)是觸覺(jué)技術(shù),第四個(gè)是多機(jī)器人協(xié)同,第五個(gè)是人機(jī)交互,包括安全交互和物理交互,第六是醫(yī)療輔助。
剛才講到,我認(rèn)為我們?cè)诓痪玫膶?lái)能夠進(jìn)入到人和機(jī)器人共生的時(shí)代,但是目前的技術(shù)還沒(méi)到那個(gè)地步,所以無(wú)論是在工業(yè)界還是學(xué)術(shù)界,都需要努力地做更多的研發(fā)。我認(rèn)為機(jī)器人領(lǐng)域有一些技術(shù)需要突破,才能使得機(jī)器人真正能夠?yàn)槿朔⻊?wù)。
我把需要的機(jī)器人技術(shù)突破點(diǎn)總結(jié)成A2G理論。A2G是什么理論呢?就是ABCDEFG剛好對(duì)應(yīng)了英文的幾個(gè)字母,A代表的是AI,B是body,C是Control,D是Developmental,發(fā)育學(xué)習(xí),E是EQ,F(xiàn)是FlexibleManipulation,G是Guardian Angel。A、B、C是代表了人工智能的基礎(chǔ)能力,D、E、F、G是相當(dāng)于它們需要更高的智能或者是系統(tǒng)。
A就是AI(智能),因?yàn)闄C(jī)器人必須要能看、能說(shuō)、能聽(tīng),能夠理解,這樣才能跟外界交互,能夠?qū)崿F(xiàn)它要做的事情。B是Body(本體),這是非常重要的,不同的本體決定了機(jī)器人的能力,比方說(shuō)剛才講的蛇形機(jī)器人,它能夠穿過(guò)很狹窄的通道,到一個(gè)很復(fù)雜的環(huán)境,所以本體也是需要研究的,C是Control(控制)。這些是比較清楚的需要繼續(xù)努力的方向。
我剛到騰訊的時(shí)間不長(zhǎng),現(xiàn)在我做了三個(gè)機(jī)器人,是為騰訊新大樓的展廳做的,第一個(gè)是絕藝圍棋機(jī)器人,第二是桌上冰球機(jī)器人,第三是一個(gè)機(jī)器狗。大家知道騰訊AI做了一個(gè)絕藝圍棋AI,但是無(wú)論是絕藝還是AlphaGo,都需要有一個(gè)人去下子,絕藝告訴一個(gè)人應(yīng)該下哪個(gè)子,他就去下那個(gè)子。我們現(xiàn)在加了一個(gè)機(jī)械臂,它自動(dòng)去完成下子的任務(wù),這是從本體來(lái)做的。從感知角度來(lái)講,它要做一個(gè)棋盤(pán)和機(jī)械臂之間的標(biāo)定,絕藝要通過(guò)后臺(tái)通訊,知道要下哪一步,控制方面就是機(jī)械臂的軌跡控制。桌上冰球的機(jī)器人,它的感知是一個(gè)高速的攝像頭,它能夠高速的跟蹤冰球的位置,然后預(yù)測(cè)下一步這個(gè)冰球在什么地方出現(xiàn),它有一個(gè)決策,就是到底采用攻擊的方法還是防衛(wèi)的方法,控制就是路徑規(guī)劃和快速控制。機(jī)器狗的本體是我們和浙大合作的,這個(gè)感知系統(tǒng)是我們自己做的,感知系統(tǒng)能夠識(shí)別不同的場(chǎng)景和地面,能夠避開(kāi)固定的或者動(dòng)態(tài)的障礙物,控制方面就是針對(duì)不同的場(chǎng)景,它能夠有不同的步態(tài)和平衡控制。
下面給大家看一下幾個(gè)短視頻,這是絕藝機(jī)器人,我們目前是用觸摸屏來(lái)完成跟絕藝的交互。當(dāng)一個(gè)人下了子之后,機(jī)械臂就通過(guò)和后臺(tái)通訊,知道應(yīng)該下哪一個(gè)子,然后機(jī)械臂就移過(guò)去,它同時(shí)可以跟兩個(gè)人下,理論上它可以跟很多人同時(shí)下棋。
第二個(gè)是冰球機(jī)器人,它可以高速地跟蹤冰球的位置,它有一個(gè)綠色的線(xiàn)是在做預(yù)測(cè),它應(yīng)該在什么時(shí)候出現(xiàn),它會(huì)在需要的位置做出反應(yīng)。
第三個(gè)是機(jī)器狗,它有一個(gè)三維傳感器,同時(shí)周?chē)兴膫(gè)廣角的攝像頭,前面還有一個(gè)立體的視覺(jué)系統(tǒng),當(dāng)看到前面有一個(gè)比較高的障礙物,它能夠匍匐前進(jìn)。當(dāng)看到前面有人的話(huà),它會(huì)蹲下來(lái)跟人交互。這只是簡(jiǎn)單的幾個(gè)系統(tǒng),是最近我們做的,大家下次有機(jī)會(huì)參觀(guān)騰訊的展廳的時(shí)候,可以去跟這些機(jī)器人互動(dòng)一下。
我們對(duì)機(jī)器人ABC的評(píng)估標(biāo)準(zhǔn),要從力量、靈巧、快速、準(zhǔn)確和優(yōu)美的角度評(píng)估這些機(jī)器人的能力。
這里還想講一下本體,因?yàn)闄C(jī)器人領(lǐng)域里面很多人都強(qiáng)調(diào)是人形機(jī)器人,對(duì)這個(gè)問(wèn)題我有一點(diǎn)思考,人形機(jī)器人是不是我們需要追求的機(jī)器人的目標(biāo)?人之所以有直立雙足,是經(jīng)過(guò)幾百萬(wàn)年演化出來(lái)的,是要在荒野里面、大草原里面為了生存下來(lái),所以我們有了直立雙足,但是目前機(jī)器人的生存環(huán)境,大部分情況下都是一個(gè)平的地方,再加上幾個(gè)臺(tái)階,所以我們現(xiàn)在去研究機(jī)器人,不一定是一個(gè)人形機(jī)器人,而是應(yīng)該思考什么樣的最佳的機(jī)器人本體,在現(xiàn)在的環(huán)境里面要去實(shí)現(xiàn)你需要的任務(wù)。
下面就講一下D—G。D是進(jìn)化學(xué)習(xí),目前盡管人家說(shuō)我這個(gè)機(jī)器人是通過(guò)深度學(xué)習(xí)出來(lái)的,但是學(xué)習(xí)出來(lái)的能力還是固定的,放到一個(gè)機(jī)器人身上,它永遠(yuǎn)是這樣的,但是我們?nèi)藦某錾_(kāi)始就跟父母、跟周?chē)私换ィ芰υ絹?lái)越強(qiáng)大,所以我們?cè)趺醋寵C(jī)器人也具備進(jìn)化的能力,這是我們需要研究的。E是EQ,因?yàn)槿撕蜋C(jī)器人是要共存的,它必須對(duì)人有一個(gè)深刻的理解,包括感情的理解,同時(shí)要用適當(dāng)?shù)姆绞桨堰@個(gè)感情表達(dá)出來(lái),讓人理解,所以情感交互是非常重要的。F是靈活操控,我們看到電視、電影里面都是高科技的鋼盔鐵甲的機(jī)器人,但是在人和機(jī)器人共存的時(shí)代,這些機(jī)器人往往對(duì)人造成傷害,所以我們要研發(fā)不會(huì)對(duì)人造成傷害的機(jī)器人,所以這里面有人造皮膚,或者是高精度觸感的傳感器,這樣能夠靈活操控。G是Guardian Angel(守護(hù)天使),機(jī)器人最終的目的是要服務(wù)人、保護(hù)人,不能把它當(dāng)做一個(gè)獨(dú)立的個(gè)體,它應(yīng)該跟周?chē)沫h(huán)境和周?chē)膫鞲衅鹘Y(jié)合,同時(shí)還要和云結(jié)合,這樣即使你的家庭成員或者朋友不在邊上,你也能夠很快地跟他們?nèi)〉酶星榈慕涣鳌?/div>
這是我們用于進(jìn)化學(xué)習(xí)研究的一個(gè)機(jī)器人。我們這個(gè)實(shí)驗(yàn)室的目的就是要為人機(jī)共存、共創(chuàng)和共贏的未來(lái)準(zhǔn)備的,這里面包括了增強(qiáng)人的智力、關(guān)懷人的情感,發(fā)揮體能的潛力,還有推進(jìn)人機(jī)協(xié)作。
前面講了很多人工智能和智能機(jī)器人,現(xiàn)在我要給大家潑點(diǎn)冷水,人工智能和機(jī)器人還有很長(zhǎng)的路要走,現(xiàn)在僅僅是人工智能和機(jī)器人的初春。初春這個(gè)描述還是比較符合實(shí)際的,一是我們的路還很長(zhǎng),二是初春會(huì)有寒流襲擊,我們需要有所準(zhǔn)備。
舉個(gè)例子,幾周前在寧波街頭的一個(gè)街頭的系統(tǒng)識(shí)別到“董明珠過(guò)馬路闖紅燈了”。但事實(shí)上董明珠并不在那邊,而是卡車(chē)的車(chē)身廣告上有董明珠頭像的廣告,公交車(chē)從旁邊經(jīng)過(guò),識(shí)別系統(tǒng)發(fā)現(xiàn)了,認(rèn)為是董明珠闖紅燈了,這說(shuō)明它的識(shí)別率是很高的,認(rèn)出了這個(gè)圖片是董明珠,但是也說(shuō)明它是很傻的,它不知道這個(gè)不是真人�,F(xiàn)在很多東西都非常單一,不接地氣,在研究領(lǐng)域我們叫g(shù)rounding,這里面還有很多的工作要做,這是從計(jì)算機(jī)視覺(jué)方面舉的一個(gè)例子。
第二個(gè)例子是自然語(yǔ)言的,“前門(mén)到了,請(qǐng)從后門(mén)下車(chē)”,我們都明白,但是我不知道這個(gè)自然語(yǔ)言理解對(duì)不對(duì),我用翻譯的方式去看它理解的對(duì)不對(duì)。我們用谷歌翻譯得到的是“Whenthe front door arrives, please get off the back door”。它的翻譯顯然是錯(cuò)的。一是“front door”一般不會(huì)“arrive”,二是這里的前門(mén)不是“front door”。我覺(jué)得可能谷歌不懂中國(guó)的國(guó)情,所以我用了百度的翻譯,它還是翻譯成“Front Door”,所以百度對(duì)中國(guó)還是不了解。我想可能是我的語(yǔ)法不對(duì),我改成了“前門(mén)車(chē)站到了,請(qǐng)從后門(mén)下車(chē)”,百度的翻譯仍然不對(duì),這是人工智能語(yǔ)音方面的。自然語(yǔ)言也需要grounding。
還有機(jī)器人方面的例子,大家知道有一個(gè)叫索菲亞的機(jī)器人,據(jù)說(shuō)被沙特阿拉伯授予他們的公民,他們說(shuō)可以和人交互,但是它還遠(yuǎn)遠(yuǎn)達(dá)不到這樣的水平,它的對(duì)話(huà)都是通過(guò)預(yù)先設(shè)計(jì)好的場(chǎng)景來(lái)對(duì)話(huà)的。人家說(shuō)人工智能會(huì)消滅人類(lèi),我已經(jīng)從事了30多年的人工智能研究,我覺(jué)得是不用擔(dān)心的。
但是確實(shí)人工智能已經(jīng)發(fā)展了很多,有很多應(yīng)用的地方,所以我們需要繼續(xù)往前推進(jìn)人工智能的應(yīng)用。但是也要繼續(xù)投入更多的研究,無(wú)論是視覺(jué)、語(yǔ)音還是自然語(yǔ)言,或者是機(jī)器人,還有認(rèn)知等等,都需要繼續(xù)努力,不光是應(yīng)用,還要有基礎(chǔ)的研究,所以我覺(jué)得有鵬城實(shí)驗(yàn)室這樣一個(gè)平臺(tái)是非常好的。我也非常樂(lè)意回到祖國(guó),和大家一起為人工智能的發(fā)展貢獻(xiàn)我自己的一份力量。謝謝大家!









