導(dǎo)讀:
根據(jù)2019年世界衛(wèi)生組織(WHO)估計(jì),全世界有盲人約4000萬—4500萬;其中中國盲人數(shù)量最多,達(dá)到500萬。雖然他們只占全球77億人中的0.58%,但他們與其他處于貧窮饑餓中的人一樣極其需要幫助。
近日,由微軟研究院首席研究員 Ed Cutrell 和微軟劍橋研究院高級研究員 Cecily Morrison 共同發(fā)起的Project Tokyo中,研究員們計(jì)劃讓AI結(jié)合HoloLens MR眼鏡,成為視障人士的眼睛。
12歲的失明男孩 Theo 坐在廚房的一張桌子旁。他戴著微軟 HoloLens 左右轉(zhuǎn)動(dòng)頭部,攝像機(jī)、深度傳感器和揚(yáng)聲器環(huán)繞著他的沙棕色頭發(fā)。
當(dāng)他面朝微軟劍橋研究院高級研究軟件開發(fā)工程師 Martin Grayson 時(shí),Theo 聽到一聲提示音,“Martin”從他耳朵上方響起來。
“Martin,”西奧笑了,“它用五秒讓我認(rèn)出了你。” Martin 站在一個(gè)齊膝高的黑箱旁,其中的計(jì)算硬件正支持著 Theo 使用的機(jī)器學(xué)習(xí)模型的運(yùn)行。
Theo 再次轉(zhuǎn)動(dòng)頭部,又一個(gè)名字響起來,“Tim”。
“Tim,你在那里!” Theo 高興地“看”向 Tim Regan,他是微軟劍橋研究院的高級研究軟件開發(fā)工程師,同時(shí)也是 Theo 的編程老師,每兩個(gè)月,Theo 都會(huì)去 Regan 家中學(xué)習(xí)編程課程。Regan 此前在研究項(xiàng)目 Code Jumper 中認(rèn)識了這個(gè)失明的男孩,Code Jumper 是專門為視障兒童開發(fā)的物理編程語言,用一種可觸摸的方式,讓對計(jì)算機(jī)科學(xué)感興趣、但視力上有困難的孩子們體驗(yàn)編程的樂趣。
他們正在進(jìn)行的項(xiàng)目 Project Tokyo 希望為人類定制智能個(gè)人代理,用 AI 技術(shù)來延伸人們能力的界限。對長期身處黑暗與未知的 Theo 來說,能夠?qū)崟r(shí)地“認(rèn)出”周圍的人們,是一種非常新奇的體驗(yàn)?!安粌H僅是說話的人,那些沒有說話的人,我從來不知道他們是誰、在哪兒。AI 技術(shù)讓我能用這種特別的方式感知到他們的存在。”
Project Tokyo 有著更長遠(yuǎn)的研究愿景——構(gòu)建能夠擴(kuò)展所有用戶能力的智能個(gè)人代理,不僅僅是能夠完成特定任務(wù)的端到端的系統(tǒng),而是構(gòu)建一個(gè)能自適應(yīng)每一個(gè)人的不同需求的 AI 服務(wù)系統(tǒng)。
微軟劍橋研究院高級研究軟件開發(fā)工程師 Martin Grayson(左)和微軟研究院高級研究員 Cecily Morrison(右)正在進(jìn)行測試
源自巴西殘奧會(huì)的靈感
Project Tokyo 誕生于2016年,由微軟研究院首席研究員 Ed Cutrell 和微軟劍橋研究院高級研究員 Cecily Morrison 共同發(fā)起,他們此前都有與盲人和弱視群體一起設(shè)計(jì)技術(shù)的經(jīng)歷,因此決定從視障群體入手,看看智能個(gè)人代理能如何幫助他們增強(qiáng)和擴(kuò)展能力?!耙曊先后w往往是新技術(shù)的早期采用者,是非常好的合作對象,” Cecily Morrison 說,“我們一起想象未來關(guān)于人工智能的新體驗(yàn)?!?/span>
在前期調(diào)研中,他們跟隨一群參加巴西殘奧會(huì)的運(yùn)動(dòng)員和觀眾,從英國出發(fā)前往里約熱內(nèi)盧,觀察他們在機(jī)場、運(yùn)動(dòng)場館、觀光游覽等種種活動(dòng)中,如何與他人進(jìn)行互動(dòng)。Cutrell 注意到,“我們?nèi)祟悓θ绾闻c人互動(dòng)有非常細(xì)致和詳盡的社會(huì)理解——了解周圍是誰,他們在做什么,與我的關(guān)系是什么,但對于盲人來說,這些我們認(rèn)為理所當(dāng)然的線索都消失了?!?/span>
研究團(tuán)隊(duì)與盲人和弱視社區(qū)一起舉辦了一系列研討會(huì),來探討有哪些潛在的技術(shù)能夠?yàn)樗麄兏淖冞@一點(diǎn)。參與者中,有一位50多歲的盲人音頻工程師 Peter Bosher 提到一個(gè)常見的場景,“當(dāng)兩三個(gè)以上的人共處一室,人們會(huì)開始用眼神交流和肢體語言來表示‘我在和這個(gè)人或者那個(gè)人說話’,這一點(diǎn)對盲人來說真的非常困難?!?/span>
因此他提出,有沒有一種技術(shù)能夠?yàn)槊と颂峁┧麄冎車娜说男畔ⅲ窟@一想法立刻引發(fā)了大家的共鳴。
微軟研究院首席研究員 Ed Cutrell 與項(xiàng)目中經(jīng)過改裝的 HoloLens 設(shè)備
HoloLens 的進(jìn)化
明確了 Project Tokyo 想要?jiǎng)?chuàng)造什么樣的 AI 體驗(yàn),研究團(tuán)隊(duì)以微軟混合現(xiàn)實(shí)眼鏡 HoloLens 為基礎(chǔ)構(gòu)建 AI 技術(shù)。
HoloLens 能將全息圖投影到用戶可操縱的真實(shí)世界中,為構(gòu)建與環(huán)境實(shí)時(shí)交互的 AI 代理提供了非常好的基礎(chǔ)。HoloLens 的灰度相機(jī)陣列可提供接近180度的環(huán)境視角,它的高分辨率彩色相機(jī)能夠高精度地進(jìn)行面部識別,而位于用戶耳朵上方的揚(yáng)聲器能夠提供空間感極其真實(shí)的音頻,讓聲音從特定的方位響起。
研究團(tuán)隊(duì)中的機(jī)器學(xué)習(xí)專家開發(fā)了一系列計(jì)算機(jī)視覺算法來識別環(huán)境中不同人的位置信息。其中一個(gè)模型用于檢測環(huán)境中人的姿勢,計(jì)算他們相對于用戶的位置和距離,另一個(gè)則能夠分析高分辨率相機(jī)拍攝的照片流,來識別和匹配照片中的人物是誰。隨后這些信息將通過音頻提示告訴用戶。
比如,如果設(shè)備在用戶左側(cè)一米遠(yuǎn)處檢測到朋友 A,用戶左耳將聽到咔嗒聲,聽起來像是來自左側(cè)一米遠(yuǎn)處。用戶想知道這個(gè)人是誰,一個(gè)嗡嗡的音效會(huì)將用戶的視線引向 A 所在的方位。當(dāng) HoloLens 的中央攝像頭對準(zhǔn)了 A 的臉部,用戶會(huì)聽到一個(gè)尖銳的咔噠聲提示用戶已經(jīng)面朝 A 了。如果系統(tǒng)識別出了 A,就會(huì)為用戶念出 A 的名字。
作為音頻工程師,Peter Bosher 在項(xiàng)目早期參與了音頻體驗(yàn)的部分,“我特別喜歡這個(gè)工具為失明的我們帶來的這種‘凝視’的感覺,它能讓我們有一些肢體語言上的溝通。”
盲人音頻工程師 Peter Bosher(中)在微軟劍橋研究院查看系統(tǒng)的最新版本
與視障社區(qū)一起制作原型
隨著研究團(tuán)隊(duì)對技術(shù)的開發(fā),研究人員開始進(jìn)一步與視障社區(qū)合作,邀請盲人或視力不佳的成年人來親身體驗(yàn)和測試這項(xiàng)技術(shù),提供真實(shí)的反饋信息。
有幾位用戶認(rèn)為不停地轉(zhuǎn)動(dòng)頭部讓人感到很尷尬,希望能在頭部固定的情況下輕松地獲取系統(tǒng)收集的信息。這些反饋又使研究團(tuán)隊(duì)開發(fā)了更多功能,比如在用戶頭部固定時(shí),系統(tǒng)能用具有空間感的聲音,對辨認(rèn)出的所有人作一個(gè)概述。
如果我們感受到他人的視線,我們會(huì)從眼神交流開始自然地和對方展開交談。研究團(tuán)隊(duì)據(jù)此研發(fā)了另一個(gè)實(shí)驗(yàn)性的功能,當(dāng)環(huán)境中的某個(gè)人看向用戶時(shí),系統(tǒng)會(huì)在那個(gè)方向發(fā)出提示音,但這個(gè)提示音后不會(huì)出現(xiàn)對方的名字。
“不給出名字會(huì)讓你將注意力轉(zhuǎn)向那個(gè)試圖引起你注意的人,將頭轉(zhuǎn)向他們,而當(dāng)你直視對方時(shí),系統(tǒng)會(huì)告訴你他的名字?!?span> Grayson 向一位體驗(yàn)者解釋這個(gè)細(xì)微的設(shè)計(jì)。
“我完全同意這一點(diǎn),視力健全的人就是這樣反應(yīng)的。他們從眼角捕捉到某個(gè)人,然后轉(zhuǎn)過頭去叫他們的名字?!边@位體驗(yàn)者說。
經(jīng)過改進(jìn)的 HoloLens,攝像頭上方還裝有一個(gè) LED 燈帶,白色表示正在追蹤接近用戶的人,綠色代表已為用戶識別這個(gè)人。這個(gè)功能可讓與用戶交流的朋友知道他們已經(jīng)被“看見”了,使交流更加自然,也能讓他們自由地選擇進(jìn)入和移出設(shè)備的視野。社會(huì)互動(dòng)
隨著研究的深入,研究團(tuán)隊(duì)發(fā)現(xiàn),這項(xiàng)技術(shù)還擁有幫助盲人或弱視兒童發(fā)展社會(huì)互動(dòng)能力的潛力。
此前的研究表明,約有三分之二的失明或弱視兒童表現(xiàn)出了與自閉癥兒童相似的社交行為,比如在談話中似乎沒有在與談話對象交流,常常將頭靠在桌子上露出一只耳朵。于是,研究團(tuán)隊(duì)開始探索這一技術(shù)是否可以幫助他們學(xué)習(xí)發(fā)起和維持與他人的社會(huì)互動(dòng)。
Theo 參與到這項(xiàng)體驗(yàn)中,來幫助研究團(tuán)隊(duì)更好地讓系統(tǒng)適配兒童的行為特征。比如孩子們總是喜歡坐在一起,但常常坐不了幾分鐘就起身跑來跑去。Theo 回憶起最初測試的場景,“系統(tǒng)有時(shí)會(huì)同時(shí)報(bào)出兩個(gè)名字,這讓我很難聽清,所以我說這一點(diǎn)需要改動(dòng)?!?/span>
研究人員還仔細(xì)觀察了 Theo 自由使用系統(tǒng)的方式。比如在一次家庭用餐時(shí),Theo 開始巧妙地反復(fù)左右轉(zhuǎn)動(dòng)頭部,讓系統(tǒng)說出正在與他說話的人的名字。
“Theo 在用這個(gè)技術(shù)保持對談話者的空間注意力,” Morrison 當(dāng)時(shí)感到很驚訝,“我們之前并沒有想到,這對他來說無疑是一種行之有效的保持注意力的方式。如果他能保持注意力,他就可以與談話者將話題進(jìn)行下去?!?/span>
在實(shí)際測試中,更多的用途證實(shí)了這項(xiàng)技術(shù)對幫助視障兒童學(xué)習(xí)社會(huì)互動(dòng)的潛能。
和其他失明兒童一樣,Theo 在社交場合中也會(huì)將頭擱在桌子上露出一只耳朵。研究人員和 Theo 玩了一系列游戲,來發(fā)掘他用身體和頭部交流時(shí)可能產(chǎn)生的力量。
在游戲中,研究人員和 Theo 要解決一個(gè)小組問題。Theo 知道問題的答案,研究員們只知道問題的主題,而且只有在 Theo 看著他們時(shí),他們才能交談。如果 Theo 移開視線,他們必須立刻停止討論?!澳且豢?,Theo 突然意識到自己能夠掌控一段談話。他開始理解‘看到’他人的力量,它不僅賦予了他交流的技能,更使他習(xí)得了一套全新的社會(huì)能力?!?span style="color:#333333;font-family:"Microsoft YaHei UI",sans-serif;font-size:13pt;">
現(xiàn)在 Theo 很少把頭放在桌子上說話了。無論是否帶著特制的 HoloLens,Theo 都會(huì)將自己的身體和臉面向想要談話的人。這是否會(huì)為 Theo 帶來長期的變化還是一個(gè)未知數(shù),研究團(tuán)隊(duì)也尚不能確定其他失明或弱視力兒童是否也會(huì)做出類似的反應(yīng)。因此研究團(tuán)隊(duì)正在進(jìn)入下一階段,研究這項(xiàng)技術(shù)對更多兒童、年齡范圍更廣泛的人群的影響。
失明少年 Theo 正在廚房里參與用戶測試
Project Tokyo 的未來
為了構(gòu)建適用于更多人的智能個(gè)人代理系統(tǒng),更廣泛的研究工作正在進(jìn)行中,包括讓用戶更自由地根據(jù)偏好調(diào)整系統(tǒng)的機(jī)器學(xué)習(xí)技術(shù)。例如,微軟劍橋研究院機(jī)器學(xué)習(xí)研究員 Sebastian Tschiatschek 正在研究用戶如何告知系統(tǒng)他們希望聽到的信息的種類和數(shù)量。
由于用戶的視力水平不同,對信息的需求也不一樣。個(gè)性化的需求讓 Tschiatschek 必須采取非常規(guī)的機(jī)器學(xué)習(xí)方法,“我們想以某種數(shù)學(xué)形式將問題形式化,但對這個(gè)問題來說并不容易。許多開發(fā)工作都是通過嘗試,真正與人互動(dòng),了解他們的好惡,從而增強(qiáng)算法來實(shí)現(xiàn)?!贝送?,用戶在系統(tǒng)提供已知信息時(shí)會(huì)感到失望,還有很多這樣的問題尚待研究團(tuán)隊(duì)解決。
最終,Project Tokyo 將構(gòu)建可擴(kuò)展所有用戶能力的智能個(gè)人代理。研究團(tuán)隊(duì)將與視障社區(qū)中的更多兒童繼續(xù)探索,包括 Morrison 先天失明的7歲兒子 Ronan。
“我們在 Theo 身上看到的情況讓人倍受鼓舞,他正在以前所未有的方式掌控自己的世界,” Morrison 充滿期待,“我認(rèn)為我們將在 Ronan 和更多的人身上看到這一點(diǎn)。”
整理/視普泰驗(yàn)光師培訓(xùn)學(xué)校
Loading...
Loading...