導讀:
根據(jù)2019年世界衛(wèi)生組織(WHO)估計,全世界有盲人約4000萬—4500萬;其中中國盲人數(shù)量最多,達到500萬。雖然他們只占全球77億人中的0.58%,但他們與其他處于貧窮饑餓中的人一樣極其需要幫助。
近日,由微軟研究院首席研究員 Ed Cutrell 和微軟劍橋研究院高級研究員 Cecily Morrison 共同發(fā)起的Project Tokyo中,研究員們計劃讓AI結(jié)合HoloLens MR眼鏡,成為視障人士的眼睛。
12歲的失明男孩 Theo 坐在廚房的一張桌子旁。他戴著微軟 HoloLens 左右轉(zhuǎn)動頭部,攝像機、深度傳感器和揚聲器環(huán)繞著他的沙棕色頭發(fā)。
當他面朝微軟劍橋研究院高級研究軟件開發(fā)工程師 Martin Grayson 時,Theo 聽到一聲提示音,“Martin”從他耳朵上方響起來。
“Martin,”西奧笑了,“它用五秒讓我認出了你?!?span> Martin 站在一個齊膝高的黑箱旁,其中的計算硬件正支持著 Theo 使用的機器學習模型的運行。
Theo 再次轉(zhuǎn)動頭部,又一個名字響起來,“Tim”。
“Tim,你在那里!” Theo 高興地“看”向 Tim Regan,他是微軟劍橋研究院的高級研究軟件開發(fā)工程師,同時也是 Theo 的編程老師,每兩個月,Theo 都會去 Regan 家中學習編程課程。Regan 此前在研究項目 Code Jumper 中認識了這個失明的男孩,Code Jumper 是專門為視障兒童開發(fā)的物理編程語言,用一種可觸摸的方式,讓對計算機科學感興趣、但視力上有困難的孩子們體驗編程的樂趣。
他們正在進行的項目 Project Tokyo 希望為人類定制智能個人代理,用 AI 技術來延伸人們能力的界限。對長期身處黑暗與未知的 Theo 來說,能夠?qū)崟r地“認出”周圍的人們,是一種非常新奇的體驗?!安粌H僅是說話的人,那些沒有說話的人,我從來不知道他們是誰、在哪兒。AI 技術讓我能用這種特別的方式感知到他們的存在。”
Project Tokyo 有著更長遠的研究愿景——構建能夠擴展所有用戶能力的智能個人代理,不僅僅是能夠完成特定任務的端到端的系統(tǒng),而是構建一個能自適應每一個人的不同需求的 AI 服務系統(tǒng)。
微軟劍橋研究院高級研究軟件開發(fā)工程師 Martin Grayson(左)和微軟研究院高級研究員 Cecily Morrison(右)正在進行測試
源自巴西殘奧會的靈感
Project Tokyo 誕生于2016年,由微軟研究院首席研究員 Ed Cutrell 和微軟劍橋研究院高級研究員 Cecily Morrison 共同發(fā)起,他們此前都有與盲人和弱視群體一起設計技術的經(jīng)歷,因此決定從視障群體入手,看看智能個人代理能如何幫助他們增強和擴展能力。“視障群體往往是新技術的早期采用者,是非常好的合作對象,” Cecily Morrison 說,“我們一起想象未來關于人工智能的新體驗?!?/span>
在前期調(diào)研中,他們跟隨一群參加巴西殘奧會的運動員和觀眾,從英國出發(fā)前往里約熱內(nèi)盧,觀察他們在機場、運動場館、觀光游覽等種種活動中,如何與他人進行互動。Cutrell 注意到,“我們?nèi)祟悓θ绾闻c人互動有非常細致和詳盡的社會理解——了解周圍是誰,他們在做什么,與我的關系是什么,但對于盲人來說,這些我們認為理所當然的線索都消失了?!?/span>
研究團隊與盲人和弱視社區(qū)一起舉辦了一系列研討會,來探討有哪些潛在的技術能夠為他們改變這一點。參與者中,有一位50多歲的盲人音頻工程師 Peter Bosher 提到一個常見的場景,“當兩三個以上的人共處一室,人們會開始用眼神交流和肢體語言來表示‘我在和這個人或者那個人說話’,這一點對盲人來說真的非常困難?!?/span>
因此他提出,有沒有一種技術能夠為盲人提供他們周圍的人的信息?這一想法立刻引發(fā)了大家的共鳴。
微軟研究院首席研究員 Ed Cutrell 與項目中經(jīng)過改裝的 HoloLens 設備
HoloLens 的進化
明確了 Project Tokyo 想要創(chuàng)造什么樣的 AI 體驗,研究團隊以微軟混合現(xiàn)實眼鏡 HoloLens 為基礎構建 AI 技術。
HoloLens 能將全息圖投影到用戶可操縱的真實世界中,為構建與環(huán)境實時交互的 AI 代理提供了非常好的基礎。HoloLens 的灰度相機陣列可提供接近180度的環(huán)境視角,它的高分辨率彩色相機能夠高精度地進行面部識別,而位于用戶耳朵上方的揚聲器能夠提供空間感極其真實的音頻,讓聲音從特定的方位響起。
研究團隊中的機器學習專家開發(fā)了一系列計算機視覺算法來識別環(huán)境中不同人的位置信息。其中一個模型用于檢測環(huán)境中人的姿勢,計算他們相對于用戶的位置和距離,另一個則能夠分析高分辨率相機拍攝的照片流,來識別和匹配照片中的人物是誰。隨后這些信息將通過音頻提示告訴用戶。
比如,如果設備在用戶左側(cè)一米遠處檢測到朋友 A,用戶左耳將聽到咔嗒聲,聽起來像是來自左側(cè)一米遠處。用戶想知道這個人是誰,一個嗡嗡的音效會將用戶的視線引向 A 所在的方位。當 HoloLens 的中央攝像頭對準了 A 的臉部,用戶會聽到一個尖銳的咔噠聲提示用戶已經(jīng)面朝 A 了。如果系統(tǒng)識別出了 A,就會為用戶念出 A 的名字。
作為音頻工程師,Peter Bosher 在項目早期參與了音頻體驗的部分,“我特別喜歡這個工具為失明的我們帶來的這種‘凝視’的感覺,它能讓我們有一些肢體語言上的溝通。”
盲人音頻工程師 Peter Bosher(中)在微軟劍橋研究院查看系統(tǒng)的最新版本
與視障社區(qū)一起制作原型
隨著研究團隊對技術的開發(fā),研究人員開始進一步與視障社區(qū)合作,邀請盲人或視力不佳的成年人來親身體驗和測試這項技術,提供真實的反饋信息。
有幾位用戶認為不停地轉(zhuǎn)動頭部讓人感到很尷尬,希望能在頭部固定的情況下輕松地獲取系統(tǒng)收集的信息。這些反饋又使研究團隊開發(fā)了更多功能,比如在用戶頭部固定時,系統(tǒng)能用具有空間感的聲音,對辨認出的所有人作一個概述。
如果我們感受到他人的視線,我們會從眼神交流開始自然地和對方展開交談。研究團隊據(jù)此研發(fā)了另一個實驗性的功能,當環(huán)境中的某個人看向用戶時,系統(tǒng)會在那個方向發(fā)出提示音,但這個提示音后不會出現(xiàn)對方的名字。
“不給出名字會讓你將注意力轉(zhuǎn)向那個試圖引起你注意的人,將頭轉(zhuǎn)向他們,而當你直視對方時,系統(tǒng)會告訴你他的名字?!?span> Grayson 向一位體驗者解釋這個細微的設計。
“我完全同意這一點,視力健全的人就是這樣反應的。他們從眼角捕捉到某個人,然后轉(zhuǎn)過頭去叫他們的名字。”這位體驗者說。
經(jīng)過改進的 HoloLens,攝像頭上方還裝有一個 LED 燈帶,白色表示正在追蹤接近用戶的人,綠色代表已為用戶識別這個人。這個功能可讓與用戶交流的朋友知道他們已經(jīng)被“看見”了,使交流更加自然,也能讓他們自由地選擇進入和移出設備的視野。社會互動
隨著研究的深入,研究團隊發(fā)現(xiàn),這項技術還擁有幫助盲人或弱視兒童發(fā)展社會互動能力的潛力。
此前的研究表明,約有三分之二的失明或弱視兒童表現(xiàn)出了與自閉癥兒童相似的社交行為,比如在談話中似乎沒有在與談話對象交流,常常將頭靠在桌子上露出一只耳朵。于是,研究團隊開始探索這一技術是否可以幫助他們學習發(fā)起和維持與他人的社會互動。
Theo 參與到這項體驗中,來幫助研究團隊更好地讓系統(tǒng)適配兒童的行為特征。比如孩子們總是喜歡坐在一起,但常常坐不了幾分鐘就起身跑來跑去。Theo 回憶起最初測試的場景,“系統(tǒng)有時會同時報出兩個名字,這讓我很難聽清,所以我說這一點需要改動?!?/span>
研究人員還仔細觀察了 Theo 自由使用系統(tǒng)的方式。比如在一次家庭用餐時,Theo 開始巧妙地反復左右轉(zhuǎn)動頭部,讓系統(tǒng)說出正在與他說話的人的名字。
“Theo 在用這個技術保持對談話者的空間注意力,” Morrison 當時感到很驚訝,“我們之前并沒有想到,這對他來說無疑是一種行之有效的保持注意力的方式。如果他能保持注意力,他就可以與談話者將話題進行下去。”
在實際測試中,更多的用途證實了這項技術對幫助視障兒童學習社會互動的潛能。
和其他失明兒童一樣,Theo 在社交場合中也會將頭擱在桌子上露出一只耳朵。研究人員和 Theo 玩了一系列游戲,來發(fā)掘他用身體和頭部交流時可能產(chǎn)生的力量。
在游戲中,研究人員和 Theo 要解決一個小組問題。Theo 知道問題的答案,研究員們只知道問題的主題,而且只有在 Theo 看著他們時,他們才能交談。如果 Theo 移開視線,他們必須立刻停止討論?!澳且豢蹋?span>Theo 突然意識到自己能夠掌控一段談話。他開始理解‘看到’他人的力量,它不僅賦予了他交流的技能,更使他習得了一套全新的社會能力?!?span style="color:#333333;font-family:"Microsoft YaHei UI",sans-serif;font-size:13pt;">
現(xiàn)在 Theo 很少把頭放在桌子上說話了。無論是否帶著特制的 HoloLens,Theo 都會將自己的身體和臉面向想要談話的人。這是否會為 Theo 帶來長期的變化還是一個未知數(shù),研究團隊也尚不能確定其他失明或弱視力兒童是否也會做出類似的反應。因此研究團隊正在進入下一階段,研究這項技術對更多兒童、年齡范圍更廣泛的人群的影響。
失明少年 Theo 正在廚房里參與用戶測試
Project Tokyo 的未來
為了構建適用于更多人的智能個人代理系統(tǒng),更廣泛的研究工作正在進行中,包括讓用戶更自由地根據(jù)偏好調(diào)整系統(tǒng)的機器學習技術。例如,微軟劍橋研究院機器學習研究員 Sebastian Tschiatschek 正在研究用戶如何告知系統(tǒng)他們希望聽到的信息的種類和數(shù)量。
由于用戶的視力水平不同,對信息的需求也不一樣。個性化的需求讓 Tschiatschek 必須采取非常規(guī)的機器學習方法,“我們想以某種數(shù)學形式將問題形式化,但對這個問題來說并不容易。許多開發(fā)工作都是通過嘗試,真正與人互動,了解他們的好惡,從而增強算法來實現(xiàn)?!贝送猓脩粼谙到y(tǒng)提供已知信息時會感到失望,還有很多這樣的問題尚待研究團隊解決。
最終,Project Tokyo 將構建可擴展所有用戶能力的智能個人代理。研究團隊將與視障社區(qū)中的更多兒童繼續(xù)探索,包括 Morrison 先天失明的7歲兒子 Ronan。
“我們在 Theo 身上看到的情況讓人倍受鼓舞,他正在以前所未有的方式掌控自己的世界,” Morrison 充滿期待,“我認為我們將在 Ronan 和更多的人身上看到這一點?!?span>
整理/視普泰驗光師培訓學校