亚洲综合日韩精品高清一区,欧美激情中文字幕乱码免费,亚洲变态另类天堂AV手机版,狠狠热精品视频

  1. 
    
    <sup id="7twp6"></sup>
    <mark id="7twp6"><thead id="7twp6"><input id="7twp6"></input></thead></mark>

    創(chuàng)新科技資訊:Google使用人體模型挑戰(zhàn)賽視頻了解深度感知

    導(dǎo)讀 連日來(lái)Google使用人體模型挑戰(zhàn)賽視頻了解深度感知向來(lái)一不斷的有小伙伴關(guān)注,不僅如此還衍生出了各大相關(guān)話題,那么跟著小編來(lái)看看Google使

    連日來(lái)Google使用人體模型挑戰(zhàn)賽視頻了解深度感知向來(lái)一不斷的有小伙伴關(guān)注,不僅如此還衍生出了各大相關(guān)話題,那么跟著小編來(lái)看看Google使用人體模型挑戰(zhàn)賽視頻了解深度感知以及它的相關(guān)資訊吧!

    Google AI Research發(fā)表了一篇論文,描述了他們從二維圖像進(jìn)行深度感知的工作。研究人員使用從“人體模型挑戰(zhàn)”的YouTube視頻創(chuàng)建的訓(xùn)練數(shù)據(jù)集,訓(xùn)練了一個(gè)神經(jīng)網(wǎng)絡(luò),該神經(jīng)網(wǎng)絡(luò)可以從移動(dòng)的人的視頻(由移動(dòng)的攝像機(jī)拍攝)中重建深度信息。 Google使用人體模型挑戰(zhàn)賽視頻了解深度感知

    計(jì)算機(jī)視覺(jué)中的常見(jiàn)問(wèn)題是從二維圖像重建三維信息。此過(guò)程的輸出是“深度圖”,其中原始2D圖像RGB像素值覆蓋有一組值,這些值表示從攝像機(jī)到代表像素的光所發(fā)生的點(diǎn)的距離。它具有許多現(xiàn)實(shí)世界的應(yīng)用程序,包括增強(qiáng)現(xiàn)實(shí)(AR)或機(jī)器人導(dǎo)航。

    一類(lèi)稱(chēng)為RGB-D傳感器的傳感器,例如Kinect可以直接將深度數(shù)據(jù)與2D RGB圖像一起輸出。通常僅通過(guò)RGB三角測(cè)量就可以僅由RGB圖像數(shù)據(jù)構(gòu)建深度圖,可以使用多個(gè)攝像機(jī)(類(lèi)似于基于多只眼睛的自然視覺(jué)系統(tǒng)),也可以使用單個(gè)移動(dòng)攝像機(jī)。 Google使用人體模型挑戰(zhàn)賽視頻了解深度感知

    單個(gè)移動(dòng)攝像機(jī)方法通過(guò)使用延續(xù)幀之間的視差來(lái)工作,但是當(dāng)場(chǎng)景中的對(duì)象也在移動(dòng)時(shí),效果不佳。對(duì)于許多應(yīng)用程序,尤其是移動(dòng)電話上的AR,必須使用單個(gè)攝像機(jī)進(jìn)行準(zhǔn)確的深度重建。

    尤其是Google的研究人員對(duì)利用包括人在內(nèi)的許多移動(dòng)物體的圖像進(jìn)行深度重建感興趣。這些場(chǎng)景更具挑戰(zhàn)性,因?yàn)槿梭w不僅會(huì)移動(dòng):它們身體的各個(gè)部分都相對(duì)移動(dòng),有效地改變相機(jī)圖像中人的形狀以及每個(gè)身體部位的相對(duì)深度。 Google使用人體模型挑戰(zhàn)賽視頻了解深度感知

    為了解決機(jī)器學(xué)習(xí)中的這一問(wèn)題,研究人員需要使用移動(dòng)攝像機(jī)拍攝的包含人的視頻大數(shù)據(jù)集。華盛頓大學(xué)的一個(gè)團(tuán)隊(duì)使用視頻游戲創(chuàng)建的數(shù)據(jù)集將足球比賽的2D視頻轉(zhuǎn)換為3D,但這限制了他們的系統(tǒng)只能在足球比賽中使用。

    進(jìn)入人體模型挑戰(zhàn)賽(MC),這是一個(gè)網(wǎng)絡(luò)模因,當(dāng)攝影者在現(xiàn)場(chǎng)拍攝視頻時(shí),人們以固定的姿勢(shì)假裝人體模型。由于攝像機(jī)正在移動(dòng),并且場(chǎng)景的其余部分是靜態(tài)的,因此視差方法可以輕松地以各種姿勢(shì)重建準(zhǔn)確的人物深度圖。研究人員處理了大約2,000個(gè)YouTube MC視頻,以生成“ 4,690個(gè)序列的數(shù)據(jù)集,總共有170,000多個(gè)有效圖像深度對(duì)”。

    給定此數(shù)據(jù)集,團(tuán)隊(duì)進(jìn)一步對(duì)其進(jìn)行了處理,以創(chuàng)建對(duì)深度神經(jīng)網(wǎng)絡(luò)(DNN)的輸入。對(duì)于給定的幀,比較前一幀的視差,以獲得初始深度圖。輸入幀也使用檢測(cè)人類(lèi)的視覺(jué)系統(tǒng)進(jìn)行了細(xì)分。這創(chuàng)建了一個(gè)人類(lèi)面具,用于清除發(fā)現(xiàn)人類(lèi)的區(qū)域中的初始深度圖。學(xué)習(xí)系統(tǒng)的目標(biāo)是從MC視頻計(jì)算得出的輸入圖像的已知深度圖。DNN學(xué)習(xí)了如何獵取輸入圖像,初始深度圖和人類(lèi)蒙版,并輸出“精確的”深度圖,在其中填充了人類(lèi)的深度值。

    谷歌建議該技術(shù)可能有多種應(yīng)用,包括“可感知3D的視頻效果(例如合成散焦)”。Reddit上的評(píng)論者建議使用一種手機(jī)應(yīng)用程序,將深度轉(zhuǎn)換為聲音,“以幫助盲人導(dǎo)航”。