聯(lián)系我們 - 廣告服務(wù) - 聯(lián)系電話:
您的當(dāng)前位置: > 關(guān)注 > > 正文

最資訊丨人體姿態(tài)估計:卷積姿態(tài)學(xué)習(xí)機CPM

來源:CSDN 時間:2023-01-10 15:08:42

導(dǎo)讀:人體姿態(tài)估計中常用的模式,就是用堆疊的漏斗模型去實現(xiàn)精密的關(guān)鍵點預(yù)測,并將上一階段的預(yù)測結(jié)果用于當(dāng)前階段的先驗知識,并以強制中間層監(jiān)督的方式來解決梯度消失的問題。這一系列經(jīng)典的操作,根源與這篇文章,即卷積姿態(tài)學(xué)習(xí)機,CPM。


【資料圖】

目錄

摘要介紹方法總結(jié)

摘要

Pose機為學(xué)習(xí)豐富的隱式空間模型提供了一個序列預(yù)測模型。這篇文章展示了一個姿態(tài)估計的系統(tǒng)設(shè)計,如何將卷積網(wǎng)絡(luò)整合到pose機中以學(xué)習(xí)圖像特征和圖像相關(guān)的空間模型。文章的貢獻(xiàn)在于,在結(jié)構(gòu)化的預(yù)測任務(wù)中如關(guān)節(jié)姿態(tài)估計,隱式建模變量之間的長距離依賴關(guān)系。我們通過設(shè)計一個由卷積網(wǎng)絡(luò)組成的順序架構(gòu)來實現(xiàn),該網(wǎng)絡(luò)直接在上一階段的信念圖上運行,對身體部位的位置產(chǎn)生了不斷精細(xì)地估計,而不需要顯式的圖形模型式的推導(dǎo)。我們的方法通過提供一個強制中間監(jiān)督的自然學(xué)習(xí)目標(biāo)函數(shù)來解決訓(xùn)練過程中的梯度消失的典型問題,因此補充反向傳播的梯度和調(diào)節(jié)學(xué)習(xí)過程。我們在標(biāo)準(zhǔn)的數(shù)據(jù)集如MPII,LSP和FLIC數(shù)據(jù)集上驗證了領(lǐng)先的性能。

介紹

我們介紹了卷積姿態(tài)機用于關(guān)節(jié)點姿態(tài)識別。CPM繼承了pose機架構(gòu)的優(yōu)點,即圖像和多局部線索之間長距離依賴的隱式建模,學(xué)習(xí)與推薦的緊密集成,模塊化的循序設(shè)計,以及將他們與卷積網(wǎng)絡(luò)提供的優(yōu)點結(jié)合起來:從數(shù)據(jù)中學(xué)習(xí)用于圖像和空間上下文的特征表征的能力;一個可微的架構(gòu),允許反向傳播用于全局聯(lián)合訓(xùn)練;以及有效處理大數(shù)據(jù)集的能力。

CPM包含了一個序列的卷積網(wǎng)絡(luò),它重復(fù)產(chǎn)生每一個局部位置的2D信念圖。在CPM的每一個階段,由上一階段產(chǎn)生的圖像特征與信念圖,作為當(dāng)前階段的輸入。信念圖為后續(xù)階段的每個部位的空間不確定性提供了一個表達(dá)性的非參數(shù)編碼,允許CPM去學(xué)習(xí)豐富的圖像相關(guān)的部位之間關(guān)系的空間建模。取代使用圖形建模或者專門的后續(xù)處理顯式地解析信念圖,我們學(xué)習(xí)卷積網(wǎng)絡(luò)能夠之間在中間層的信念圖上操作,并學(xué)習(xí)隱式的部位之間關(guān)系的空間模型。整體提出的多階段架構(gòu)是完全可微的,因此能夠使用反向傳播以端到端的方式來訓(xùn)練。 A Convolutional Pose Machine consists of a sequence of predictors trained to make dense predictions at each image location. Here we show the increasingly refined estimates for the location of the right elbow in each stage of the sequence. (a) Predicting from local evidence often causes confusion. (b) Multi-part context helps resolve ambiguity. ? Additional iterations help converge to a certain solution.一個CPM包含有序列組成的預(yù)測器,被訓(xùn)練成用于每個圖像位置的密集預(yù)測。這里展示序列中每個階段右手腕位置不斷精細(xì)的預(yù)測。(a)從局部特征預(yù)測經(jīng)常引起混淆;(b)多部位上下文有助于解決歧義;(c)額外的訓(xùn)練有助于收斂到一個確定的位置。

在CPM的某一特定階段,部位信念的空間上下文為后續(xù)階段提供了強有力的線索。因此,CPM的每一個階段產(chǎn)生了針對每個部位位置的不斷精細(xì)化估計的信念圖,上圖所示。為了獲取部位之間長距離的交互,我們的序列預(yù)測網(wǎng)絡(luò)的每一個階段,網(wǎng)絡(luò)的設(shè)計都出于在圖像和信念圖上實現(xiàn)更大感受野的目標(biāo)。我們發(fā)現(xiàn),通過實驗,信念圖上的更大感受野對于長距離的空間建模至關(guān)重要,并且有助于提升精度。

CPM的多卷積網(wǎng)絡(luò)組成導(dǎo)致了一個具有多層網(wǎng)絡(luò)的整體結(jié)構(gòu),在訓(xùn)練過程中會存在梯度彌散的風(fēng)險。這個問題出現(xiàn)主要由于反向的梯度在多層網(wǎng)絡(luò)中傳播會降低強度。雖然最近的工作展示了中間層監(jiān)督深度網(wǎng)絡(luò)有助于學(xué)習(xí),他們大多數(shù)局限于分類問題。在這篇文章中,展示了對于結(jié)構(gòu)化的預(yù)測問題如姿態(tài)估計,CPM如何自然地提出一個系統(tǒng)框架,它通過網(wǎng)絡(luò)定期地執(zhí)行中間層監(jiān)督來補充梯度和引導(dǎo)網(wǎng)絡(luò)生成越來越精確的信念圖。我們同樣討論了諸如此類序列預(yù)測問題的不同訓(xùn)練方法。

論文的主要貢獻(xiàn)在于:通過一個序列的卷積架構(gòu)來學(xué)習(xí)隱式的空間模型;一個系統(tǒng)的方法去設(shè)計和訓(xùn)練如此的架構(gòu)去學(xué)習(xí)圖像特征和圖像相關(guān)的空間模型用于結(jié)構(gòu)化的預(yù)測任務(wù),同時不需要任何的圖形模型類的推測。我們在標(biāo)準(zhǔn)的數(shù)據(jù)集合如MPII,LSP和FLIC等取得了領(lǐng)先的結(jié)果。

方法

Architecture and receptive fields of CPMs. We show a convolutional architecture and receptive fields across layers for a CPM with any T stages. The pose machine [29] is shown in insets (a) and (b), and the corresponding convolutional networks are shown in insets ? and (d). Insets (a) and ? show the architecture that operates only on image evidence in the first stage. Insets (b) and (d) shows the architecture for subsequent stages, which operate both on image evidence as well as belief maps from preceding stages. The architectures in (b) and (d) are repeated for all subsequent stages (2 to T ). The network is locally supervised after each stage using an intermediate loss layer that prevents vanishing gradients during training. Below in inset (e) we show the effective receptive field on an image (centered at left knee) of the architecture, where the large receptive field enables the model to capture long-range spatial dependencies such as those between head and knees. (Best viewed in color.)CPM的架構(gòu)和視覺感受野。我們顯示了一個卷積架構(gòu)和在任一階段中CPM的視覺感受野。pose機如插圖(a)和(b)所示,響應(yīng)的卷積網(wǎng)絡(luò)顯示在插圖? 和(d)中。插圖(a)和(c)顯示第一階段僅在圖像證據(jù)上的卷積操作。插圖(b)和(d)顯示了后續(xù)階段的架構(gòu),它在圖像和上一階段的信念圖上操作。網(wǎng)絡(luò)在每個階段之后都使用中間損失層進(jìn)行本地監(jiān)督,以防止訓(xùn)練期間的梯度消失。插圖(e)展示了架構(gòu)中一幅圖像(以左膝蓋為中心)的有效視覺感受野,其中大視覺感受野使得模型能夠在長距離的空間依賴性上建模,例如頭與膝蓋等。

總結(jié)

提示:

卷積姿態(tài)機器提供了端到端的架構(gòu)用于解決在計算機視覺中結(jié)構(gòu)化的預(yù)測問題,而不需要圖形模型分割的推理。文章展示了一個序列架構(gòu)由卷積網(wǎng)絡(luò)組成,能夠隱式地學(xué)習(xí)用于姿態(tài)的空間模型,通過在階段中傳達(dá)不斷精確的信念圖。計算機視覺的多個領(lǐng)域中,如語義標(biāo)簽,單圖像深度估計和目標(biāo)檢測等,出現(xiàn)變量之間空間依賴性,將涉及把我們的工作擴展到這些問題中。但該模型對于密集的人群會出現(xiàn)失敗的例子,以端到端的模型來處理多人場景是一個有挑戰(zhàn)的問題,也是未來工作的有趣途徑。

責(zé)任編輯:

標(biāo)簽:

相關(guān)推薦:

精彩放送:

新聞聚焦
Top