計數(shù)和定位:一個純粹基于點(diǎn)的框架
歡迎關(guān)注公眾號 CV技術(shù)指南 ,專注于計算機(jī)視覺的技術(shù)總結(jié)、最新技術(shù)跟蹤、經(jīng)典論文解讀。
前言:
在人群中定位個體更符合后續(xù)高級人群分析任務(wù)的實(shí)際需求,而不是簡單地計數(shù)。然而,現(xiàn)有的基于定位的方法依賴于作為學(xué)習(xí)目標(biāo)的中間表示(即密度圖或偽框)是違反直覺和容易出錯的。
論文提出了一個純粹基于點(diǎn)的框架,用于聯(lián)合人群計數(shù)和個體定位。對于這個框架,論文提出了一個新的度量標(biāo)準(zhǔn),稱為密度歸一化平均精度 (density Normalized Average Precision --nAP),而不是僅僅報告圖像級別的絕對計數(shù)誤差,以提供更全面和更精確的性能評估。
此外,論文在這個框架下設(shè)計了一個直觀的解決方案,稱為點(diǎn)對點(diǎn)網(wǎng)絡(luò)(P2PNet)。P2PNet 丟棄了多余的步驟,直接預(yù)測一組point proposals來表示圖像中的頭部,與人類標(biāo)注結(jié)果一致。通過徹底的分析,論文揭示了實(shí)現(xiàn)這種新穎想法的關(guān)鍵步驟是為這些proposals分配最佳學(xué)習(xí)目標(biāo)。
P2PNet 不僅在流行的計數(shù)基準(zhǔn)上顯著超越了SOTA方法,而且還實(shí)現(xiàn)了有前途的定位精度。
出發(fā)點(diǎn)
在人群分析的所有相關(guān)具體任務(wù)中,人群計數(shù)是一個基本支柱,旨在估計人群中的個體數(shù)量。 然而,簡單地給出一個數(shù)字顯然遠(yuǎn)遠(yuǎn)不能支持后續(xù)更高層次的人群分析任務(wù)的實(shí)際需求,如人群跟蹤、活動識別、異常檢測、流量/行為預(yù)測等。
事實(shí)上,這個領(lǐng)域有一個明顯的趨勢,即除了簡單的計數(shù)之外,更具有挑戰(zhàn)性的細(xì)粒度估計(即個體的位置)。 具體來說,一些方法將人群計數(shù)視為頭部檢測問題,但在對小尺度頭部進(jìn)行勞動密集型注釋上留下了更多的努力。 其他方法試圖生成僅提供點(diǎn)注釋的頭部偽邊界框,但這至少看起來很棘手或不準(zhǔn)確。 同樣試圖直接定位個體,有幾種方法在抑制或分裂過近的候選實(shí)例時陷入困境,由于頭部尺度的極端變化,特別是對于高度擁擠的區(qū)域,它們?nèi)菀壮鲥e。
在評估指標(biāo)方面,一些有遠(yuǎn)見的工作鼓勵采用補(bǔ)丁級別的指標(biāo)進(jìn)行細(xì)粒度評估,但它們僅提供了對定位的粗略衡量標(biāo)準(zhǔn)。 其他現(xiàn)有的定位感知指標(biāo)要么忽略了人群中的顯著密度變化,要么缺乏對重復(fù)預(yù)測的懲罰。
創(chuàng)新思路
為了解決上述問題,論文提出了一個純粹基于點(diǎn)的框架,用于聯(lián)合計數(shù)和定位人群中的個人。 該框架直接使用點(diǎn)標(biāo)注作為學(xué)習(xí)目標(biāo),同時輸出點(diǎn)來定位個體,受益于點(diǎn)表示的高精度定位特性和相對便宜的標(biāo)注成本。
論文提出了一種稱為密度歸一化平均精度 (density Normalized Average Precision --nAP) 的新指標(biāo),為定位和計數(shù)錯誤提供綜合評估指標(biāo)。nAP 指標(biāo)支持框和點(diǎn)表示作為輸入(即預(yù)測或注釋),沒有上述缺陷。
作為這個新框架下的直觀解決方案,論文開發(fā)了一種新方法來直接預(yù)測一組具有圖像中頭部坐標(biāo)及其置信度的point proposals。具體來說,論文提出了一個點(diǎn)對點(diǎn)網(wǎng)絡(luò) (P2PNet) 來直接接收一組帶標(biāo)注的頭部點(diǎn)用于訓(xùn)練,并在推理過程中預(yù)測點(diǎn)。
為了使這樣的想法正確工作,論文深入研究了ground truth target分配過程,以揭示這種關(guān)聯(lián)的關(guān)鍵。結(jié)論是,無論是多個proposals 與單個ground truth匹配的情況,還是相反的情況,都會使模型在訓(xùn)練期間混淆,導(dǎo)致高估或低估計數(shù)。
因此,論文建議通過匈牙利算法進(jìn)行一對一匹配,將point proposals與其ground truth target相關(guān)聯(lián),未匹配的proposals 應(yīng)歸類為負(fù)樣本。憑經(jīng)驗(yàn)表明,這種匹配有利于改進(jìn) nAP 指標(biāo),作為論文在新框架下解決方案的關(guān)鍵組成部分。這種簡單、直觀和高效的設(shè)計產(chǎn)生了SOTA的計數(shù)性能和有前途的定位精度。
Methods
Purely Point-based Framework
這里簡要說明這種新框架的思路。給定一個有N個個體的圖像,用N個點(diǎn)來表示個體的頭部中心點(diǎn)。網(wǎng)絡(luò)輸出兩個東西,一個是預(yù)測頭部的中心點(diǎn)P,一個是該中心點(diǎn)的置信度C。目標(biāo)是使預(yù)測點(diǎn)與ground truth盡可能地接近,并有足夠高的置信度。
與傳統(tǒng)的計數(shù)方法相比,該框架提供的個體位置有助于那些基于運(yùn)動的人群分析任務(wù),如人群跟蹤、活動識別、異常檢測等 此外,該框架不依賴于勞動密集型標(biāo)注、不準(zhǔn)確的偽框或棘手的后處理,受益于原始點(diǎn)表示的高精度定位特性,特別是對于人群中高度擁擠的區(qū)域。
因此,這個新框架由于其相對于傳統(tǒng)人群計數(shù)的優(yōu)勢和實(shí)用價值而值得更多關(guān)注。 然而,由于存在嚴(yán)重的遮擋、密度變化和標(biāo)注錯誤,處理這樣的任務(wù)是非常具有挑戰(zhàn)性的 ,這在 [13] 中甚至被認(rèn)為是理想的但不可行的。
Density Normalized Average Precision
一個預(yù)測點(diǎn) p?j 只有在它可以匹配到某個ground truth pi 時才被歸類為 TP。 匹配過程由基于像素級歐幾里德距離的準(zhǔn)則 (?pj , pi) 指導(dǎo)。 然而,直接使用像素距離來測量親和度忽略了人群之間大密度變化的副作用。 因此,為此匹配標(biāo)準(zhǔn)引入了密度歸一化,以緩解密度變化問題。
簡單說來就是引入最近鄰K(取3)個點(diǎn),將它們的距離歸一化。
用公式表示如下:
預(yù)測與ground truth匹配方案
(a) 在為每個ground truth點(diǎn)選擇最近的提議時,多個ground truth點(diǎn)可能與同一個提議匹配,這會導(dǎo)致計數(shù)低估。 (b) 在為每個提案選擇最近的ground truth時,多個提案可能會與相同的地面實(shí)況點(diǎn)匹配,這會導(dǎo)致高估計數(shù)。 (c) 論文通過匈牙利算法進(jìn)行一對一匹配沒有以上兩個缺陷,因此適合直接點(diǎn)預(yù)測。
P2PNet
P2PNet 的整體架構(gòu)
建立在 VGG16 之上,它首先引入了一個上采樣路徑來獲得細(xì)粒度的深度特征圖。 然后它利用兩個分支同時預(yù)測一組點(diǎn)提議及其置信度分?jǐn)?shù)。pipeline中的關(guān)鍵步驟是確保point proposals和ground truth點(diǎn)之間的一對一匹配,這決定了這些proposals的學(xué)習(xí)目標(biāo)。
loss function如下:
Conclusion
本文來源于公眾號 CV技術(shù)指南 的論文分享系列。
歡迎關(guān)注公眾號 CV技術(shù)指南 ,專注于計算機(jī)視覺的技術(shù)總結(jié)、最新技術(shù)跟蹤、經(jīng)典論文解讀。

發(fā)表評論
最新活動更多
-
8月5日立即報名>> 【在線會議】CAE優(yōu)化設(shè)計:醫(yī)療器械設(shè)計的應(yīng)用案例與方案解析
-
8月14日立即報名>> 【在線研討會】解析安森美(onsemi)高精度與超低功耗CGM系統(tǒng)解決方案
-
精彩回顧立即查看>> 《2024智能制造產(chǎn)業(yè)高端化、智能化、綠色化發(fā)展藍(lán)皮書》
-
精彩回顧立即查看>> 7月30日- 8月1日 2025全數(shù)會工業(yè)芯片與傳感儀表展
-
精彩回顧立即查看>> 全數(shù)會2025(第六屆)機(jī)器人及智能工廠展
-
精彩回顧立即查看>> OFweek 2025 具身機(jī)器人動力電池技術(shù)應(yīng)用大會
推薦專題
- 1 AI產(chǎn)業(yè)的新高度!英偉達(dá)成為全球首家市值破4萬億美元的公司
- 2 傳魏建軍與賈躍亭合作,長城汽車出海美國
- 3 一文讀懂:到底什么是 “具身智能” ?
- 4 黃仁勛:與雷軍長期合作,共探AI智駕
- 5 具身智能泡沫爭議下,華映資本尋找「穿越周期者」
- 6 中國平安們欲靠AI守“陣地”
- 7 官宣:智元機(jī)器人借殼上市,A股人形機(jī)器人第一股!
- 8 華為讓渡“三界”銷售主導(dǎo)權(quán),智界高管:終于能全力奔跑了
- 9 借仿生手實(shí)現(xiàn)突圍,國產(chǎn)靈巧手破局“不可能三角”
- 10 DeepSeek R2加持,中國AI與芯片產(chǎn)業(yè)迎來新一輪協(xié)同進(jìn)化