軟件所在智能理論研究方面取得進展
文章來源:智能軟件研究中心 | 發布時間:2020-08-24 | 【打印】 【關閉】
近日,軟件所智能軟件研究中心在人工智能基礎理論方面取得進展,在樹形神經網絡、風格遷移模型、小目標計數具體問題上提出了新的解決方案。相關研究成果發表在人工智能領域國際頂級會議CVPR 2020、ECCV 2020、ACM MM2020上,并受邀完成了線上學術報告,相關代碼已經開源,供國內外研究人員參考。
以下是具體工作的簡介:
(1)注意力卷積二叉神經樹
細粒度分類目的是對粗粒度的大類別進行更加細致的子類劃分,通常情況下,細粒度數據集中預先給定的標注往往依賴于專業人工標注,需要專業的領域知識,所以標注的數量很少并且很難獲得。由于關鍵的判別力區域散布在細小區域,需要網絡進行定位的工作,而現有大多數的網絡將定位的工作與識別整合在一起,網絡缺乏捕獲判別力區域的能力。因此,亟待尋求能夠學習有效特征和區分難易特征的方法。
針對這一問題,團隊將卷積神經網絡與軟決策樹策略相結合,提出一種二分類深度神經樹的細粒度圖像識別模型,該模型包括主干模型(backbone)、路由(router)、轉換(transformer)、預測(predictor)四種模塊構成。在特征提取的主干網絡上,團隊選取VGG-16作為團隊的特征提取器,這一部分包括了VGG-16的conv1 - conv5的部分卷積層。在淺層利用路由進行二分類的預測輸出,將圖像預先做粗粒度分類,隨著樹的深度增加,類別的區分范圍不斷縮小,并在葉子節點處進行最終類別的輸出。借助這種由粗分逐漸到細分的方法,團隊在神經樹的邊上構造了由卷積算子構成的變換模塊,在不同的分支上利用卷積網絡進行特征學習,定位出具有判別力的區域特征,使每個葉子節點上的預測器測重關注圖像不同的區域。為了加強不同分支對圖像多尺度特征的提取,團隊采取了非對稱的策略,來安排轉換模塊在不同分支上的數量,而不同的分支之間起到了相互補充與促進特征學習的作用。在預測階段,團隊利用路由模塊預測值的累積作為該路徑被選擇的概率,相應的葉子節點的輸出則是該類別的預測概率分布。
實驗結果顯示在CUB-200-2011,Stanford Cars 和 Aircraft數據集上,基于深度神經樹的細粒度識別模型顯著優于當前其他的弱監督細粒度方法。
相關成果以Attention Convolutional Binary Neural Tree for Fine-Grained Visual Categorization為題被 CVPR 2020收錄,團隊已將代碼開源公布:https://isrc.iscas.ac.cn/gitlab/research/acnet
卷積二叉神經樹模型
(2)語義神經樹
現有的人體解析方法往往忽略了人體結構中各部位之間固有的語義關系,把這種細粒度的分割任務看作常規的語義分割,這樣的操作往往容易引起細小部位分割錯誤。另一方面,人體部位之間的尺度也存在著相當大的差異,如人的雙腳或襪子等一般在圖像中占有很小的比例甚至在圖像中不出現。
為了解決這個問題,團隊提出了一種基于深度神經樹來學習語義特征,多叉深度神經解析樹采用了一種層次關系,在淺層中團隊先把圖像中的前景與背景進行識別,利用產生的掩碼信息作用在輸入數據上,產生新的前景信息將輸送到下一層模塊處理,在不同的層級上團隊會將相應的部位識別并分割出來。另外團隊構造了融合模塊用來收集在不同的層級產生的結果,并將結果進一步優化調整,產生最終的分割預測結果。
多叉神經語義解析樹利用隨機梯度下降(SGD)方法以端到端的方式進行訓練整個模型,具有收斂速度快,性能穩定的特點。在四個具有挑戰性的數據集上進行的單人和多人解析實驗,即 LIP,PASCAL-Person-Part,CIHP和 MHPv2 ,均證明了該方法的有效性。
相關成果以Learning Semantic Neural Tree for Human Parsing為題被ECCV 2020收錄,團隊已將代碼開源公布:https://isrc.iscas.ac.cn/gitlab/research/sematree
基于語義神經樹的人體解析模型
(3)無監督域適應的空間注意金字塔網絡
域適應是解決目標域和源域數據分部有顯著差異的問題,巧妙地進行遷移轉化能夠顯著改善在目標域的實際使用效果。
針對這些問題,團隊提出了空間注意力金字塔機制,將域轉換的注意力集中在與任務相關的特定區域。此方法將特征圖用不同大小的窗口來提取均值特征,獲得特征金字塔,然后用軟注意力機制在不同金字塔特征之間的動態選擇,來指導最終的域轉換。
實驗結果顯示,提出的方法在多個任務(目標檢測、實例分割、語義分割)中均取得領先的效果。
相關成果以Spatial Attention Pyramid Network for Unsupervised Domain Adaptation為題被ECCV 2020收錄,團隊已將代碼開源公布:https://isrc.iscas.ac.cn/gitlab/research/domain-adaption
空間注意金字塔網絡
(4)用于無人機目標檢測和計數的引導注意力網絡
一直以來,檢測和計數都是人工智能的基礎問題,在無人機場景中,由于目標小、背景雜亂等復雜因素影響,通過無人機采集視頻進行目標檢測和計數具有極大的挑戰。
針對復雜場景的小目標檢測和計數問題,團隊設計了一種新的基于特征金字塔的注意力網絡來處理目標檢測和計數任務,與以往依賴于無監督注意模塊的方法不同,團隊充分利用了背景和目標之間的弱監督信息,融合不同尺度的特征圖,獲得更語義化的特征表示。同時,前景模塊考慮了全局和局部外觀的目標,以方便準確定位。
團隊設計了新的數據增強策略,用于在各種復雜場景下訓練魯棒模型。在三個具有挑戰性的數據集(UAVDT, CARPK和PUCPR+)上顯示了算法先進的檢測和計數性能。
相關成果以Guided Attention Network for Object Detection and Counting on Drones為題被ACM MM 2020收錄,團隊已將代碼開源公布:https://isrc.iscas.ac.cn/gitlab/research/ganet
基于引導注意力機制的無人機檢測和計數模型
以上成果論文的通訊作者為軟件所副研究員張立波,研究工作得到中科院青年創新促進會、軟件所優秀青年科技人才計劃支持。