卷積神經(jīng)網(wǎng)絡(luò)的缺陷范文
時(shí)間:2024-04-09 11:35:15
導(dǎo)語(yǔ):如何才能寫好一篇卷積神經(jīng)網(wǎng)絡(luò)的缺陷,這就需要搜集整理更多的資料和文獻(xiàn),歡迎閱讀由公文云整理的十篇范文,供你借鑒。
篇1
關(guān)鍵詞:深度學(xué)習(xí);機(jī)器學(xué)習(xí);卷積神經(jīng)網(wǎng)絡(luò)
1概述
深度學(xué)習(xí)(Deep Learning)是人工智能、圖像建模、模式識(shí)別、神經(jīng)網(wǎng)絡(luò)、最優(yōu)化理論和信號(hào)處理等領(lǐng)域的交叉學(xué)科,主要構(gòu)建和模擬人腦進(jìn)行分析學(xué)習(xí),它屬于機(jī)器學(xué)習(xí)的新興領(lǐng)域。
2大數(shù)據(jù)與深度學(xué)習(xí)
目前,光學(xué)檢測(cè)、互聯(lián)網(wǎng)、用戶數(shù)據(jù)、互聯(lián)網(wǎng)、金融公司等許多領(lǐng)域都出現(xiàn)了海量數(shù)據(jù),采用BP算法對(duì)于訓(xùn)練神經(jīng)網(wǎng)絡(luò)出現(xiàn)了梯度越來(lái)越稀疏、收斂到局部最小值只能用有標(biāo)簽的數(shù)據(jù)來(lái)訓(xùn)練等缺點(diǎn)。Hinton于2006年提出了深度學(xué)習(xí)的概念,Lecun等人提出了卷積神經(jīng)網(wǎng)絡(luò),卷積神經(jīng)網(wǎng)絡(luò)利用空間關(guān)系減少參數(shù)數(shù)目以提高訓(xùn)練性能。
CPU和GPU計(jì)算能力大幅提升,為深度學(xué)習(xí)提供了硬件平臺(tái)和技術(shù)手段,在海量大數(shù)據(jù)處理技術(shù)上解決了早期神經(jīng)網(wǎng)絡(luò)訓(xùn)練不足出現(xiàn)的過(guò)擬合、泛化能力差等問(wèn)題。
大數(shù)據(jù)和深度學(xué)習(xí)必將互相支撐,推動(dòng)科技發(fā)展。
3深度學(xué)習(xí)模型
深度學(xué)習(xí)模型實(shí)際上是一個(gè)包含多個(gè)隱藏層的神經(jīng)網(wǎng)絡(luò),目前主要有卷積神經(jīng)網(wǎng)絡(luò),深深度置信神經(jīng)網(wǎng)絡(luò),循環(huán)神經(jīng)網(wǎng)絡(luò)。
1)卷積神經(jīng)網(wǎng)絡(luò)
在機(jī)器學(xué)習(xí)領(lǐng)域,卷積神經(jīng)網(wǎng)絡(luò)屬于前饋神經(jīng)網(wǎng)絡(luò)的一種,神經(jīng)元不再是全連接的模式,而是應(yīng)用了局部感受區(qū)域的策略。然而傳統(tǒng)的神經(jīng)網(wǎng)絡(luò)使用神經(jīng)元間全連接的網(wǎng)絡(luò)結(jié)構(gòu)來(lái)處理圖像任務(wù),因此,出現(xiàn)了很多缺陷,導(dǎo)致模型⑹急劇增加,及其容易過(guò)擬合。
在卷積神經(jīng)網(wǎng)絡(luò)中,網(wǎng)絡(luò)中的神經(jīng)元只與前一層的部分神經(jīng)元連接,利用圖像數(shù)據(jù)的空間結(jié)構(gòu),鄰近像素間具有更強(qiáng)的相關(guān)性,單個(gè)神經(jīng)元僅對(duì)局部信息進(jìn)行響應(yīng),相鄰神經(jīng)元感受區(qū)域存在重疊,因此,綜合所有神經(jīng)元可以得到全局信息的感知。
另外,一個(gè)卷積層中的所有神經(jīng)元均由同一個(gè)卷積核對(duì)不同區(qū)域數(shù)據(jù)響應(yīng)而得到,即共享同一個(gè)卷積核,使得卷積層訓(xùn)練參數(shù)的數(shù)量急劇減少,提高了網(wǎng)絡(luò)的泛化能力。
一般在卷積層后面會(huì)進(jìn)行降采樣操作,對(duì)卷積層提取的特征進(jìn)行聚合統(tǒng)計(jì)。降采樣區(qū)域一般不存在重疊現(xiàn)象。降采樣簡(jiǎn)化了卷積層的輸出信息,進(jìn)一步減少了訓(xùn)練參數(shù)的數(shù)量,增強(qiáng)了網(wǎng)絡(luò)的泛化能力。
卷積神經(jīng)網(wǎng)絡(luò)實(shí)現(xiàn)了局部特征的自動(dòng)提取,使得特征提取與模式分類同步進(jìn)行,適用于處理高分辨率的圖像數(shù)據(jù)。目前,卷積神經(jīng)網(wǎng)絡(luò)在圖像分類、自然語(yǔ)言處理等領(lǐng)域得到廣泛應(yīng)用。
2)深度置信網(wǎng)絡(luò)
深度置信網(wǎng)絡(luò)是一種生成模型,網(wǎng)絡(luò)中有若干隱藏層,同一隱藏層內(nèi)的神經(jīng)元沒(méi)有連接,隱藏層間的神經(jīng)元全連接。神經(jīng)網(wǎng)絡(luò)經(jīng)過(guò)“反向運(yùn)行”得到輸入數(shù)據(jù)。
深度置信網(wǎng)絡(luò)可以用做生成模型,通過(guò)前期的逐層無(wú)監(jiān)督學(xué)習(xí),神經(jīng)網(wǎng)絡(luò)可以較好的對(duì)輸入數(shù)據(jù)進(jìn)行描述,然后把訓(xùn)練好的神經(jīng)網(wǎng)絡(luò)看作深度神經(jīng)網(wǎng)絡(luò),最后得到分類任務(wù)的深度神經(jīng)網(wǎng)絡(luò)。
深度置信網(wǎng)絡(luò)可以用于圖像識(shí)別、圖像生成等領(lǐng)域,深度置信網(wǎng)絡(luò)可以進(jìn)行無(wú)監(jiān)督或半監(jiān)督的學(xué)習(xí),利用無(wú)標(biāo)記數(shù)據(jù)進(jìn)行預(yù)訓(xùn)練,提高神經(jīng)網(wǎng)絡(luò)性能。但近幾年由于卷積神經(jīng)網(wǎng)絡(luò)的飛速發(fā)展,深度置信網(wǎng)絡(luò)已經(jīng)很少被提及。
3)循環(huán)神經(jīng)網(wǎng)絡(luò)
循環(huán)神經(jīng)網(wǎng)絡(luò)是一種專門用于處理時(shí)序數(shù)據(jù)的神經(jīng)網(wǎng)絡(luò),它與典型的前饋型神經(jīng)網(wǎng)絡(luò)最大區(qū)別在于網(wǎng)絡(luò)中存在環(huán)形結(jié)構(gòu),隱藏層內(nèi)部的神經(jīng)元是互相連接的,可以存儲(chǔ)網(wǎng)絡(luò)的內(nèi)部狀態(tài),其中包含序列輸入的歷史信息,實(shí)現(xiàn)了對(duì)時(shí)序動(dòng)態(tài)行為的描述。這里的時(shí)序并非僅僅指代時(shí)間概念上的順序,也可以理解為序列化數(shù)據(jù)間的相對(duì)位置。如語(yǔ)音中的發(fā)音順序,某個(gè)英語(yǔ)單詞的拼寫順序等。序列化輸入的任務(wù)都可以用循環(huán)神經(jīng)網(wǎng)絡(luò)來(lái)處理。如語(yǔ)音、視頻、文本等。對(duì)于序列化數(shù)據(jù),每次處理時(shí)輸入為序列中的一個(gè)元素,比如單個(gè)字符、單詞、音節(jié),期望輸出為該輸入在序列數(shù)據(jù)中的后續(xù)元素。循環(huán)神經(jīng)網(wǎng)絡(luò)可以處理任意長(zhǎng)度的序列化數(shù)據(jù)。
循環(huán)神經(jīng)網(wǎng)絡(luò)可以用于機(jī)器翻譯、連寫字識(shí)別、語(yǔ)音識(shí)別等。循環(huán)神經(jīng)網(wǎng)絡(luò)和卷積網(wǎng)絡(luò)結(jié)合,將卷積神經(jīng)網(wǎng)絡(luò)用于檢測(cè)并識(shí)別圖像中的物體,循環(huán)神經(jīng)網(wǎng)絡(luò)用于識(shí)別出物體的名稱為輸入,生成合理的語(yǔ)句,從而實(shí)現(xiàn)對(duì)圖像內(nèi)容的描述。
4深度學(xué)習(xí)應(yīng)用
1)語(yǔ)音識(shí)別
語(yǔ)音識(shí)別技術(shù)主要包括特征提取技術(shù)、模式匹配準(zhǔn)則及模型訓(xùn)練技術(shù)三個(gè)方面。其應(yīng)用領(lǐng)域主要有語(yǔ)音輸入系統(tǒng)、語(yǔ)音控制系統(tǒng)和智能對(duì)話查詢系統(tǒng),語(yǔ)音識(shí)別極大地推動(dòng)了人工智能的快速發(fā)展。1952年Davis等人研究了世界上第一個(gè)能識(shí)別10個(gè)英文數(shù)字發(fā)音的實(shí)驗(yàn)系統(tǒng)。大規(guī)模的語(yǔ)音識(shí)別研究是在20世紀(jì)70年代以后,在小詞匯量、孤立詞的識(shí)別方面取得了實(shí)質(zhì)性的進(jìn)展。2012年,微軟研究院使用深度神經(jīng)網(wǎng)絡(luò)應(yīng)用在語(yǔ)音識(shí)別上將識(shí)別錯(cuò)誤率降低了20%,取得了突破性的進(jìn)展。2015年11月17日,浪潮集團(tuán)聯(lián)合全球可編程芯片巨頭Altera,以及中國(guó)最大的智能語(yǔ)音技術(shù)提供商科大訊飛,共同了一套DNN語(yǔ)音識(shí)別方案。
2)圖像分析
圖像是深度學(xué)習(xí)最早嘗試的應(yīng)用領(lǐng)域。1989年,LeCun和他的同事們就發(fā)表了卷積神經(jīng)網(wǎng)絡(luò)的工作。2012年10月,Hinton和他的兩個(gè)學(xué)生用更深的CNN在ImageNet挑戰(zhàn)上獲得了第一名,使圖像識(shí)別向前躍進(jìn)了一大步。
自2012年以來(lái),深度學(xué)習(xí)應(yīng)用于圖像識(shí)別使得準(zhǔn)確率大大上升,避免了消耗人工特征抽取的時(shí)間,極大地提升了效率,目前逐漸成為主流的圖像識(shí)別與檢測(cè)方法。
篇2
關(guān)鍵詞:物聯(lián)網(wǎng);人臉識(shí)別;視頻網(wǎng)絡(luò)
1物聯(lián)網(wǎng)及人臉識(shí)別視頻網(wǎng)絡(luò)技術(shù)的發(fā)展
1.1物聯(lián)網(wǎng)視頻網(wǎng)絡(luò)技術(shù)的發(fā)展?fàn)顩r
最近幾年,隨著物聯(lián)網(wǎng)技術(shù)、圖像處理技術(shù)以及數(shù)據(jù)傳輸技術(shù)的快速發(fā)展,視頻網(wǎng)絡(luò)技術(shù)應(yīng)運(yùn)而生并取得了長(zhǎng)足的發(fā)展。當(dāng)前,視頻網(wǎng)絡(luò)系統(tǒng)作為一種模擬數(shù)字控制系統(tǒng),其具有非常成熟和穩(wěn)定的性能,已廣泛應(yīng)用于實(shí)際工程中。雖然數(shù)字系統(tǒng)發(fā)展迅速,但尚未完全形成相應(yīng)的體系,因此,混合數(shù)字和模擬應(yīng)用程序逐漸遷移到數(shù)字系統(tǒng)將成為未來(lái)發(fā)展的主要趨勢(shì)之一。當(dāng)前,國(guó)內(nèi)外市場(chǎng)上主流的產(chǎn)品主要有兩種,即模擬視頻數(shù)字網(wǎng)絡(luò)系統(tǒng)、數(shù)字視頻網(wǎng)絡(luò)系統(tǒng)。前者技術(shù)先進(jìn),性能穩(wěn)定,被廣泛應(yīng)用于實(shí)際工程應(yīng)用中,特別是大中型視頻網(wǎng)絡(luò)項(xiàng)目。后者作為一種新興技術(shù),是一種通過(guò)以計(jì)算機(jī)技術(shù)和視頻壓縮為核心的新型視頻網(wǎng)絡(luò)系統(tǒng),其有效的避免了模擬系統(tǒng)所存在的一些弊端,但未來(lái)仍需要進(jìn)行不斷的改進(jìn)和發(fā)展。外部集成、視頻數(shù)字化、視頻網(wǎng)絡(luò)連接、系統(tǒng)集成是未來(lái)視頻網(wǎng)絡(luò)系統(tǒng)發(fā)展的重要研究方向。數(shù)字化是網(wǎng)絡(luò)的前提,而網(wǎng)絡(luò)是系統(tǒng)集成的基礎(chǔ)。因此,視頻網(wǎng)絡(luò)領(lǐng)域的兩個(gè)最大發(fā)展特征是:數(shù)字化和網(wǎng)絡(luò)化。
1.2人臉識(shí)別視頻網(wǎng)絡(luò)的發(fā)展?fàn)顩r
人臉識(shí)別技術(shù)作為模式識(shí)別領(lǐng)域中的一項(xiàng)前沿課題,截止目前,已有三十多年的研究歷史。人臉識(shí)別目前是模式識(shí)別和人工智能的研究熱點(diǎn),目前主要采用AdaBoost分類器進(jìn)行人臉區(qū)域的檢測(cè),人臉識(shí)別研究的內(nèi)容大致分為以下內(nèi)容:(1)人臉檢測(cè):其指的是在不同場(chǎng)景下的人臉檢測(cè)及其位置。人臉檢測(cè)是通過(guò)在整個(gè)輸入的圖像中找到一個(gè)合適的人臉區(qū)域?yàn)槟康?,并將該圖像分為人臉區(qū)域和非人臉區(qū)域兩部分。在實(shí)際的某些理想情況下,由于可以人為手動(dòng)控制拍攝環(huán)境,因此,可以輕松確定人臉的位置;但是在大多數(shù)情況下,由于場(chǎng)景更加復(fù)雜,因此,人臉的位置是未知的。因而在實(shí)際的人臉識(shí)別視頻網(wǎng)絡(luò)過(guò)程中,首先必須確定識(shí)別場(chǎng)景中是否有人臉的存在,如果存在人臉,再進(jìn)一步確定圖像中人臉的具體區(qū)域。(2)人臉識(shí)別:將系統(tǒng)檢測(cè)到的人臉特征信息與系統(tǒng)數(shù)據(jù)庫(kù)中存在的已知人臉信息進(jìn)行充分識(shí)別與匹配,以此獲取相關(guān)信息,該過(guò)程的本質(zhì)是選擇正確的人臉模型和匹配策略。在實(shí)際生活的應(yīng)用當(dāng)中,由于成人的面部模型處于不斷變化當(dāng)中,且容易受到時(shí)間、光線、相機(jī)角度等方面的差異,因而很難用一張圖紙表達(dá)同一個(gè)人的面部圖像,這使得提取特征變得困難,由于大量的原始灰度圖像數(shù)據(jù),神經(jīng)元的數(shù)量通常很大并且訓(xùn)練時(shí)間很長(zhǎng)。除此之外,完全依賴于神經(jīng)網(wǎng)絡(luò)的識(shí)別方法具有當(dāng)前計(jì)算機(jī)系統(tǒng)固有的局限性,盡管神經(jīng)網(wǎng)絡(luò)具有很強(qiáng)的感應(yīng)能力,但是隨著樣本數(shù)量的增加,其性能可能會(huì)大大降低。簡(jiǎn)而言之,由于年齡,表情,傾斜度和其他表征對(duì)象的因素的多樣性,很難進(jìn)行人臉識(shí)別,因此,識(shí)別該對(duì)象的效果仍遠(yuǎn)未達(dá)到現(xiàn)實(shí)。目前,普遍采用AdaBoost算法來(lái)對(duì)出現(xiàn)在視頻中的人臉區(qū)域進(jìn)行檢測(cè),以此達(dá)到實(shí)時(shí)獲取人臉圖像的目的,AdaBoost算法的原理是通過(guò)訓(xùn)練得到多個(gè)不同的弱分類器并將這些弱分類器通過(guò)疊加、級(jí)聯(lián)得到強(qiáng)分類器,AdaBoost算法流程如圖1所示。(3)表情分析:即對(duì)面部表情信息(幸福,悲傷,恐懼,驚奇等)進(jìn)行分析和分類。當(dāng)前,由于問(wèn)題的復(fù)雜性,正在對(duì)面部表情的分析進(jìn)行研究,它仍處于起步階段。心理學(xué)表明,至少有六種與不同面部表情相關(guān)的情緒:幸福,悲傷,驚奇,恐懼,憤怒和惡心。即與沒(méi)有表情的面部特征相比,這六個(gè)表情的面部特征具有相對(duì)獨(dú)特的運(yùn)動(dòng)規(guī)則。(4)生理分類:分析已知面孔的生理特征,并獲得相關(guān)信息,例如種族、年齡、性別和職業(yè)。顯然,此過(guò)程需要大量知識(shí),通常非常困難和復(fù)雜。
2物聯(lián)網(wǎng)卷積神經(jīng)網(wǎng)絡(luò)人臉識(shí)別方法分析
卷積神經(jīng)網(wǎng)絡(luò)是專門設(shè)計(jì)用于識(shí)別二維形狀的多層感知器。通常,可以使用梯度下降和反向傳播算法來(lái)訓(xùn)練網(wǎng)絡(luò)。從結(jié)構(gòu)上講,卷積神經(jīng)網(wǎng)絡(luò)包含三個(gè)概念:局部感受野、權(quán)重共享和下采樣,使其在平移,縮放,傾斜或其他形式的變形中相當(dāng)穩(wěn)定。當(dāng)前,卷積神經(jīng)網(wǎng)絡(luò)被廣泛用于模式識(shí)別,圖像處理和其他領(lǐng)域。卷積神經(jīng)網(wǎng)絡(luò)(CNN)用于提取目標(biāo)人臉圖像的特征。訓(xùn)練網(wǎng)絡(luò)后,將先前測(cè)試的模型用作面部分類器,微調(diào)可以縮短網(wǎng)絡(luò)模型的訓(xùn)練時(shí)間。卷積神經(jīng)網(wǎng)絡(luò)的基本體系結(jié)構(gòu)是輸入層,卷積層(conv),歸約層(字符串),完全連接層和輸出層(分類器)。通常有多個(gè)卷積層+速記層,此程序?qū)崿F(xiàn)的CNN模型是LeNet5,并且有兩個(gè)“卷積+下采樣層”LeNetConvPoolLayer。完全連接的層等效于MLP(多層感知器)中的HiddenLayer。輸出層是一個(gè)分類器,通常使用softmax回歸(有些人稱為直接邏輯回歸,它實(shí)際上是多類邏輯回歸)。LogisticRegression也直接提供了該軟件。人臉圖像在視頻監(jiān)控中實(shí)時(shí)發(fā)送到計(jì)算機(jī),并且面部區(qū)域部分由AdaBoost算法確定。在預(yù)處理之后,將臉部圖像注入到新訓(xùn)練的預(yù)訓(xùn)練模型中進(jìn)行識(shí)別。該過(guò)程如圖2所示。
3物聯(lián)網(wǎng)人臉識(shí)別視頻網(wǎng)絡(luò)多目標(biāo)算法優(yōu)化
多目標(biāo)優(yōu)化問(wèn)題的實(shí)質(zhì)是協(xié)調(diào)并在各個(gè)子目標(biāo)之間達(dá)成折衷,以便使不同的子目標(biāo)功能盡可能地最佳。工程優(yōu)化的大多數(shù)實(shí)際問(wèn)題都是多用途優(yōu)化問(wèn)題,目標(biāo)通常相互沖突。長(zhǎng)期以來(lái),多目標(biāo)優(yōu)化一直受到人們的廣泛關(guān)注,現(xiàn)在已經(jīng)開(kāi)發(fā)出更多的方法來(lái)解決多目標(biāo)優(yōu)化問(wèn)題。如果多標(biāo)準(zhǔn)優(yōu)化沒(méi)有最差的解決方案,那么通常會(huì)有無(wú)限多的解決方案,這并不是最差的解決方案。解決面部強(qiáng)調(diào)時(shí),人們不能直接應(yīng)用許多次等解決方案。作為最后的決定,我們只能選擇質(zhì)量不是最低,最能滿足我們要求的解決方案。找到最終解決方案的方法主要有三種。因此,只有通過(guò)找到大量有缺陷的解決方案以形成有缺陷的解決方案的子集,然后根據(jù)我們的意圖找到最終的解決方案?;诖?,多目標(biāo)算法是通過(guò)將多準(zhǔn)則問(wèn)題轉(zhuǎn)變?yōu)橐粋€(gè)關(guān)鍵問(wèn)題,這種方法也可以視為輔助手段。這種方法的棘手部分是如何獲取實(shí)際體重信息,至于面部特征,我們將建議一種基于權(quán)重的多功能優(yōu)化算法,該算法可以更好地反映臉部的特征。我們將人臉的每個(gè)特征都視為多個(gè)目標(biāo),并且在提取面部特征時(shí),面部特征會(huì)受到外界的強(qiáng)烈影響,例如位置,光照條件和強(qiáng)度的變化,并且所有部位和每個(gè)部位都會(huì)受到影響。因此,我們可以使用加權(quán)方法從每個(gè)受影響的分?jǐn)?shù)中提取不同的權(quán)重。通過(guò)開(kāi)展試驗(yàn)測(cè)試,結(jié)果表明,在有多目標(biāo)優(yōu)化的算法的作用下,比在沒(méi)有多目標(biāo)優(yōu)化的算法作用下人臉識(shí)別效果有所提高,大約提高了5—10個(gè)百分點(diǎn)。
4結(jié)論
鑒于多準(zhǔn)則優(yōu)化算法在科學(xué)研究的各個(gè)領(lǐng)域中的廣泛使用,本文提出了一種多準(zhǔn)則優(yōu)化算法來(lái)對(duì)復(fù)雜的多準(zhǔn)則人臉圖像上的各種面部特征進(jìn)行特征提取的多準(zhǔn)則優(yōu)化,以達(dá)到提高人臉識(shí)別率的目標(biāo)、提高整個(gè)人臉識(shí)別視頻網(wǎng)絡(luò)系統(tǒng)的性能。
參考文獻(xiàn)
[1]江斌,桂冠.基于物聯(lián)網(wǎng)的人臉識(shí)別視頻網(wǎng)絡(luò)的優(yōu)化方法研究[C]//物聯(lián)網(wǎng)與無(wú)線通信-2018年全國(guó)物聯(lián)網(wǎng)技術(shù)與應(yīng)用大會(huì)論文集.2018.
[2]余雷.基于物聯(lián)網(wǎng)的遠(yuǎn)程視頻監(jiān)控優(yōu)化方法研究[J].科技通報(bào),2014(6).
[3]張勇.遠(yuǎn)程視頻監(jiān)控系統(tǒng)的傳輸技術(shù)的實(shí)現(xiàn)[D].電子科技大學(xué),2011(9)
篇3
關(guān)鍵詞:視覺(jué)注意;自頂向下;顯著性;對(duì)象信息;卷積神經(jīng)網(wǎng)
中圖分類號(hào):TP391.41
文獻(xiàn)標(biāo)志碼:A
文章編號(hào):1001-9081(2016)11-3217-05
0 引言
視覺(jué)注意機(jī)制的研究是探索人眼視覺(jué)感知的重要一環(huán)。在過(guò)去幾十年中,如何用計(jì)算模型模擬人眼視覺(jué)注意過(guò)程一直是核心問(wèn)題。盡管取得了很大的進(jìn)步,但是快速準(zhǔn)確地在自然場(chǎng)景中預(yù)測(cè)人眼視覺(jué)注意區(qū)域仍然具有很高的挑戰(zhàn)性。顯著性是視覺(jué)注意的一項(xiàng)重要研究?jī)?nèi)容,它反映了區(qū)域受關(guān)注的程度。本文的研究著眼于顯著性計(jì)算模型,更多模型對(duì)比和模型分類可以參考Borji等[1]的文章。視覺(jué)注意存在兩種機(jī)制:自底向上(Bottom-up)和自頂向下(Top-down)。過(guò)去的研究中,大多數(shù)的計(jì)算模型是基于自底向上的信息,即直接從圖像像素獲取特征。
自底向上顯著性計(jì)算模型開(kāi)創(chuàng)性工作源自于文獻(xiàn)[2]的Itti模型,該模型是很多其他模型的基礎(chǔ)和對(duì)照基準(zhǔn),它通過(guò)整合多種低層次特征,如顏色、亮度、方向等,給出一個(gè)顯著度的概率分布圖。Harel等[3]在Itti模型的基礎(chǔ)上引入圖算法,通過(guò)計(jì)算節(jié)點(diǎn)間特征值相似性和空間位置距離進(jìn)行差異性度量獲取顯著圖。近年來(lái)隨著深度學(xué)習(xí)技術(shù)在目標(biāo)識(shí)別領(lǐng)域的成功應(yīng)用[4],研究者們對(duì)特征學(xué)習(xí)產(chǎn)生了更多的興趣。Borji等[5]通過(guò)稀疏編碼方法獲取特征,使用圖像塊的稀疏表示結(jié)合局部和全局統(tǒng)計(jì)特性計(jì)算圖像塊的稀有性(rarity),稀有性反映了當(dāng)前圖像塊中心位置的顯著性。Vig等[6]通過(guò)訓(xùn)練多個(gè)神經(jīng)網(wǎng)絡(luò)獲取層次特征,然后自動(dòng)優(yōu)化特征組合。特征提取的過(guò)程可以看作是一種隱式空間映射,在映射空間中使用簡(jiǎn)單的線性模型進(jìn)行顯著或非顯著的分類。以上學(xué)習(xí)方法獲得的特征都是一些低層次特征,對(duì)圖像中的邊緣和特定紋理結(jié)構(gòu)敏感。此外,部分研究人員希望從數(shù)學(xué)統(tǒng)計(jì)和信號(hào)處理的角度來(lái)度量顯著性。Bruce等[7]根據(jù)最大化信息采樣的原則構(gòu)建顯著性模型。Li等[8]總結(jié)了多種基于頻域的視覺(jué)注意研究工作,提出了一種基于超復(fù)數(shù)傅里葉變換(Hypercomplex Fourier Transform)的視覺(jué)注意模型,并展示了其他多種基于頻域的模型在某種程度上都是此模型的特例。
以上模型均為數(shù)據(jù)驅(qū)動(dòng)的顯著性模型,模擬人眼視覺(jué)注意過(guò)程中自底向上的機(jī)制。由于人眼視覺(jué)注意過(guò)程中不可避免地受到知識(shí)、任務(wù)、經(jīng)驗(yàn)、情感等因素的影響,因而整合自底向上和自頂向下信息的視覺(jué)注意研究受到更多的關(guān)注?,F(xiàn)有模型整合的自頂向下信息可以分為三類:任務(wù)需求、場(chǎng)景上下文和對(duì)象特征。
Borji等[9]提出了一種構(gòu)建任務(wù)驅(qū)動(dòng)的視覺(jué)注意模型的聯(lián)合貝葉斯方法。Zhang等[10]提出了一種使用貝葉斯框架整合自底向上和自頂向下顯著性信息的方法。Siagian等[11]利用多種低層次特征對(duì)場(chǎng)景主旨進(jìn)行建模,使用場(chǎng)景主旨引導(dǎo)視覺(jué)注意的轉(zhuǎn)移。考慮到任務(wù)需求和場(chǎng)景上下文建模的復(fù)雜性,研究人員將對(duì)象特征視為一種高層次的知識(shí)表示形式引入視覺(jué)注意模型中。Judd等[12]和Zhao等[13]通過(guò)將低層次特征和對(duì)象特征整合在一個(gè)學(xué)習(xí)框架下來(lái)獲得特征整合過(guò)程中每張?zhí)卣鲌D的疊加權(quán)重,但是模型使用的對(duì)象特征只有人臉、行人、車輛等有限的幾種。Borji等[14]遵循了同樣的方法,但是在整合過(guò)程中添加了更多特征并且結(jié)合了其他顯著性模型的結(jié)果,最后用回歸、支撐向量機(jī)(Support Vector Machine, SVM)、 AdaBoost等多種機(jī)器學(xué)習(xí)算法結(jié)合眼動(dòng)跟蹤數(shù)據(jù)進(jìn)行訓(xùn)練。實(shí)驗(yàn)結(jié)果表明對(duì)象特征引入較大地提高了模型性能。Xu等[15]將特征劃分為像素級(jí)、對(duì)象級(jí)和語(yǔ)義級(jí)三個(gè)層次,并重點(diǎn)探索對(duì)象信息和語(yǔ)義屬性對(duì)視覺(jué)注意的作用;然而,模型中的對(duì)象級(jí)和語(yǔ)義級(jí)特征是手工標(biāo)定的,因而不是一種完全意義上的計(jì)算模型。
總的來(lái)看,雖然部分模型已經(jīng)使用對(duì)象特征作為自頂向下的引導(dǎo)信息,但是在對(duì)象特征的獲取和整合上仍有很大的局限性。首先,對(duì)不包含特定對(duì)象的場(chǎng)景適應(yīng)性較差;其次,對(duì)象特征描述困難,通常是通過(guò)特定目標(biāo)檢測(cè)方法獲取對(duì)象特征,計(jì)算效率低下;此外,對(duì)象特征的簡(jiǎn)單整合方式不符合人眼的視覺(jué)感知機(jī)制。本文提出了一種結(jié)合深度學(xué)習(xí)獲取對(duì)象特征的視覺(jué)注意計(jì)算模型,重點(diǎn)研究了對(duì)象級(jí)特征的獲取和整合方法。算法結(jié)構(gòu)如1所示,其中像素級(jí)突出圖獲取采用現(xiàn)有視覺(jué)注意模型的方法,對(duì)象級(jí)突出圖獲取采用本文提出的基于卷積神經(jīng)網(wǎng)(Convolutional Neural Network, CNN)的特征學(xué)習(xí)和基于線性回歸的特征整合方法。實(shí)驗(yàn)結(jié)果表明,對(duì)象級(jí)特征的引入可以明顯提高顯著性預(yù)測(cè)精度,預(yù)測(cè)結(jié)果更符合人類視覺(jué)注意效果。
1 對(duì)象信息獲取
1.1 對(duì)象特征
大量實(shí)驗(yàn)證據(jù)表明對(duì)象特征引導(dǎo)視覺(jué)注意的轉(zhuǎn)移。視覺(jué)注意中引入對(duì)象特征是為了獲得圖像中對(duì)象位置等信息,目的與計(jì)算機(jī)視覺(jué)中的目標(biāo)檢測(cè)類似。因而,已有的視覺(jué)注意計(jì)算模型的對(duì)象特征通常是通過(guò)特定目標(biāo)檢測(cè)方法獲得。其中,Viola&Jones人臉檢測(cè)和Felzenszwalb車輛行人檢測(cè)是最常用的方法。文獻(xiàn)[12-14]均使用此類方法引入對(duì)象特征。由于這一類特征針對(duì)特定對(duì)象樣本進(jìn)行設(shè)計(jì)和訓(xùn)練,因而推廣能力不強(qiáng)。
li=fixations(obji)area(obji)(3)
其中: fixations()表示落入當(dāng)前對(duì)象區(qū)域的正樣本的數(shù)目;area()表示對(duì)象區(qū)域面積。li衡量當(dāng)前對(duì)象單位面積受關(guān)注的程度,對(duì)象單位面積受關(guān)注程度越高,其在對(duì)象整合過(guò)程中的權(quán)重應(yīng)越高,因而li與疊加權(quán)重成正比。
式(4)通過(guò)一個(gè)線性回歸模型對(duì)已有樣本數(shù)據(jù)進(jìn)行訓(xùn)練,獲得對(duì)象整合疊加權(quán)重W:
L=WF(4)
其中:F={F1,F(xiàn)2,…,F(xiàn)N}為訓(xùn)練樣本數(shù)據(jù)集合;L={l1,l2,…,lN}為訓(xùn)練樣本標(biāo)簽集合。
測(cè)試時(shí)根據(jù)式(5)~(6)獲得對(duì)象級(jí)突出圖:
3 顯著圖生成
視覺(jué)注意是自底向上和自頂向下兩種機(jī)制作用的結(jié)果。完全使用自頂向下的對(duì)象特征進(jìn)行顯著區(qū)域預(yù)測(cè)有一定缺陷,主要表現(xiàn)在以下幾個(gè)方面:首先,知識(shí)是對(duì)訓(xùn)練樣本數(shù)據(jù)的抽象表示,由于神經(jīng)網(wǎng)絡(luò)的規(guī)模和訓(xùn)練樣本中對(duì)象種類的限制,場(chǎng)景中部分對(duì)象對(duì)應(yīng)的特征沒(méi)有被抽象在網(wǎng)絡(luò)結(jié)構(gòu)中;其次,部分不具有明確語(yǔ)義的區(qū)域被錯(cuò)誤地認(rèn)為是對(duì)象,對(duì)視覺(jué)注意形成錯(cuò)誤的引導(dǎo);另外,人眼視覺(jué)注意轉(zhuǎn)移的生理學(xué)機(jī)制并不清楚,興趣區(qū)可能落在不具有對(duì)象特征區(qū)域中。因此,使用像素級(jí)特征給出低層次顯著性信息是必要的。
視覺(jué)注意模型中常用的像素級(jí)特征有顏色、亮度、方向等[2-3,12]。本文直接使用GBVS(Graph-Based Visual Saliency)算法[4]整合多種像素級(jí)特征獲取像素級(jí)突出圖Spixel。式(7)給出了整合的方法:
其中:S(i, j)為最終給出的視覺(jué)注意顯著圖;N()為歸一化操作;λ控制對(duì)象級(jí)突出圖與像素級(jí)突出圖的相對(duì)權(quán)重,通過(guò)實(shí)驗(yàn)分析可知λ=0.4時(shí)效果較好。當(dāng)圖像中不存在顯著物體或無(wú)法獲得高置信度的對(duì)象信息時(shí),圖像任意位置Sobj(i, j)=0,此時(shí)完全由像素級(jí)特征驅(qū)動(dòng)的視覺(jué)注意引導(dǎo)。
4 實(shí)驗(yàn)結(jié)果及分析
本次實(shí)驗(yàn)是以Visual Studio 2012為實(shí)驗(yàn)平臺(tái),選取OSIE和MIT數(shù)據(jù)集作為實(shí)驗(yàn)數(shù)據(jù)。OSIE數(shù)據(jù)集包含700張含有一個(gè)或多個(gè)明顯語(yǔ)義對(duì)象的圖片以及15名受試者的眼動(dòng)跟蹤數(shù)據(jù),此外該數(shù)據(jù)集還提供了語(yǔ)義對(duì)象統(tǒng)計(jì)及人工標(biāo)注的精確對(duì)象區(qū)域。MIT數(shù)據(jù)集包含1003張自然場(chǎng)景圖片以及15名受試者的眼動(dòng)跟蹤數(shù)據(jù)。這兩個(gè)數(shù)據(jù)集是當(dāng)前視覺(jué)注意研究領(lǐng)域中較大的數(shù)據(jù)集。為了驗(yàn)證本文方法的準(zhǔn)確率,將本文算法與GBVS[4]、 Itti[2]、 Judd[3]、 AIM[10]、LG[8]等視覺(jué)注意方法進(jìn)行對(duì)比。
對(duì)比實(shí)驗(yàn)中使用的評(píng)價(jià)指標(biāo)為ROC(Receiver Operating Characteristic)曲線,實(shí)現(xiàn)方法與文獻(xiàn)[12,15]相同。圖6~8為實(shí)驗(yàn)對(duì)比結(jié)果,顯著區(qū)域百分比是通過(guò)對(duì)歸一化顯著圖作閾值處理獲得,真正率(True Positive Rate)反映當(dāng)前落入顯著區(qū)域的樣本占所有樣本的比例。通過(guò)變化顯著區(qū)域百分比獲得ROC曲線。為了更直觀比較算法效果,實(shí)驗(yàn)結(jié)果圖中標(biāo)注了每種算法的AUC(Area Under Curve)值,AUC值通過(guò)計(jì)算ROC曲線下的面積獲得。AUC值越大表示該方法給出的顯著性預(yù)測(cè)結(jié)果越準(zhǔn)確。
圖6為利用對(duì)象級(jí)突出圖作為顯著圖在OSIE數(shù)據(jù)集上的實(shí)驗(yàn)結(jié)果。相對(duì)于RCNN算法, fasterRCNN算法使用了更深層次的網(wǎng)絡(luò)結(jié)構(gòu)和更多對(duì)象類別的訓(xùn)練樣本,具有較高的對(duì)象位置預(yù)測(cè)準(zhǔn)確率和對(duì)象檢出率。實(shí)驗(yàn)分析可以看出,使用fasterRCNN算法生成對(duì)象級(jí)突出圖可以更好進(jìn)行顯著性預(yù)測(cè)。同時(shí),人臉特征(FACE)的引入進(jìn)一步提升了預(yù)測(cè)準(zhǔn)確性,從一個(gè)側(cè)面說(shuō)明了對(duì)象性信息對(duì)視覺(jué)注意的轉(zhuǎn)移具有引導(dǎo)作用。
圖7是多種視覺(jué)注意算法在OSIE數(shù)據(jù)集上的ROC曲線,可以看出本文方法實(shí)驗(yàn)效果明顯好于其他算法。僅次于本文算法的是GBVS和Judd,Itti的準(zhǔn)確率較差。圖中對(duì)象級(jí)特征曲線為使用fasterRCNN結(jié)合人臉特征生成對(duì)象級(jí)突出圖獲得,由于該方法完全使用自頂向下的對(duì)象特征,顯著性預(yù)測(cè)準(zhǔn)確率明顯弱于其他方法,因而證明了引入像素級(jí)特征必要性。圖8為MIT數(shù)據(jù)集上的實(shí)驗(yàn)結(jié)果,本文方法和Judd算法為最好的兩種方法,實(shí)驗(yàn)結(jié)果相差不大。AIM和LG方法效果較差。本文方法和Judd方法均使用了對(duì)象特征,可以看出整合了對(duì)象特征的方法相對(duì)于完全自底向上模型有明顯優(yōu)勢(shì)。
圖9中給出了多種算法顯著圖的直觀對(duì)比。與其他方法強(qiáng)調(diào)對(duì)象邊緣不同,本文結(jié)合了對(duì)象信息的方法可以有效突出圖像中的完整對(duì)象區(qū)域。
5 結(jié)語(yǔ)
本文提出一種結(jié)合對(duì)象信息的視覺(jué)注意方法。與傳統(tǒng)的視覺(jué)注意整合對(duì)象方法相比,該方法利用卷積神經(jīng)網(wǎng)學(xué)到的對(duì)象特征,獲取圖像中對(duì)象位置等信息;然后通過(guò)一個(gè)線性回歸模型將同一幅圖像的多個(gè)對(duì)象加權(quán)整合,獲得對(duì)象級(jí)突出圖;最后,根據(jù)視覺(jué)注意的層次整合機(jī)制,將低層次特征和對(duì)象特征進(jìn)行融合形成最終的顯著圖。本文方法在不同數(shù)據(jù)集上的準(zhǔn)確率要高于現(xiàn)有模型。針對(duì)包含明顯對(duì)象的圖像,本文方法克服了部分現(xiàn)有模型由于邊緣強(qiáng)化效果導(dǎo)致的顯著區(qū)域預(yù)測(cè)不準(zhǔn)的問(wèn)題。本文方法仍然存在一定局限性,未來(lái)的工作將嘗試非線性對(duì)象整合以及增大訓(xùn)練樣本數(shù)量和網(wǎng)絡(luò)規(guī)模以獲取更多種對(duì)象特征。
參考文獻(xiàn):
篇4
說(shuō)ISSCC是全球最重要的集成電路會(huì)議,沒(méi)有之一,是因?yàn)榧呻娐奉I(lǐng)域重大的發(fā)明,大都選擇首先在ISSCC上。比如說(shuō),全球首個(gè)TTL(晶體管―晶體管邏輯)電路、首個(gè)1Kb DRAM(動(dòng)態(tài)隨機(jī)存儲(chǔ)器)、首個(gè)8位微處理器、首個(gè)32位微處理器、首個(gè)1Mb DRAM、首個(gè)單片GSM接受器、首個(gè)GHz處理器、首個(gè)多核處理器等。
摩爾定律倒計(jì)時(shí)
盡管有關(guān)摩爾定律失靈的話題在產(chǎn)業(yè)界是個(gè)經(jīng)久不衰的話題,但因?yàn)榘雽?dǎo)體發(fā)展趨勢(shì)最為權(quán)威的ITRS,已經(jīng)決定今年放棄以前以半導(dǎo)體制造工藝為主線的方法編制半導(dǎo)體發(fā)展藍(lán)圖,從而讓人們感到緊迫感的臨近。
去年時(shí)值摩爾定律發(fā)表50周年。ISSCC特意設(shè)立了小型論壇。英特爾在半導(dǎo)體工藝領(lǐng)域的大牛、英特爾高級(jí)院士馬博,以及臺(tái)積電、賽靈思、高通等嘉賓應(yīng)邀討論“10nm之下摩爾定律的挑戰(zhàn):技術(shù)、設(shè)計(jì)與經(jīng)濟(jì)成本”這一主題。與會(huì)嘉賓認(rèn)為,摩爾定律在未來(lái)五六年內(nèi)將會(huì)遇到嚴(yán)峻的挑戰(zhàn)。
作為全球?qū)W術(shù)象牙塔最頂尖的學(xué)術(shù)刊物,《自然》雜志只用了半個(gè)月的時(shí)間就成了全球的“網(wǎng)紅”。從1月28日?qǐng)?bào)道谷歌人工智能AlphaG在圍棋人機(jī)大戰(zhàn)中擊敗歐洲冠軍樊麾,接著是人類首次證實(shí)引力波的存在。到了2月9日,《自然》又以ITRS今年采用新的方法編制半導(dǎo)體發(fā)展藍(lán)圖為由頭,公開(kāi)“唱衰”摩爾定律。該文引用新路線圖編制委員會(huì)主席陳安(An Chen音譯)的話說(shuō),當(dāng)尺寸縮小因?yàn)榱孔有?yīng)而難以為繼時(shí)會(huì)發(fā)生什么事情,接下來(lái)又該怎么辦?
顯然,陳安還是太樂(lè)觀了。理論上,當(dāng)半導(dǎo)體工藝提高到1nm左右時(shí),量子效應(yīng)確切地說(shuō)是隧道效應(yīng)將會(huì)顯著起來(lái)。筆者認(rèn)為,在半導(dǎo)體工藝遠(yuǎn)未達(dá)到1nm時(shí),就會(huì)因?yàn)楣に嚾毕荻ъ`。我們知道,銅原子的直徑約為0.29nm。英特爾目前承諾的是7nm工藝,相當(dāng)于23個(gè)銅原子的排列寬度。再往下走,當(dāng)工藝的偏差以1個(gè)原子計(jì)量時(shí),由于工藝或者半導(dǎo)體襯底材料的純度所限,缺陷難以避免。在長(zhǎng)期高溫下,缺陷不斷擴(kuò)散,最終將導(dǎo)致芯片功能失效。
CPU:核數(shù)增長(zhǎng)放緩、主頻提速
撰寫數(shù)字架構(gòu)與系統(tǒng)部分的是來(lái)自AMD的數(shù)字架構(gòu)與系統(tǒng)分委員會(huì)主席史蒂芬?科希策(Stephen Kosonocky)。
他認(rèn)為,得益于半導(dǎo)體制造技術(shù)發(fā)展帶來(lái)的集成度的提高,越來(lái)越復(fù)雜的系統(tǒng)得以放在單一芯片上,這在成本、功耗和計(jì)算能力上帶來(lái)一系列的好處。這些趨勢(shì)將為整個(gè)計(jì)算家族的所有領(lǐng)域帶來(lái)機(jī)會(huì),這包括從用于極低功耗遙測(cè)傳感應(yīng)用的SoC(片上系統(tǒng))、低功耗移動(dòng)SoC,直到高端的主機(jī)和服務(wù)器系統(tǒng)。
應(yīng)該指出的是,史蒂芬?科希策更多地是從芯片角度討論SoC。如果從系統(tǒng)的層面上看,他疏漏了SoC可以顯著提高系統(tǒng)可靠性和降低系統(tǒng)體積這兩大好處。因?yàn)镾oC可以有效地降低系統(tǒng)內(nèi)芯片的數(shù)量,從而顯著減少了芯片之間機(jī)械連接點(diǎn),而體積的縮小對(duì)于移動(dòng)應(yīng)用特別是方興未艾的物聯(lián)網(wǎng)應(yīng)用,是至關(guān)重要的。
史蒂芬?科希策表示,得益于并行計(jì)算和定制加速器的應(yīng)用,計(jì)算機(jī)的性能正在以節(jié)能的方式不斷提高。這意味著,與傳統(tǒng)串行計(jì)算相比,在提供更強(qiáng)計(jì)算機(jī)性能以滿足日益增長(zhǎng)的用戶需求的同時(shí),允許降低處理器的時(shí)鐘周期。
筆者以為,ISSCC提供的有關(guān)處理器內(nèi)核數(shù)和主頻的發(fā)展統(tǒng)計(jì)曲線,2016年的發(fā)展趨勢(shì)似乎并不完全支持史蒂芬?科希策的觀點(diǎn)。在處理器平均內(nèi)核數(shù)上,從2001年到2010年,處理器的核數(shù)增長(zhǎng)迅速,然而從2010年開(kāi)始,處理器平均核數(shù)的增加顯著趨緩,到2014年之后,核數(shù)平均曲線已經(jīng)呈水平狀。在處理器平均主頻上,從1993年到2003年的10年間,主頻提升非???,其中1994年突破100MHz,2001年突破1GHz。但從2005年至2011年平均主頻曲線不升反降,直到2012年開(kāi)始平均主頻曲線又開(kāi)始了新一輪的增長(zhǎng),其增長(zhǎng)斜率與上述10年的增長(zhǎng)斜率幾乎相同。
如果把處理器平均核數(shù)曲線與平均主頻曲線疊加在一起,就不難看出,主頻始自1993年的高速增長(zhǎng),到了2003年撞到了“熱障”這堵墻。這促成了多核處理器的發(fā)展。而伴隨著新一代半導(dǎo)體工藝技術(shù)FinFET(鰭式場(chǎng)效應(yīng)晶體管)在2011年投入商用,因?yàn)镕in在制程工藝和低功耗上的優(yōu)勢(shì),主頻的增長(zhǎng)又取代內(nèi)核增長(zhǎng),成為提升處理器性能的主因。
需要注意的是,ISSCC僅提供了2016年的處理器平均主頻和核數(shù)發(fā)展趨勢(shì),任何要借助于處理器主頻增長(zhǎng)的平均曲線外延以求未來(lái)發(fā)展趨勢(shì)的想法,都要慎重。這是因?yàn)槟柖傻闹芷跁?huì)逐漸拉長(zhǎng)。更重要的是,SoC已成集成電路大勢(shì)所趨,F(xiàn)PGA(現(xiàn)場(chǎng)可編程門陣列)已經(jīng)被集成到處理器芯片上,這意味著原本對(duì)計(jì)算機(jī)系統(tǒng)提升顯著的基于FPGA的加速器,得以與處理器內(nèi)核集成在一個(gè)管芯(Die)上,鑒于FPGA可以針對(duì)應(yīng)用實(shí)時(shí)優(yōu)化,所以,不遠(yuǎn)的未來(lái)將取代主頻,成為處理器性能提升的主力。(相關(guān)內(nèi)容詳見(jiàn)本報(bào)2015年11月 2日封面報(bào)道《軟件開(kāi)始定義處理器》)。應(yīng)該說(shuō),2015年英特爾收購(gòu)Altera公司,是處理器性能提高新曲線的契機(jī)。而處理器核數(shù)的變化,應(yīng)該保持現(xiàn)有的趨勢(shì)。
節(jié)能成為亮點(diǎn)
節(jié)能無(wú)疑是今年處理器領(lǐng)域亮點(diǎn)。史蒂芬?科希策認(rèn)為,韓國(guó)科學(xué)研究院(KAIST)展示了可用于不同領(lǐng)域的深度學(xué)習(xí)處理器系列,比如說(shuō)為頭戴設(shè)備/增強(qiáng)現(xiàn)實(shí)(AR/HMD)用戶的自然界面和用戶體驗(yàn)(UI/UX)、汽車駕駛的助手、微型機(jī)器人的自主導(dǎo)航等。在這類處理器中,低功耗是不可或缺的。如低功耗的自然界面和用戶體驗(yàn)處理器,采用65nm CMOS工藝,它比市場(chǎng)上最新的頭戴設(shè)備處理器節(jié)能效率高出56.5%,而且比市場(chǎng)上最好的模式識(shí)別處理器的識(shí)別率高出約2%。
篇5
【關(guān)鍵詞】光學(xué)遙感觀測(cè)技術(shù);IDI保險(xiǎn);建筑高度;建筑陰影
1引言
建筑工程質(zhì)量潛在缺陷保險(xiǎn)(InherentDefectsInsurance,以下簡(jiǎn)稱IDI保險(xiǎn))是工程質(zhì)量類保險(xiǎn)的一種,是承包建筑工程在竣工后的保險(xiǎn)期限內(nèi),針對(duì)因勘察設(shè)計(jì)缺陷、施工缺陷或材料缺陷等竣工時(shí)尚未發(fā)現(xiàn)的潛在缺陷造成的建筑結(jié)構(gòu)、防水工程或其他約定項(xiàng)目出現(xiàn)影響安全或使用的物質(zhì)損失保險(xiǎn)。我國(guó)于2005年引入IDI保險(xiǎn),先后在北京、上海等城市開(kāi)展試點(diǎn)運(yùn)行。目前,IDI保險(xiǎn)在國(guó)內(nèi)處于推廣期,主要應(yīng)用于住宅項(xiàng)目。根據(jù)各試點(diǎn)城市制定的IDI保險(xiǎn)實(shí)施細(xì)則,建筑結(jié)構(gòu)安全是IDI保險(xiǎn)中風(fēng)險(xiǎn)最大的一項(xiàng),具體包括建筑整體或局部倒塌、地基不均勻沉降等[1]。因此,建筑物安全隱患排查、研究建筑基礎(chǔ)和主體結(jié)構(gòu)損壞的現(xiàn)象和機(jī)理,并實(shí)現(xiàn)快速準(zhǔn)確的風(fēng)險(xiǎn)預(yù)測(cè)是IDI保險(xiǎn)風(fēng)險(xiǎn)管理的主要任務(wù)。當(dāng)前,IDI保險(xiǎn)關(guān)于建筑物的監(jiān)測(cè)和風(fēng)險(xiǎn)管理,主要依靠保險(xiǎn)公司工作人員和第三方監(jiān)測(cè)機(jī)構(gòu)。隨著IDI保險(xiǎn)的推廣以及投保項(xiàng)目數(shù)量和類型的增加,人工的監(jiān)測(cè)效率會(huì)大大降低[2]。所以需要一種技術(shù)手段,能夠?qū)δ繕?biāo)區(qū)內(nèi)所有建筑物進(jìn)行全覆蓋、長(zhǎng)時(shí)間、連續(xù)和高精度的形變監(jiān)測(cè)與風(fēng)險(xiǎn)分析,協(xié)助保險(xiǎn)公司進(jìn)行風(fēng)險(xiǎn)管理[3]。光學(xué)遙感觀測(cè)技術(shù)是一種監(jiān)測(cè)范圍廣、成本低、效率高,可以長(zhǎng)期定點(diǎn)監(jiān)測(cè)的遙感觀測(cè)手段[4]。一方面,光學(xué)遙感觀測(cè)技術(shù)在建筑物識(shí)別、建筑物高度推算等方面都達(dá)到了較高的計(jì)算精度,可以對(duì)建筑物的主體結(jié)構(gòu)進(jìn)行大范圍、周期性的監(jiān)測(cè);另一方面,對(duì)比多時(shí)相遙感數(shù)據(jù),可以掌握建筑的傾斜和沉降情況。光學(xué)遙感觀測(cè)技術(shù)在這兩方面的研究成果均可應(yīng)用于IDI保險(xiǎn)行業(yè)的風(fēng)險(xiǎn)評(píng)估,為IDI保險(xiǎn)行業(yè)建立完善的建筑物風(fēng)險(xiǎn)評(píng)估體系提供支持。
2光學(xué)遙感觀測(cè)技術(shù)在建筑高度計(jì)算方面應(yīng)用的研究概況
光學(xué)遙感觀測(cè)技術(shù)是遙感技術(shù)的一種,利用可見(jiàn)光、近紅外和短波紅外傳感器對(duì)地物進(jìn)行特定電磁譜段的成像觀測(cè),獲取和分析被觀測(cè)對(duì)象的光學(xué)特征信息。近年來(lái),光學(xué)成像、電子學(xué)與空間技術(shù)的飛速發(fā)展,高空間、高光譜和高時(shí)間分辨率遙感技術(shù)不斷取得突破,光學(xué)遙感觀測(cè)技術(shù)已成為目前對(duì)地觀測(cè)和空間信息觀測(cè)領(lǐng)域中應(yīng)用最為廣泛的技術(shù)手段[5]。在光學(xué)遙感觀測(cè)技術(shù)中,獲取建筑物高度的主要方法為陰影側(cè)高法,該方法根據(jù)遙感圖像中建筑陰影長(zhǎng)度推算建筑高度,然后進(jìn)一步分析建筑變化。
2.1陰影測(cè)高法原理介紹
陰影與建筑物高度關(guān)系如圖1所示。其中,H為建筑物高度;L為陰影長(zhǎng)度;α、β分別為衛(wèi)星和太陽(yáng)的高度角;δ為太陽(yáng)和衛(wèi)星方位角的交角。建筑物高度計(jì)算方法為:當(dāng)太陽(yáng)和衛(wèi)星在建筑物兩側(cè)時(shí),建筑物高度H的計(jì)算方法可簡(jiǎn)化為[6]:陰影測(cè)高法首先在遙感圖像中識(shí)別和提取目標(biāo)建筑的陰影,然后根據(jù)陰影長(zhǎng)度、衛(wèi)星方位角、太陽(yáng)高度角計(jì)算建筑高度。該方法只需要單張高分辨率遙感影像就可建立建筑物與陰影的成像集合模型。常用的陰影側(cè)高法主要有分類法、邊緣檢測(cè)法、閾值法[7]。
2.2分類法
分類法首先對(duì)遙感圖像進(jìn)行分割,然后使用同質(zhì)像素組成大小不同的對(duì)象,最后根據(jù)對(duì)象的形狀、大小、紋理、空間關(guān)系等特征提取建筑物及其陰影。如田峰等[8]提出利用多尺度分割將遙感圖像分割成若干對(duì)象,結(jié)合光譜、形狀、形態(tài)學(xué)陰影指數(shù)等特征面向?qū)ο蠓诸悾鄬?duì)準(zhǔn)確提取出建筑物的陰影并計(jì)算陰影的長(zhǎng)度,進(jìn)行城市建筑物高度估計(jì)。結(jié)果顯示,90%的估計(jì)結(jié)果絕對(duì)誤差小于1m。分類法是當(dāng)前應(yīng)用最廣泛的利用陰影計(jì)算建筑物高度的方法。該方法可以有效對(duì)遙感圖像進(jìn)行分割,準(zhǔn)確地提取建筑物和建筑陰影,具有較高的計(jì)算準(zhǔn)確度。近年來(lái),隨著深度學(xué)習(xí)算法在圖像分割領(lǐng)域的快速發(fā)展,利用卷積神經(jīng)網(wǎng)絡(luò)模型對(duì)遙感圖像進(jìn)行特征提取、語(yǔ)義分割同樣取得了較好的效果。如徐昭洪等[9]提出利用改進(jìn)的U-net模型對(duì)建筑物區(qū)域進(jìn)行像素級(jí)分割,獲取其輪廓和尺寸信息,實(shí)驗(yàn)結(jié)果表明改進(jìn)的U-net模型對(duì)遙感圖像中建筑物的分割提取具有更高的精度,且對(duì)建筑密集區(qū)的小間隔建筑物的區(qū)分能力更強(qiáng)。
2.3邊緣檢測(cè)法
邊緣檢測(cè)方法通過(guò)檢測(cè)遙感圖像中不同區(qū)域的邊界灰度變化實(shí)現(xiàn)區(qū)域分割。如張祚等[10]提出基于建筑陰影形成的原理,提出綜合利用邊緣密度和HSV(hue-saturation-value,色調(diào)-飽和度-明度模型)顏色模型識(shí)別GoogleEarth二維影像中的高層建筑陰影,利用在線計(jì)算太陽(yáng)高度角的工具,快速完成建筑高度和陰影長(zhǎng)度的估算。龍恩等[11]提出基于同名特征的思想,實(shí)現(xiàn)平頂直邊型建筑高度提取。在對(duì)同名直邊檢測(cè)與精確定位過(guò)程中,將其轉(zhuǎn)化為陰影邊界檢測(cè),主要采用基于邊緣的圖像分割和專家知識(shí)相結(jié)合的建筑物陰影提取技術(shù)。邊緣檢測(cè)方法可以保留圖像重要的結(jié)構(gòu)信息,適合遮蔽少、房屋形體簡(jiǎn)單且較為獨(dú)立的情況,當(dāng)影像空間分辨率不夠高、房屋類型多樣,或者樓房間相互遮擋時(shí),會(huì)降低建筑物提取的精度,無(wú)法保證高精度的建筑物提取結(jié)果[12]
2.4閾值法
閾值分割是一種簡(jiǎn)單有效的基于像素的圖像分割技術(shù),該方法根據(jù)每個(gè)像素點(diǎn)的特征值和閾值的大小關(guān)系,將像素點(diǎn)劃分為不同類別[13]。如XinHuang等[14,15]提出的形態(tài)學(xué)建筑指數(shù)(MBI)和形態(tài)學(xué)陰影指數(shù)(MSI)就是閾值分割方法中常用的特征依據(jù)。首先利用MBI和MSI構(gòu)建特征圖像,然后根據(jù)設(shè)定閾值將圖像劃分為建筑、陰影和其他地物,最后利用其他方法對(duì)目標(biāo)區(qū)域進(jìn)行細(xì)化處理。閾值法主要優(yōu)點(diǎn)在于實(shí)現(xiàn)簡(jiǎn)單、運(yùn)算效率高。但遙感圖像顏色復(fù)雜,包含圖像元素較多,要達(dá)到較高的圖像分割精度,需要在設(shè)計(jì)閾值計(jì)算方法時(shí),結(jié)合圖像本身的顏色特征以及空間特征。
3其他應(yīng)用場(chǎng)景
隨著IDI保險(xiǎn)行業(yè)的發(fā)展與推廣,其承保項(xiàng)目會(huì)從住宅項(xiàng)目逐漸擴(kuò)展到包括市政項(xiàng)目在內(nèi)的各類工程,例如,高速公路建造工程、地鐵建設(shè)工程、旅游區(qū)建設(shè)、橋梁、水壩等。光學(xué)遙感觀測(cè)技術(shù)憑借其長(zhǎng)期大面積捕獲影像信息的優(yōu)勢(shì)可以在多個(gè)方面提供數(shù)據(jù)和技術(shù)支持。例如,高速公路建造工程中,選址期間可結(jié)合多期歷史遙感影像數(shù)據(jù)分析選址沿線的地址環(huán)境,以及發(fā)生自然災(zāi)害的可能性。同時(shí),還可以對(duì)工程進(jìn)度進(jìn)行監(jiān)測(cè)。地鐵建設(shè)項(xiàng)目中,利用光學(xué)遙感觀測(cè)技術(shù)可以對(duì)沿線的地面沉降進(jìn)行監(jiān)測(cè)分析。旅游區(qū)建設(shè)中,可以利用該技術(shù)對(duì)地質(zhì)景觀元素特征進(jìn)行解譯以及進(jìn)行地質(zhì)景觀特征值的三維量測(cè)與統(tǒng)計(jì)。