引言
人(ren)工智能(neng)(neng)現(xian)在(zai)應用最(zui)好(hao)的(de)一(yi)個領域就(jiu)是(shi)基于(yu)視頻(pin)圖像的(de)應用,尤(you)其是(shi)基于(yu)深度卷積神(shen)經網絡在(zai)視頻(pin)圖像領域的(de)應用最(zui)為火熱。安防是(shi)人(ren)工智能(neng)(neng)技術最(zui)好(hao)的(de)實(shi)踐(jian)領域,安防每天(tian)產(chan)生的(de)全天(tian)候的(de)海(hai)量視頻(pin)圖像數據為人(ren)工智能(neng)(neng)提(ti)供了最(zui)佳(jia)實(shi)踐(jian)基礎。
圖1 安防人工智能應用三大基礎
除了海(hai)量(liang)(liang)數(shu)據(ju)、深(shen)(shen)度(du)(du)(du)(du)卷積神(shen)經(jing)(jing)網(wang)(wang)絡(luo)(luo)(luo)算法(fa),還(huan)有(you)GPU 或(huo)神(shen)經(jing)(jing)網(wang)(wang)絡(luo)(luo)(luo)硬(ying)件(jian)加(jia)速(su)(su)引擎也在(zai)快速(su)(su)安防(fang)應用(yong)領域(yu)廣泛應用(yong)。海(hai)量(liang)(liang)視(shi)頻圖(tu)像、深(shen)(shen)度(du)(du)(du)(du)神(shen)經(jing)(jing)網(wang)(wang)絡(luo)(luo)(luo)算法(fa)、GPU 或(huo)深(shen)(shen)度(du)(du)(du)(du)神(shen)經(jing)(jing)網(wang)(wang)絡(luo)(luo)(luo)硬(ying)件(jian)加(jia)速(su)(su)器,這三者共同推動者人工智(zhi)能(neng)在(zai)安防(fang)領域(yu)的(de)實踐,如圖(tu)1所(suo)示。其中GPU 和深(shen)(shen)度(du)(du)(du)(du)神(shen)經(jing)(jing)網(wang)(wang)絡(luo)(luo)(luo)加(jia)速(su)(su)器的(de)發(fa)(fa)展(zhan)驅動力來自于深(shen)(shen)度(du)(du)(du)(du)神(shen)經(jing)(jing)網(wang)(wang)絡(luo)(luo)(luo)算法(fa)的(de)發(fa)(fa)展(zhan)。所(suo)以(yi)在(zai)這三者中,深(shen)(shen)度(du)(du)(du)(du)神(shen)經(jing)(jing)網(wang)(wang)絡(luo)(luo)(luo)算法(fa)的(de)發(fa)(fa)展(zhan)是核心(xin),它決定(ding)著(zhu)深(shen)(shen)度(du)(du)(du)(du)神(shen)經(jing)(jing)網(wang)(wang)絡(luo)(luo)(luo)硬(ying)件(jian)平臺的(de)發(fa)(fa)展(zhan),同時也關系著(zhu)視(shi)頻圖(tu)像進(jin)行標注行為。所(suo)以(yi)本文著(zhu)重從深(shen)(shen)度(du)(du)(du)(du)神(shen)經(jing)(jing)網(wang)(wang)絡(luo)(luo)(luo)算法(fa)的(de)角度(du)(du)(du)(du),介紹(shao)人工智(zhi)能(neng)在(zai)安防(fang)領域(yu)的(de)實踐應用(yong)。
深度卷積神經網絡發展
最早的卷積神經(jing)網(wang)絡模型(比如LeNet和(he)AlexNet)很是簡單(dan)(dan),如圖(tu)2所示,使用(yong)堆(dui)棧式(shi)(stack)單(dan)(dan)卷積或者多(duo)卷積加單(dan)(dan)池化(hua)(hua)(pooling)的結構,卷積層做特征(zheng)提取,池化(hua)(hua)層進行空間下采(cai)樣。輸(shu)入特征(zheng)映射(inputfeature maps), 即(ji)輸(shu)入神經(jing)元(inputneurons)經(jing)過帶有(you)權(quan)值(weights)的卷積核(conv kernel)進行多(duo)維卷積,在(zai)輸(shu)出(chu)神經(jing)元(output neurons)上(shang)得(de)到輸(shu)出(chu)特征(zheng)映射(outputfeature maps)。
圖2 簡單卷積網絡
之后的卷(juan)(juan)積(ji)(ji)(ji)神(shen)經網絡版本(ben),融(rong)合了Network In Network 來增加(jia)隱層提升非線性表達,它使用1x1卷(juan)(juan)積(ji)(ji)(ji)映(ying)射到(dao)隱含空間,再在隱含空間做卷(juan)(juan)積(ji)(ji)(ji)。同時考慮到(dao)多尺度(du),在單層卷(juan)(juan)積(ji)(ji)(ji)層中(zhong)用多個不同大小(xiao)的卷(juan)(juan)積(ji)(ji)(ji)核來卷(juan)(juan)積(ji)(ji)(ji),最后把結果串聯起來得到(dao)輸出特(te)征(zheng)映(ying)射。這一結構,被(bei)稱之為(wei)“Incepti on”,由谷(gu)歌提出,如(ru)圖3所示,代表模式有Inception-v1、Inception-v2、Inception-v3、Inception-v4等版本(ben)。
圖3 Inception模塊
圖4 簡化版Inception
圖5 簡化版Inception另一種描述方式
逐層可(ke)(ke)分(fen)離卷(juan)積(ji)(Depthwise SeparableConvolution)可(ke)(ke)以(yi)認為是Inception 的(de)擴展,它是Inception 結(jie)構(gou)的(de)極限版(ban)本(ben),如(ru)圖4所(suo)示(shi),一(yi)個簡化版(ban)本(ben)的(de)Inception,我們可(ke)(ke)以(yi)看(kan)做一(yi)整個輸入做1x1卷(juan)積(ji),然后切成三(san)段,分(fen)別進行(xing)3x3卷(juan)積(ji)后相連,如(ru)圖5所(suo)示(shi)。圖4和圖5兩個形(xing)式(shi)是等價的(de),即Inception 的(de)簡化版(ban)本(ben)又可(ke)(ke)以(yi)用如(ru)下形(xing)式(shi)表達(da):
假若(ruo)不(bu)(bu)是分成(cheng)三段(duan),而(er)是分成(cheng)五段(duan)或者更多(duo),那模型的(de)表達能力是不(bu)(bu)是更強呢(ni)?于是我們就切(qie)更多(duo)段(duan),一直切(qie)到不(bu)(bu)能再切(qie)為止,此時正(zheng)好是輸出通道(dao)(output channels)的(de)數量(極限版本),如圖6所示:
圖6 Inception極限版本
這就是逐(zhu)層卷積(ji)(depthwise convolution),逐(zhu)層卷積(ji)是對(dui)輸入的每一個(ge)(ge)通(tong)(tong)(tong)道(dao)(channel)獨(du)立(li)的用對(dui)應通(tong)(tong)(tong)道(dao)的所(suo)有(you)(you)卷積(ji)核去卷積(ji),假設卷積(ji)核的形狀是filter_height*filter_width*in_channels* channel_multiplier,那么每個(ge)(ge)輸入通(tong)(tong)(tong)道(dao)(in_channel)會輸出channel_multiplier 個(ge)(ge)通(tong)(tong)(tong)道(dao),最后的特(te)征(zheng)映射面(feature map)就會有(you)(you)in_channels *channel_multiplier 個(ge)(ge)通(tong)(tong)(tong)道(dao)。反觀普通(tong)(tong)(tong)的卷積(ji),輸出的特(te)征(zheng)映射面一般(ban)就只有(you)(you)channel_multiplier 那么多個(ge)(ge)通(tong)(tong)(tong)道(dao)。
在圖(tu)(tu)(tu)像(xiang)(xiang)(xiang)(xiang)分(fen)(fen)割(ge)領域,圖(tu)(tu)(tu)像(xiang)(xiang)(xiang)(xiang)輸(shu)(shu)入到深度卷(juan)積(ji)(ji)神經(jing)網絡中,先對圖(tu)(tu)(tu)像(xiang)(xiang)(xiang)(xiang)做卷(juan)積(ji)(ji)再(zai)池(chi)化(即下(xia)采(cai)樣),降低圖(tu)(tu)(tu)像(xiang)(xiang)(xiang)(xiang)尺(chi)(chi)寸(cun)的(de)(de)同時增大感受(shou)野(ye),但是(shi)(shi)由于圖(tu)(tu)(tu)像(xiang)(xiang)(xiang)(xiang)分(fen)(fen)割(ge)預(yu)(yu)測是(shi)(shi)逐個像(xiang)(xiang)(xiang)(xiang)素輸(shu)(shu)出(chu)的(de)(de),所(suo)(suo)以(yi)要(yao)將池(chi)化后較小尺(chi)(chi)寸(cun)的(de)(de)圖(tu)(tu)(tu)像(xiang)(xiang)(xiang)(xiang)上采(cai)樣到原始圖(tu)(tu)(tu)像(xiang)(xiang)(xiang)(xiang)尺(chi)(chi)寸(cun)進行預(yu)(yu)測。上采(cai)樣一(yi)般采(cai)用(yong)反(fan)卷(juan)積(ji)(ji)(deconv)操作,使得每個像(xiang)(xiang)(xiang)(xiang)素預(yu)(yu)測都(dou)能(neng)看到較大感受(shou)野(ye)。因此圖(tu)(tu)(tu)像(xiang)(xiang)(xiang)(xiang)分(fen)(fen)割(ge)卷(juan)積(ji)(ji)神經(jing)網絡中有(you)兩個關(guan)鍵,一(yi)個是(shi)(shi)池(chi)化減小圖(tu)(tu)(tu)像(xiang)(xiang)(xiang)(xiang)尺(chi)(chi)寸(cun)增大感受(shou)野(ye),另一(yi)個是(shi)(shi)上采(cai)樣擴大圖(tu)(tu)(tu)像(xiang)(xiang)(xiang)(xiang)尺(chi)(chi)寸(cun)。在先減小再(zai)增大尺(chi)(chi)寸(cun)的(de)(de)過(guo)程中,就會有(you)信息損(sun)失。所(suo)(suo)以(yi)就設計出(chu)一(yi)種(zhong)新的(de)(de)操作:空(kong)洞(dong)卷(juan)積(ji)(ji)(dilated conv)或者卷(juan)積(ji)(ji)核膨脹,即不通(tong)過(guo)池(chi)化也能(neng)有(you)較大的(de)(de)感受(shou)野(ye),如圖(tu)(tu)(tu)7所(suo)(suo)示(shi)。
圖7 空洞卷積
圖(tu)7中的(de)(de)(de)(de)(de)(a) 圖(tu)對應3x3的(de)(de)(de)(de)(de)1-dilatedconv,和普通的(de)(de)(de)(de)(de)卷(juan)積(ji)(ji)(ji)操(cao)作(zuo)一樣,(b) 圖(tu)對應3x3的(de)(de)(de)(de)(de)2-dilated conv,實(shi)際的(de)(de)(de)(de)(de)卷(juan)積(ji)(ji)(ji)核尺寸(cun)還是3x3,但(dan)(dan)是空洞為(wei)(wei)1,也就是對于一個(ge)(ge)7x7的(de)(de)(de)(de)(de)圖(tu)像(xiang)塊,只有9個(ge)(ge)紅色的(de)(de)(de)(de)(de)點(dian)和3x3的(de)(de)(de)(de)(de)卷(juan)積(ji)(ji)(ji)核進行卷(juan)積(ji)(ji)(ji)操(cao)作(zuo),其(qi)余(yu)的(de)(de)(de)(de)(de)點(dian)(綠(lv)色點(dian))略過(guo)。也可(ke)(ke)以理(li)解為(wei)(wei)卷(juan)積(ji)(ji)(ji)核的(de)(de)(de)(de)(de)尺寸(cun)實(shi)際為(wei)(wei)7x7,但(dan)(dan)是只有圖(tu)(b) 中的(de)(de)(de)(de)(de)9個(ge)(ge)點(dian)的(de)(de)(de)(de)(de)權重不為(wei)(wei)0,其(qi)余(yu)都為(wei)(wei)0。 可(ke)(ke)以看到雖然卷(juan)積(ji)(ji)(ji)核尺寸(cun)只有3x3,但(dan)(dan)是這個(ge)(ge)卷(juan)積(ji)(ji)(ji)的(de)(de)(de)(de)(de)感受野已(yi)經增(zeng)大(da)到了7x7。(c) 圖(tu)是4-dilated conv 操(cao)作(zuo),能達到15x15的(de)(de)(de)(de)(de)感受野。空洞卷(juan)積(ji)(ji)(ji)的(de)(de)(de)(de)(de)好(hao)處是不做池(chi)化帶來(lai)損失信息的(de)(de)(de)(de)(de)情況下,加大(da)了感受野,讓每個(ge)(ge)卷(juan)積(ji)(ji)(ji)輸出都包含較(jiao)大(da)范圍的(de)(de)(de)(de)(de)信息。
還有一(yi)種卷(juan)積(ji)神(shen)(shen)經(jing)網(wang)(wang)絡(luo)(luo)(luo)稱為可形(xing)變卷(juan)積(ji)(Deformable convolutions)神(shen)(shen)經(jing)網(wang)(wang)絡(luo)(luo)(luo),其思想很巧妙:它認為規則形(xing)狀的(de)(de)卷(juan)積(ji)核(比如一(yi)般(ban)用的(de)(de)正方形(xing)3x3卷(juan)積(ji))可能會限制特(te)征的(de)(de)提(ti)(ti)取(qu),如果賦予(yu)卷(juan)積(ji)核形(xing)變的(de)(de)特(te)性,讓神(shen)(shen)經(jing)網(wang)(wang)絡(luo)(luo)(luo)根據標注(zhu)標簽反向(xiang)傳播回來(lai)的(de)(de)誤差自動(dong)的(de)(de)調(diao)整(zheng)卷(juan)積(ji)核的(de)(de)形(xing)狀,適應(ying)網(wang)(wang)絡(luo)(luo)(luo)重點(dian)(dian)關注(zhu)的(de)(de)感(gan)興趣(qu)的(de)(de)區域,就(jiu)可以提(ti)(ti)取(qu)更好的(de)(de)特(te)征。如圖(tu)(tu)(tu)8所示(shi),神(shen)(shen)經(jing)網(wang)(wang)絡(luo)(luo)(luo)會根據原(yuan)位(wei)置(a),學習一(yi)個(ge)偏移量(liang),得到新的(de)(de)卷(juan)積(ji)像素點(dian)(dian)位(wei)置(b) 圖(tu)(tu)(tu),那么一(yi)些特(te)殊情況就(jiu)會成為這(zhe)個(ge)更泛化的(de)(de)模(mo)型(xing)的(de)(de)特(te)例,例如圖(tu)(tu)(tu)(b) 中圖(tu)(tu)(tu)表(biao)示(shi)從不同尺(chi)度物體的(de)(de)識別(bie),圖(tu)(tu)(tu)(b) 右圖(tu)(tu)(tu)表(biao)示(shi)旋轉物體的(de)(de)識別(bie)。
圖8 變形卷積
圖9 變形卷積
這個(ge)思想的(de)實現方(fang)法(fa)也很常規,上(shang)(shang)(shang)(shang)圖(tu)9中包含(han)兩處(chu)卷(juan)積(ji),第(di)一(yi)(yi)(yi)處(chu)是獲取(qu)偏(pian)移(yi)(offsets)的(de)卷(juan)積(ji),即我們對輸(shu)入特征映射面(mian)(inputfeature map)做卷(juan)積(ji),得到一(yi)(yi)(yi)個(ge)輸(shu)出(offsetfield),然后再(zai)在這個(ge)輸(shu)出上(shang)(shang)(shang)(shang)取(qu)對應位置的(de)一(yi)(yi)(yi)組值(zhi)作為(wei)偏(pian)移(yi)。假設輸(shu)入特征映射面(mian)的(de)形狀為(wei)batch*height*width*channels,我們指定輸(shu)出通道(dao)變成兩倍(bei)(bei),卷(juan)積(ji)得到的(de)偏(pian)移(yi)域(offset field) 就(jiu)是batch*height*width*2×channels。為(wei)什么指定通道(dao)變成兩倍(bei)(bei)呢?因為(wei)我們需要(yao)在這個(ge)偏(pian)移(yi)域里面(mian)取(qu)一(yi)(yi)(yi)組卷(juan)積(ji)核的(de)偏(pian)移(yi),而一(yi)(yi)(yi)個(ge)偏(pian)移(yi)肯定不能(neng)一(yi)(yi)(yi)個(ge)值(zhi)就(jiu)表(biao)示的(de),最(zui)少也要(yao)用(yong)兩個(ge)值(zhi)(x方(fang)向上(shang)(shang)(shang)(shang)的(de)偏(pian)移(yi)和y 方(fang)向上(shang)(shang)(shang)(shang)的(de)偏(pian)移(yi))所以(yi),如(ru)果我們的(de)卷(juan)積(ji)核是3x3,那意(yi)味著我們需要(yao)3x3個(ge)偏(pian)移(yi),一(yi)(yi)(yi)共需要(yao)2x3x3個(ge)值(zhi)。取(qu)完了這些值(zhi),就(jiu)可(ke)以(yi)順利使卷(juan)積(ji)核形變了。第(di)二(er)處(chu)就(jiu)是使用(yong)變形的(de)卷(juan)積(ji)核來卷(juan)積(ji),這個(ge)比較常規。
還有一(yi)種卷(juan)積(ji)神經網絡稱為(wei)“特(te)(te)(te)(te)(te)(te)(te)征(zheng)(zheng)(zheng)重(zhong)標(biao)定(ding)卷(juan)積(ji)神經網絡”,這個(ge)(ge)(ge)(ge)卷(juan)積(ji)是對(dui)特(te)(te)(te)(te)(te)(te)(te)征(zheng)(zheng)(zheng)維度(du)作(zuo)改進的(de)(de)(de)(de)(de)(de)。一(yi)個(ge)(ge)(ge)(ge)卷(juan)積(ji)層中往往有數以千計(ji)的(de)(de)(de)(de)(de)(de)卷(juan)積(ji)核,而且(qie)我們知道卷(juan)積(ji)核對(dui)應了(le)特(te)(te)(te)(te)(te)(te)(te)征(zheng)(zheng)(zheng),可(ke)是那么多特(te)(te)(te)(te)(te)(te)(te)征(zheng)(zheng)(zheng)要(yao)(yao)(yao)怎樣區分呢?這種網絡就是通過學(xue)習的(de)(de)(de)(de)(de)(de)方式來(lai)自動獲取到每個(ge)(ge)(ge)(ge)特(te)(te)(te)(te)(te)(te)(te)征(zheng)(zheng)(zheng)通道的(de)(de)(de)(de)(de)(de)重(zhong)要(yao)(yao)(yao)程度(du),然后(hou)(hou)依(yi)照計(ji)算出來(lai)的(de)(de)(de)(de)(de)(de)重(zhong)要(yao)(yao)(yao)程度(du)去提升(sheng)有用的(de)(de)(de)(de)(de)(de)特(te)(te)(te)(te)(te)(te)(te)征(zheng)(zheng)(zheng)并抑制對(dui)當前任務用處不大的(de)(de)(de)(de)(de)(de)特(te)(te)(te)(te)(te)(te)(te)征(zheng)(zheng)(zheng)。如圖(tu)10所示,首先做(zuo)普(pu)通的(de)(de)(de)(de)(de)(de)卷(juan)積(ji),得到了(le)輸出特(te)(te)(te)(te)(te)(te)(te)征(zheng)(zheng)(zheng)映(ying)(ying)射(she)(she)面(mian)(output feature map),它的(de)(de)(de)(de)(de)(de)形狀為(wei)C*H*W,這個(ge)(ge)(ge)(ge)特(te)(te)(te)(te)(te)(te)(te)征(zheng)(zheng)(zheng)映(ying)(ying)射(she)(she)面(mian)的(de)(de)(de)(de)(de)(de)特(te)(te)(te)(te)(te)(te)(te)征(zheng)(zheng)(zheng)很混亂。然后(hou)(hou)為(wei)了(le)獲得重(zhong)要(yao)(yao)(yao)性(xing)(xing)的(de)(de)(de)(de)(de)(de)評價指標(biao),直(zhi)接(jie)對(dui)這個(ge)(ge)(ge)(ge)特(te)(te)(te)(te)(te)(te)(te)征(zheng)(zheng)(zheng)映(ying)(ying)射(she)(she)面(mian)進行全局平均池化,就得到了(le)長(chang)度(du)為(wei)C的(de)(de)(de)(de)(de)(de)向量(liang)(liang)。然后(hou)(hou)對(dui)這個(ge)(ge)(ge)(ge)向量(liang)(liang)加兩(liang)個(ge)(ge)(ge)(ge)全連接(jie)層,做(zuo)非線性(xing)(xing)映(ying)(ying)射(she)(she),這兩(liang)個(ge)(ge)(ge)(ge)全連接(jie)層的(de)(de)(de)(de)(de)(de)參數,也就是網絡需(xu)要(yao)(yao)(yao)額外學(xue)習的(de)(de)(de)(de)(de)(de)參數。最后(hou)(hou)輸出的(de)(de)(de)(de)(de)(de)向量(liang)(liang),我們可(ke)以看做(zuo)特(te)(te)(te)(te)(te)(te)(te)征(zheng)(zheng)(zheng)的(de)(de)(de)(de)(de)(de)重(zhong)要(yao)(yao)(yao)性(xing)(xing)程度(du),然后(hou)(hou)與特(te)(te)(te)(te)(te)(te)(te)征(zheng)(zheng)(zheng)映(ying)(ying)射(she)(she)面(mian)對(dui)應通道相(xiang)乘就得到特(te)(te)(te)(te)(te)(te)(te)征(zheng)(zheng)(zheng)有序(xu)的(de)(de)(de)(de)(de)(de)特(te)(te)(te)(te)(te)(te)(te)征(zheng)(zheng)(zheng)映(ying)(ying)射(she)(she)面(mian)了(le)。
圖10 特征重標定卷積神經網絡Squeeze-and-Excitation模塊
2017年6月(yue),宇視(shi)科技(uniview)與英(ying)特爾(intel)聯(lian)合發(fa)布VDC12500系列(lie)視(shi)圖(tu)數(shu)據(ju)(ju)中心一體(ti)機『昆侖二代』,采用融合業務(wu)架構,支持CPU 通(tong)(tong)用計算(suan)板(ban)卡(ka)、GPU 計算(suan)板(ban)卡(ka)混(hun)插,實現通(tong)(tong)用計算(suan)業務(wu)、智(zhi)能(neng)(neng)分(fen)析(xi)業務(wu)、大(da)數(shu)據(ju)(ju)業務(wu),廣泛應用于人工智(zhi)能(neng)(neng)城市的建設:一臺可(ke)并發(fa)處理(li)2.4億大(da)庫(ku)智(zhi)能(neng)(neng)搜索(suo)、或(huo)200億人車物的結構化(hua)(hua)數(shu)據(ju)(ju)分(fen)析(xi)、或(huo)8億數(shu)據(ju)(ju)秒級“以圖(tu)搜索(suo)”應用,具備強勁的高并發(fa)處理(li)能(neng)(neng)力(li)和集(ji)群化(hua)(hua)管理(li)能(neng)(neng)力(li)。
昆(kun)侖二(er)(er)代高(gao)性能(neng)專用計(ji)算(suan)(suan)平臺,插(cha)(cha)CPU 板(ban)卡可進行海量(liang)數據(ju)的(de)處理,能(neng)夠快速(su)存儲和索引,多(duo)種數據(ju)進行時空碰撞;插(cha)(cha)GPU 板(ban)卡則繼承全部(bu)昆(kun)侖一代的(de)智(zhi)(zhi)能(neng)分析(xi)功(gong)能(neng)。昆(kun)侖二(er)(er)代=CPU 通用計(ji)算(suan)(suan)+ 大(da)數據(ju)內存計(ji)算(suan)(suan)+GPU 智(zhi)(zhi)能(neng)計(ji)算(suan)(suan),實現視頻調度、大(da)數據(ju)、智(zhi)(zhi)能(neng)等(deng)全部(bu)安防算(suan)(suan)力的(de)融(rong)合。
圖11 英特爾助力昆侖二次進化,成為高性能專用計算平臺,采用彈性可擴展硬件架構,未來可以持續升級
總結
現在越(yue)來越(yue)多的卷積(ji)神經(jing)網絡(luo)模型從巨型網絡(luo)到(dao)輕量化網絡(luo)一步步演變,模型準確率(lv)也(ye)越(yue)來越(yue)高(gao)。當前(qian)人工(gong)智能(neng)(neng)實踐中(zhong)追求的重點(dian)已(yi)經(jing)不只是準確率(lv)的提升,更都(dou)聚焦(jiao)于速度與準確率(lv)的平衡,都(dou)希望模型又(you)快又(you)準。因(yin)此從原來AlexNet、VGGNet,到(dao)體積(ji)小一點(dian)的Inception、ResNet 系列,到(dao)目前(qian)能(neng)(neng)移植到(dao)移動端的MobileNet、ShuffleNet,我們(men)可以看到(dao)這樣(yang)一些(xie)趨(qu)勢(shi):
卷積核方面:
◆ 大卷積核用多個小卷積核代替;
◆ 單一尺寸卷積核用多尺寸卷積核代替;
◆ 固定形狀卷積核趨于使用可變形卷積核;
◆ 使用1×1 卷積(ji)核。
卷積層通道方面:
◆ 標準卷積用逐層卷積代替;
◆ 使用分組卷積;
◆ 分組卷積前使用通道重組(channel
shuffle);
◆ 通道加權計算。
卷積層連接方面:
◆ 使用忽略連接(skip connection),讓模型更深;
◆ 稠密連(lian)接(jie)(densely connection),使每一(yi)層(ceng)都融(rong)合上(shang)其(qi)它層(ceng)的特(te)征輸出(DenseNet)
由(you)此可見(jian),應用于安防領(ling)域的(de)人工智能中的(de)深度卷積神(shen)經網絡模(mo)型(xing)結構,研究(jiu)領(ling)域為了(le)(le)更快(kuai)、更準的(de)檢測(ce)識別目(mu)標,一直在持(chi)續更新模(mo)型(xing)結構,由(you)此也帶來了(le)(le)安防應用的(de)不斷(duan)推陳(chen)出新。
杰夫? 辛頓(Geoffrey Hinton,1947-),以(yi)“深度(du)(du)學(xue)(xue)(xue)習(xi)之父”和“神(shen)(shen)經(jing)網(wang)絡先(xian)驅”聞名于世,其對深度(du)(du)學(xue)(xue)(xue)習(xi)及神(shen)(shen)經(jing)網(wang)絡的諸多(duo)(duo)核心算(suan)法和結(jie)構(包括“深度(du)(du)學(xue)(xue)(xue)習(xi)”這(zhe)個(ge)名稱本身(shen),反向傳(chuan)播算(suan)法,受限(xian)玻爾茲曼機,深度(du)(du)置信網(wang)絡,對比(bi)散度(du)(du)算(suan)法,ReLU 激活單元(yuan),Dropout 防止過擬(ni)合,以(yi)及深度(du)(du)學(xue)(xue)(xue)習(xi)早期在語(yu)音(yin)方面突(tu)破(po))做(zuo)(zuo)出了基礎(chu)性的貢獻。他近幾年(nian)以(yi)“卷積神(shen)(shen)經(jing)網(wang)絡有什(shen)么(me)問(wen)題?”為主(zhu)題做(zuo)(zuo)了多(duo)(duo)場報道,提出了膠囊(nang)(Capsule)計劃(hua)。Hinton 似乎(hu)毫不掩飾要推翻自(zi)己盼了30多(duo)(duo)年(nian)時間才建立起(qi)來的深度(du)(du)學(xue)(xue)(xue)習(xi)帝(di)國(guo)的想法,他根據神(shen)(shen)經(jing)解剖學(xue)(xue)(xue)、認知神(shen)(shen)經(jing)科學(xue)(xue)(xue)、計算(suan)機圖形學(xue)(xue)(xue)的啟發,對卷積神(shen)(shen)經(jing)網(wang)絡產生了動搖。他的這(zhe)種精神(shen)(shen)也獲得了同行李(li)飛飛(ImageNet 創始者)等人肯定。
這標志著人(ren)工(gong)智(zhi)能算法(fa)(fa)并沒有完全成熟(shu)起來(lai),雖(sui)然現在(zai)在(zai)安防領域得到大(da)量應用(yong),但(dan)每種應用(yong)并不是很完美(mei)。這種不完美(mei)既有工(gong)程實踐問題,更有理(li)論模型問題。在(zai)未來(lai)的(de)人(ren)工(gong)智(zhi)能應用(yong)道路上,卷積神(shen)經網(wang)絡或者只是一個暫(zan)時的(de)表現很優(you)秀的(de)算法(fa)(fa),將來(lai)必將會出現更加優(you)秀的(de)算法(fa)(fa)。
參考文獻
[1]//zhuanlan.zhihu.com/p/29367273
[2]//prlab.tudelft.nl/sites/default/files/Deformable_CNN.pdf
[3]//arxiv.org/pdf/1610.02357.pdf
[4]//zhuanlan.zhihu.com/p/28749411
[4]//zhuanlan.zhihu.com/p/29435406