數(shu)(shu)據(ju)(ju)(ju)湖(Data Lake)是(shi)一(yi)種(zhong)在系(xi)統(tong)或存儲庫中(zhong)以(yi)自(zi)然格式存儲數(shu)(shu)據(ju)(ju)(ju)的方法(fa),它有助(zhu)于以(yi)各種(zhong)模式和結構形式配置數(shu)(shu)據(ju)(ju)(ju),通(tong)常是(shi)對(dui)象塊或文件。數(shu)(shu)據(ju)(ju)(ju)湖的主(zhu)要思(si)想是(shi)對(dui)企(qi)業中(zhong)的所有數(shu)(shu)據(ju)(ju)(ju)進行統(tong)一(yi)存儲,從原始(shi)數(shu)(shu)據(ju)(ju)(ju)(這意味著源(yuan)系(xi)統(tong)數(shu)(shu)據(ju)(ju)(ju)的精確(que)副(fu)本(ben))轉換(huan)為用于報(bao)告、可視(shi)化、分析、機器學(xue)習(xi)等各種(zhong)任務的轉換(huan)數(shu)(shu)據(ju)(ju)(ju)。
湖中(zhong)(zhong)的數據(ju)(ju)(ju)包(bao)括:結構化數據(ju)(ju)(ju)從關系(xi)數據(ju)(ju)(ju)庫(行和列(lie)),半結構化數據(ju)(ju)(ju)(CSV、XML、JSON的日志(zhi)),非結構化數據(ju)(ju)(ju)(電(dian)子郵(you)件,文檔,PDF),二進制數據(ju)(ju)(ju)(圖像、音頻、視(shi)頻),從而形成一(yi)個集中(zhong)(zhong)式數據(ju)(ju)(ju)存儲容納所有形式的數據(ju)(ju)(ju)。[1]
數據(ju)(ju)(ju)湖的(de)(de)(de)(de)概念,是相對于(yu)數據(ju)(ju)(ju)倉庫(ku)的(de)(de)(de)(de)預先(xian)數據(ju)(ju)(ju)高度結構化寫(xie)入(ru)格式(shi)(scheme on write)而言(yan)的(de)(de)(de)(de)。由于(yu)大部分數據(ju)(ju)(ju)的(de)(de)(de)(de)價(jia)值還沒有完全明(ming)確,因(yin)此無法做到(dao)(dao)足夠的(de)(de)(de)(de)結構化。此時,就盡可能接(jie)收原始數據(ju)(ju)(ju),等到(dao)(dao)需要讀取時再按(an)照(zhao)讀取模式(shi)(scheme on read)進行數據(ju)(ju)(ju)組(zu)織。
一、數據湖的特點及云端數據治理的必要性
數據湖是包含兩個特征(zheng)的(de)信息系統:
1) 可以保存大(da)數據的并行系統;
2) 能夠(gou)在(zai)數據不移動(dong)的(de)情況下(xia)進行(xing)計算的(de)系(xi)統(tong)。
這意味著,數據本身(shen)的(de)服務(wu)(wu)化(hua)、運營化(hua)被提上了(le)日程。通(tong)過不同的(de)轉(zhuan)換(huan)、清(qing)洗等數據治理體系,將原始數據最終以(yi)業(ye)務(wu)(wu)需要的(de)模式有效輸出。
但從另一方面說(shuo),要(yao)充分(fen)利用數(shu)據(ju)(ju)湖(hu)(hu)的(de)(de)(de)能力,就需要(yao)從整個IT及數(shu)據(ju)(ju)治理(li)的(de)(de)(de)角度來構(gou)(gou)建(jian)有效(xiao)的(de)(de)(de)數(shu)據(ju)(ju)輸入輸出,否則極其容易出現“單向”數(shu)據(ju)(ju)湖(hu)(hu),進而演(yan)變成數(shu)據(ju)(ju)的(de)(de)(de)垃圾(ji)場。在數(shu)據(ju)(ju)倉庫(ku)之父Bill Inmon的(de)(de)(de)專著《數(shu)據(ju)(ju)湖(hu)(hu)架(jia)構(gou)(gou)》中(zhong),提出了(le)通(tong)過分(fen)類(lei)數(shu)據(ju)(ju)池(chi)(pool)的(de)(de)(de)模式,來構(gou)(gou)建(jian)一個具備(bei)分(fen)析(xi)操作能力的(de)(de)(de)數(shu)據(ju)(ju)湖(hu)(hu)的(de)(de)(de)架(jia)構(gou)(gou),從而達到數(shu)據(ju)(ju)的(de)(de)(de)最(zui)大效(xiao)用比。[2]Bill的(de)(de)(de)思路沒有問題,但如(ru)何針對(dui)各種繁雜的(de)(de)(de)業(ye)務(wu)流程進行不同(tong)分(fen)類(lei)數(shu)據(ju)(ju)池(chi)的(de)(de)(de)構(gou)(gou)建(jian),則需要(yao)根據(ju)(ju)不同(tong)行業(ye)的(de)(de)(de)特(te)點(dian)來合理(li)規劃(hua)不同(tong)數(shu)據(ju)(ju)池(chi)。也就是說(shuo),要(yao)構(gou)(gou)建(jian)有效(xiao)的(de)(de)(de)數(shu)據(ju)(ju)湖(hu)(hu)架(jia)構(gou)(gou),必(bi)須要(yao)有合理(li)的(de)(de)(de)數(shu)據(ju)(ju)治理(li)體系。
圖 數據生命周期管理&數據安全管理
二、云端數據治理的定義
目前越來越多的企業(ye)將業(ye)務系統(tong)數(shu)據(ju)部署在云端,其在操作方面的新特(te)點,如數(shu)據(ju)的遠程(cheng)存儲和傳輸(shu)、數(shu)據(ju)安(an)全性等,都超越了傳統(tong)的數(shu)據(ju)治理體(ti)系范疇,這就引出了云端數(shu)據(ju)治理的體(ti)系。
云端數(shu)據治理(li)是以云端數(shu)據為主要治理(li)對象,制定與云端數(shu)據戰略(lve)、數(shu)據管理(li)、數(shu)據優化(hua)、數(shu)據安(an)全(quan)、隱(yin)私保護等相(xiang)關(guan)策略(lve),指導組織規劃、構建(jian)、評估、優化(hua)數(shu)據治理(li)體系的(de)活動(dong)集合。[3]
一個(ge)完整的云端數(shu)據(ju)治流程(cheng)主(zhu)要圍繞如(ru)下方面(mian)實(shi)施:管(guan)(guan)理(li)元數(shu)據(ju)、管(guan)(guan)理(li)主(zhu)數(shu)據(ju)、提高(gao)數(shu)據(ju)質(zhi)量、數(shu)據(ju)生命(ming)周期管(guan)(guan)理(li)、數(shu)據(ju)安(an)全管(guan)(guan)理(li),然后通過在(zai)不同(tong)數(shu)據(ju)池(chi)中(zhong)進(jin)行各個(ge)方面(mian)的過程(cheng)實(shi)施,構建(jian)一個(ge)有效數(shu)據(ju)湖。
“無(wu)治(zhi)理不信息”,是指這(zhe)里的數據要(yao)轉變為信息,進而提(ti)煉成知識,必須通過數據治(zhi)理,才能(neng)帶(dai)來(lai)更(geng)多的價(jia)值。
圖 數據生命周期管理中的成本考量
三、安防和AI的數據湖
3.1 安防視頻監控系統的數據要求
對一套(tao)安防(fang)系(xi)統而言,數以萬(wan)計(ji)的相機接(jie)入,數據(ju)洪流源源不斷(duan)流入后端云存儲系(xi)統中,導致如(ru)下幾個數據(ju)訴求:
1、海量多媒體(ti)數(shu)據(ju)內容組織、檢索;具體(ti)來講,對圖像的調度時間要求≤1秒(miao);
編解(jie)碼及整網傳輸延(yan)時≤300毫秒;監控(kong)系統規(gui)模再大(da)也不能(neng)影響這個指標;
多維度的內容組(zu)織(zhi)及挖掘,前端及后端智能結合(he),內容大數(shu)據索引化。
圖 宇視SMV安防機器視覺戰略框圖
2、數據保存的安全可靠性
圖(tu)(tu)像數據需要專業存儲(chu)設備存儲(chu)并(bing)用RAID,甚至多節點糾(jiu)刪卷(juan)進(jin)行保護(hu);讀(du)寫分離體系,數據存儲(chu)永遠(yuan)放在第一位保證,無論錄像還是圖(tu)(tu)片;
優化的數據組(zu)織方式(shi),更懂存儲特質的數據業(ye)務設計,最(zui)大化挖掘(jue)不同存儲介質性(xing)能;
端到端接入授權(quan)、全鏈(lian)路數(shu)據加密保(bao)障(zhang)的安全保(bao)障(zhang),無論是中間(jian)網絡截獲還是存(cun)儲介質(zhi)暴露,均無法直接恢復出(chu)有效數(shu)據。
3.2 AI帶來的數據存儲挑戰
一方面,存(cun)(cun)儲(chu)對(dui)象由最(zui)早單純的(de)原始視頻變到(dao)了(le)視頻、圖片(pian)、AI分析(xi)后(hou)的(de)結(jie)構化(hua)半結(jie)構化(hua)數(shu)(shu)據(ju)。對(dui)象的(de)改變,使得存(cun)(cun)儲(chu)系統(tong)(tong)要更多的(de)考慮,如何更好(hao)的(de)去(qu)適配(pei)多樣化(hua)的(de)存(cun)(cun)儲(chu)對(dui)象?如何最(zui)高效的(de)去(qu)存(cun)(cun)儲(chu)各類數(shu)(shu)據(ju),并提供可靠的(de)保護(hu)?海量(liang)小文(wen)件(jian)混合存(cun)(cun)儲(chu)的(de)時候(hou),如何避(bi)免(mian)傳(chuan)統(tong)(tong)存(cun)(cun)儲(chu)中性能的(de)大打折扣(kou)?
另一方(fang)面(mian),存儲(chu)的(de)(de)(de)寫讀模型也(ye)發(fa)生了(le)大變化(hua)(hua)。原先的(de)(de)(de)原始視頻存入(ru)存儲(chu)后基本不會被調閱,寫讀模型基本為10:1,但AI技術的(de)(de)(de)出(chu)現徹底激(ji)活(huo)了(le)這些數據,存入(ru)的(de)(de)(de)視頻可以(yi)被高(gao)性能分(fen)析服務器提(ti)取(qu)進(jin)行人物分(fen)析、車型分(fen)析、結構(gou)化(hua)(hua)分(fen)析,寫讀模型也(ye)變成了(le)1:1甚至是(shi)(shi)1:N。在這樣的(de)(de)(de)寫讀模型下,對(dui)存儲(chu)設備也(ye)提(ti)出(chu)了(le)更高(gao)要(yao)求(qiu),存儲(chu)不再(zai)是(shi)(shi)單單考慮如何存的(de)(de)(de)更快存的(de)(de)(de)更多(duo),而是(shi)(shi)要(yao)考慮如何與(yu)AI業務融合,最優結合。
而(er)當(dang)AI技(ji)術對數(shu)(shu)據(ju)價值進行提煉后,提煉出來的(de)(de)(de)數(shu)(shu)據(ju)價值就發生了變化。例如:可能原始視頻(pin)只需要(yao)(yao)保(bao)留30天(tian),但是(shi)經過結(jie)構化分析后的(de)(de)(de)涉案嫌疑人圖片的(de)(de)(de)重(zhong)要(yao)(yao)性(xing)就不言而(er)喻了,需要(yao)(yao)永久(jiu)保(bao)存(cun)(cun)。所以當(dang)一套存(cun)(cun)儲系統(tong)中存(cun)(cun)在這樣(yang)(yang)那樣(yang)(yang)不同重(zhong)要(yao)(yao)程(cheng)度的(de)(de)(de)數(shu)(shu)據(ju)時,完(wan)善的(de)(de)(de)生命(ming)周(zhou)期管理體(ti)系、如何來區分數(shu)(shu)據(ju)的(de)(de)(de)重(zhong)要(yao)(yao)性(xing),并(bing)提供有層次的(de)(de)(de)保(bao)護技(ji)術就變得尤為重(zhong)要(yao)(yao)。
當上(shang)面(mian)的(de)(de)種種挑戰出現后,我(wo)們還將直面(mian)一(yi)個現實問題:在爆炸量的(de)(de)數據、超(chao)高的(de)(de)性(xing)能(neng)要求(qiu)和翻倍的(de)(de)成本(ben)面(mian)前(qian),我(wo)們如何去追求(qiu)性(xing)能(neng)容量的(de)(de)最(zui)優(you)配比,找(zhao)到(dao)最(zui)低TCO的(de)(de)方案(an),實現最(zui)優(you)解。
這一系(xi)列的(de)變化,促使安防數(shu)(shu)據已經演變成了一個新的(de)數(shu)(shu)據湖(hu),必須借助一系(xi)列的(de)數(shu)(shu)據治理手(shou)段,才(cai)能推動數(shu)(shu)據的(de)有效(xiao)利用。
圖 數據在不同存儲介質之間的流轉模式
四、宇視云存儲的數據湖解決方案
2016年,宇(yu)視(shi)發(fa)布SMV安(an)防(fang)機器視(shi)覺戰略(lve),其中(zhong)很重要的(de)一(yi)點就是充分認識AI對于安(an)防(fang)數(shu)據(ju)(ju)的(de)變革訴求。以視(shi)圖(tu)服務化體系模式,在(zai)宇(yu)視(shi)云存儲(chu)中(zhong)通(tong)過構(gou)建“視(shi)頻原(yuan)始數(shu)據(ju)(ju)池(chi)(chi)(chi)”、“圖(tu)片原(yuan)始數(shu)據(ju)(ju)池(chi)(chi)(chi)”、“半(ban)結(jie)構(gou)化數(shu)據(ju)(ju)池(chi)(chi)(chi)”、“結(jie)構(gou)化數(shu)據(ju)(ju)池(chi)(chi)(chi)”、“歸檔數(shu)據(ju)(ju)池(chi)(chi)(chi)”等(deng)多個數(shu)據(ju)(ju)池(chi)(chi)(chi)的(de)聯動(dong),并(bing)根據(ju)(ju)數(shu)據(ju)(ju)特點引入(ru)SSD、硬(ying)盤、磁帶庫等(deng)不同存儲(chu)介質來(lai)適配下圖(tu)中(zhong)數(shu)據(ju)(ju)訪問模型(xing),在(zai)統(tong)(tong)一(yi)的(de)數(shu)據(ju)(ju)治理(li)框(kuang)架(jia)下,通(tong)過安(an)防(fang)標準和TCO的(de)統(tong)(tong)一(yi)考量(liang)體系,借助(zhu)不同介質特點,控(kong)制數(shu)據(ju)(ju)的(de)流(liu)轉,達到數(shu)據(ju)(ju)生命周期管理(li)的(de)最佳實踐,真正(zheng)構(gou)建出高效(xiao)有用(yong)的(de)安(an)防(fang)數(shu)據(ju)(ju)湖。
圖 數據分割對安全的輔助作用
4.1 原始數據池的治理
主數據:對于原始(shi)視頻或圖(tu)片來說(shuo),數據(ju)本(ben)身即是主數據(ju);
元數據:對于視(shi)頻監控系統來(lai)說,視(shi)頻或圖片對時(shi)間(jian)性有天生(sheng)的(de)訴求,以時(shi)間(jian)作為(wei)元數(shu)據(ju)進行主數(shu)據(ju)的(de)管理,能(neng)達到(dao)便捷調取“一手數(shu)據(ju)”的(de)目(mu)的(de),如視(shi)頻回放、圖片瀏覽;
數據生命周期管理:安防原始數據,嚴格按照各個部門體系要求的留存期(如相關部門要求90天)進行生命周期管理,超過留存期則需要刪除老的視頻或圖片;
TCO考量:從數據使用(yong)頻率來(lai)看(kan),依(yi)然有明(ming)顯(xian)冷熱區(qu)別,而且有非常明(ming)顯(xian)的時間(jian)(jian)相關性(xing),這樣就(jiu)可以靈活控制原始數據在(zai)帶(dai)電內存(cun)緩存(cun)層(ceng)、SSD加速層(ceng)、硬盤主存(cun)儲空(kong)間(jian)(jian)層(ceng)、磁帶(dai)庫歸檔(dang)存(cun)儲層(ceng)之間(jian)(jian)流轉,最(zui)大化TCO應用(yong)。
數據安全控制,重(zhong)點包括(kuo):
自定義的從(cong)源頭對(dui)圖像進行保護,從(cong)非(fei)法(fa)途徑獲取原(yuan)始視(shi)頻都(dou)是馬賽(sai)克(ke)效(xiao)果,視(shi)頻只能(neng)在平臺內正(zheng)常查看;
離線(xian)下載圖像(xiang)專人(ren)專用,專門(men)密(mi)鑰保(bao)護;通過和身份水印(yin)結合,即便用手機(ji)等設(she)備翻拍,也能夠(gou)追溯(su)泄(xie)漏途徑;
不基(ji)于(yu)文件進行(xing)存(cun)儲組織(zhi),自定義數(shu)據(ju)節(jie)點內及節(jie)點間離散(san)策略(lve)、存(cun)儲空間多節(jie)點拉(la)通池化(hua)、數(shu)據(ju)塊級格式(shi)保護,非平(ping)臺內操作,數(shu)據(ju)無跡(ji)可尋。
圖 宇視云存儲架構框圖
4.2 半結構化數據池的建設
主數據:對(dui)安防監(jian)控(kong)系統來說,半結構化數(shu)據(ju)(ju)主要是一(yi)種(zhong)數(shu)據(ju)(ju)轉換的(de)中間過程,比如對(dui)一(yi)段(duan)視(shi)頻(pin)識別出來的(de)有(you)相關(guan)物體(ti)存在的(de)片段(duan)視(shi)頻(pin)文件,以及(ji)相關(guan)運(yun)動(dong)信(xin)息文本(ben)、車輛圖(tu)片中摳取的(de)駕駛員信(xin)息或車牌信(xin)息及(ji)其相關(guan)區域小圖(tu)、識別算法輸出的(de)特質(zhi)碼數(shu)據(ju)(ju)等(deng)等(deng)。
元數據:根(gen)據(ju)(ju)(ju)時間,組織車牌、運動特(te)征(zheng)與相關文件、圖片(pian)的(de)對應關系(xi),但這個(ge)關系(xi)本身也包含很多(duo)無模式的(de)數(shu)(shu)(shu)據(ju)(ju)(ju)列,最終形成時空(kong)數(shu)(shu)(shu)據(ju)(ju)(ju)庫(ku)進(jin)(jin)行元(yuan)(yuan)數(shu)(shu)(shu)據(ju)(ju)(ju)管(guan)理(li),元(yuan)(yuan)數(shu)(shu)(shu)據(ju)(ju)(ju)量級往往不(bu)是特(te)別多(duo),數(shu)(shu)(shu)據(ju)(ju)(ju)量一般在TB級以(yi)內,此外(wai)對于元(yuan)(yuan)數(shu)(shu)(shu)據(ju)(ju)(ju)本身還有(you)一個(ge)數(shu)(shu)(shu)據(ju)(ju)(ju)清洗的(de)過程,如基于識(shi)別算法的(de)數(shu)(shu)(shu)據(ju)(ju)(ju)可以(yi)將識(shi)別率(lv)比較差的(de)數(shu)(shu)(shu)據(ju)(ju)(ju)進(jin)(jin)行排除。
數據生命周期管理:這種業務中,元數據(ju)(ju)的生命(ming)周期與部(bu)分(fen)(fen)主(zhu)數據(ju)(ju)不一(yi)(yi)定一(yi)(yi)致,因為這里的元數據(ju)(ju)還(huan)有(you)進一(yi)(yi)步歷史深(shen)度分(fen)(fen)析的可(ke)能,而部(bu)分(fen)(fen)如短視(shi)頻、圖(tu)片(pian)(pian)一(yi)(yi)般超(chao)過1年就可(ke)做失效處(chu)理,當然也(ye)有(you)部(bu)分(fen)(fen)需(xu)(xu)要長期保存的短視(shi)頻或圖(tu)片(pian)(pian),但涉及面(mian)也(ye)不是(shi)很多,有(you)的話直(zhi)接歸檔(dang)(dang)到歸檔(dang)(dang)數據(ju)(ju)池即(ji)可(ke),由于(yu)業務本身往往集(ji)中在1年內,超(chao)過1年的元數據(ju)(ju)可(ke)以(yi)統一(yi)(yi)歸檔(dang)(dang)到歸檔(dang)(dang)數據(ju)(ju)池中,用于(yu)后續可(ke)能的數據(ju)(ju)挖掘需(xu)(xu)求,如此達到更合理的成(cheng)本控制目的。
圖 TCO考量速率表
TCO考量:根(gen)據訪問速率要求,一般(ban)如(ru)上(shang)表設計
數據安全控制:通過元(yuan)數(shu)據(ju)與主(zhu)(zhu)數(shu)據(ju)的分離(li)存(cun)儲(chu)(chu),主(zhu)(zhu)數(shu)據(ju)存(cun)儲(chu)(chu)統一到原始數(shu)據(ju)池的存(cun)儲(chu)(chu)模式(shi),利用數(shu)據(ju)打散(san)及自(zi)定義塊(kuai)分布,極大增(zeng)加了(le)數(shu)據(ju)的獨立恢(hui)復難度(du);
對于元數(shu)據來說,數(shu)據訪問會進行(xing)嚴格的(de)平臺用戶認證,此外特征碼本(ben)身就是一(yi)種(zhong)數(shu)學運算的(de)中間過程記錄(lu),必須輔(fu)以獨立的(de)算法(fa)過程才有解析(xi)的(de)可能,而算法(fa)本(ben)身并(bing)不會記錄(lu),結合宇視特有的(de)多算法(fa)聯(lian)動框架(jia),不同特征碼的(de)生成并(bing)不會歸一(yi)到同一(yi)種(zhong)算法(fa)。
4.3 結構化數據池
結構化的數(shu)據(ju)是(shi)指(zhi)可以使用關(guan)(guan)系(xi)型數(shu)據(ju)庫表(biao)示(shi)和存儲,表(biao)現為二(er)維(wei)形式的數(shu)據(ju)。一般(ban)特點(dian)是(shi):數(shu)據(ju)以行為單位,一行數(shu)據(ju)表(biao)示(shi)一個實體(ti)的信息,每一行數(shu)據(ju)的屬性是(shi)相同(tong)的。這(zhe)(zhe)個在安防視(shi)頻監控(kong)業務中,基(ji)本都是(shi)對設(she)備、業務、流程(cheng)等的過程(cheng)建模,形成的設(she)備配置、業務關(guan)(guan)系(xi)等數(shu)據(ju),一般(ban)量級都比(bi)較小,這(zhe)(zhe)部分基(ji)本使用服務器或計算板的集(ji)群支(zhi)持即可。
結構化(hua)數據(ju)池會定(ding)期進(jin)行數據(ju)備份,類(lei)似IT企業中增量、全(quan)量策略相(xiang)結合的模式,可以將數據(ju)歸檔(dang)到(dao)“歸檔(dang)數據(ju)池”。
4.4 歸檔數據池
歸(gui)(gui)檔(dang)數(shu)(shu)(shu)(shu)據池(chi)(chi)構(gou)(gou)建在磁帶庫的(de)(de)(de)存(cun)儲介質之上,借助結(jie)構(gou)(gou)化數(shu)(shu)(shu)(shu)據池(chi)(chi)來保存(cun)流(liu)入(ru)歸(gui)(gui)檔(dang)數(shu)(shu)(shu)(shu)據池(chi)(chi)中不同種類數(shu)(shu)(shu)(shu)據的(de)(de)(de)索引信息(xi)。歸(gui)(gui)檔(dang)數(shu)(shu)(shu)(shu)據池(chi)(chi)為歸(gui)(gui)檔(dang)業務服務,當前主要包括(kuo)視頻(pin)圖片池(chi)(chi)冷數(shu)(shu)(shu)(shu)據的(de)(de)(de)歸(gui)(gui)檔(dang)、非結(jie)構(gou)(gou)化數(shu)(shu)(shu)(shu)據池(chi)(chi)中元(yuan)數(shu)(shu)(shu)(shu)據歸(gui)(gui)檔(dang)、結(jie)構(gou)(gou)化數(shu)(shu)(shu)(shu)據池(chi)(chi)的(de)(de)(de)定期備份歸(gui)(gui)檔(dang)。
歸(gui)檔數(shu)據(ju)池本身也有(you)生命周期,不(bu)同的數(shu)據(ju)種類留存(cun)期也不(bu)同。對于原始視頻池的冷數(shu)據(ju),其依(yi)然有(you)固定的最長(chang)留存(cun)期,超(chao)過即進行最老(lao)刪除;而對于非結構化池元數(shu)據(ju)和(he)結構化數(shu)據(ju)池的備份,則視配置空間而定,當(dang)歸(gui)檔數(shu)據(ju)池依(yi)然有(you)可用空間,則均不(bu)會進行老(lao)數(shu)據(ju)的退(tui)化,直到無可用空間時才進行最老(lao)數(shu)據(ju)的刪除。
4.5 數據池間數據的流轉
至此(ci),我們設計了原始(shi)數(shu)據(ju)(ju)池(chi)(chi)、半(ban)(ban)(ban)結(jie)構化數(shu)據(ju)(ju)池(chi)(chi)、結(jie)構化數(shu)據(ju)(ju)池(chi)(chi)、歸檔數(shu)據(ju)(ju)池(chi)(chi)。通過對原始(shi)數(shu)據(ju)(ju)池(chi)(chi)的(de)(de)(de)(de)智能分析識別,構建(jian)了多(duo)媒體的(de)(de)(de)(de)半(ban)(ban)(ban)結(jie)構化數(shu)據(ju)(ju)池(chi)(chi);為支持更(geng)有(you)效(xiao)的(de)(de)(de)(de)業(ye)務(wu)應用,半(ban)(ban)(ban)結(jie)構化數(shu)據(ju)(ju)池(chi)(chi)自身會進一步進行分析和(he)清洗,進而提升業(ye)務(wu)的(de)(de)(de)(de)靶(ba)向性,從而滿足(zu)業(ye)務(wu)數(shu)據(ju)(ju)建(jian)模的(de)(de)(de)(de)需要,構建(jian)業(ye)務(wu)結(jie)構化數(shu)據(ju)(ju)。此(ci)外需要強調的(de)(de)(de)(de)是,這幾個數(shu)據(ju)(ju)池(chi)(chi)都是邏輯上(shang)的(de)(de)(de)(de)業(ye)務(wu)區分,并不要求嚴格意義(yi)上(shang)的(de)(de)(de)(de)介質分離(li)建(jian)設,如(ru)半(ban)(ban)(ban)結(jie)構化形成的(de)(de)(de)(de)短視(shi)頻/圖(tu)片依然(ran)可以(yi)使(shi)用原始(shi)數(shu)據(ju)(ju)池(chi)(chi)的(de)(de)(de)(de)內(nei)容,僅(jin)(jin)僅(jin)(jin)形成無模式數(shu)據(ju)(ju)存(cun)儲的(de)(de)(de)(de)元數(shu)據(ju)(ju)即可,這樣能達到整個云存(cun)儲系統中數(shu)據(ju)(ju)流轉的(de)(de)(de)(de)高效(xiao)性。
歸(gui)(gui)檔數(shu)據池為(wei)整個數(shu)據湖提供了(le)數(shu)據歸(gui)(gui)檔等長(chang)期保(bao)存服(fu)務(wu),在(zai)數(shu)據生命周期管(guan)理以及TCO管(guan)理方面(mian)提供了(le)一種權衡實現,兼顧了(le)業務(wu)的(de)實時性和投入成本(ben)的(de)最(zui)優化。
圖 數據湖中不同數據池間的數據轉換
五、總結
宇視(shi)云存儲通過服務化(hua)的(de)體系建設,支(zhi)撐了安(an)防(fang)業務中多種多樣的(de)數(shu)據(ju)承載,正(zheng)是基于云端數(shu)據(ju)治理(li)的(de)框架,最終達(da)到了數(shu)據(ju)湖(hu)的(de)高效流轉(zhuan)。
參考文獻
[1]//en.wikipedia.org/wiki/Data_lake
[2][美]Bill Inmon,吳文磊 譯,數據湖架構,人民郵電出版社,2018-04-01
[3]程廣明,李堯,劉小(xiao)茵,云端數據治理定(ding)義解析,科技創新(xin)導(dao)報,2017年16期