搜文檔
認(rèn)證信息
認(rèn)證類型:個(gè)人認(rèn)證
認(rèn)證主體:常**(實(shí)名認(rèn)證)
IP屬地:河北
下載本文檔
版權(quán)說(shuō)明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)
1、隨著信息化的深入,企業(yè)積累了大量數(shù)據(jù)。企業(yè)紛紛將分散的業(yè)務(wù)數(shù)據(jù)集成起來(lái),建立數(shù)據(jù)倉(cāng)庫(kù),為決策提供支持。然而,在數(shù)據(jù)倉(cāng)庫(kù)建設(shè)過(guò)程中,數(shù)據(jù)源數(shù)據(jù)存在缺失、異常和重復(fù)等質(zhì)量問(wèn)題,數(shù)據(jù)集成又容易引入新的質(zhì)量問(wèn)題,使得最終數(shù)據(jù)倉(cāng)庫(kù)數(shù)據(jù)的質(zhì)量不高。高質(zhì)量的決策依賴高質(zhì)量的數(shù)據(jù),因此必須對(duì)數(shù)據(jù)進(jìn)行質(zhì)量管理和控制。 為了解決數(shù)據(jù)倉(cāng)庫(kù)建設(shè)中的數(shù)據(jù)質(zhì)量問(wèn)題,設(shè)計(jì)數(shù)據(jù)質(zhì)量管理系統(tǒng)對(duì)來(lái)自多個(gè)源的數(shù)據(jù)的質(zhì)量進(jìn)行監(jiān)控和管理,并對(duì)發(fā)現(xiàn)的質(zhì)量問(wèn)題,提供清洗方
2、法。系統(tǒng)包括數(shù)據(jù)質(zhì)量檢測(cè)組件、重復(fù)數(shù)據(jù)檢測(cè)組件、錯(cuò)誤數(shù)據(jù)清洗模塊和質(zhì)量問(wèn)題統(tǒng)計(jì)模塊幾個(gè)部分。數(shù)據(jù)質(zhì)量檢測(cè)組件采用基于規(guī)則校驗(yàn)的方式,實(shí)現(xiàn)對(duì)各種錯(cuò)誤數(shù)據(jù)的檢測(cè);重復(fù)數(shù)據(jù)檢測(cè)組件主要是對(duì)數(shù)據(jù)集中重復(fù)記錄進(jìn)行識(shí)別和處理,并將改進(jìn)的基于語(yǔ)義的編輯距離計(jì)算中文字段相似度的方法引入到重復(fù)記錄識(shí)別中,能提高含有中文字段的記錄的重復(fù)記錄識(shí)別的準(zhǔn)確性;錯(cuò)誤數(shù)據(jù)清洗模塊主要是對(duì)檢測(cè)出的錯(cuò)誤數(shù)據(jù)進(jìn)行清洗回流;質(zhì)量問(wèn)題統(tǒng)計(jì)模塊主要是對(duì)數(shù)據(jù)質(zhì)量檢測(cè)組件檢測(cè)過(guò)程中
0/150
提交評(píng)論
聯(lián)系客服
本站為文檔C2C交易模式,即用戶上傳的文檔直接被用戶下載,本站只是中間服務(wù)平臺(tái),本站所有文檔下載所得的收益歸上傳人(含作者)所有。眾賞文庫(kù)僅提供信息存儲(chǔ)空間,僅對(duì)用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)上載內(nèi)容本身不做任何修改或編輯。若文檔所含內(nèi)容侵犯了您的版權(quán)或隱私,請(qǐng)立即通知眾賞文庫(kù),我們立即給予刪除!
Copyright ? 2013-2023 眾賞文庫(kù)版權(quán)所有 違法與不良信息舉報(bào)電話:15067167862
復(fù)制分享文檔地址
http://www.airport-pavements-failure.com/shtml/view-2060780.html
復(fù)制
下載本文檔
評(píng)論
0/150
提交評(píng)論