

版權說明:本文檔由用戶提供并上傳,收益歸屬內容提供方,若內容存在侵權,請進行舉報或認領
文檔簡介
1、直方圖由20世紀統(tǒng)計學的偉大奠基人Karl Pearson提出,經過多年的發(fā)展,現已成為估計統(tǒng)計對象分布特性的一個重要數學工具。直方圖在信息科學的眾多領域都得到了廣泛應用,其中包括統(tǒng)計數據發(fā)布、概率數據建模和多媒體數據特征抽取和表征等。然而在這些實際應用中,使用直方圖對數據建模仍面臨一些挑戰(zhàn)性問題,表現在以下幾個方面:首先,近期研究發(fā)現直接發(fā)布敏感數據集的直方圖仍有可能泄露用戶隱私;其次,現有的直方圖相似性搜索技術僅使用簡單的距離函數(
2、例如Lp范式距離)來量化直方圖之間的相似性,容易造成搜索結果與人們的直觀預期不匹配。為了解決這些問題,本文對直方圖應用中的新型數據管理技術進行研究,對于直方圖應用的進一步發(fā)展具有重要的理論意義和實用價值。
本文以直方圖的典型應用場景為出發(fā)點,從直方圖的構造、直方圖的索引存儲和直方圖的相似性搜索這三個方面展開研究。在直方圖的構造方面,信息安全領域的研究人員發(fā)現在敏感數據集上直接構造出的數據統(tǒng)計直方圖有可能泄露用戶的隱私。由于對攻
3、擊者的背景知識和攻擊手段沒有嚴格的假設,差分隱私(Differential Privacy)作為一種新型的隱私保護模型受到了廣泛關注,因此構造高可用性的差分隱私直方圖是當下數據安全領域的研究熱點。本文設計了新型的差分隱私直方圖的構造方法,在保證直方圖不會泄露用戶敏感信息的前提下盡可能提高直方圖的數據可用性。在直方圖的索引存儲和相似性搜索方面,計算機視覺領域的研究發(fā)現基于EMD距離(Earth Mover's Distance)對直方圖進
4、行相似性搜索能夠返回與人們預期的搜索結果相一致的搜索結果。然而求解EMD距離的函數卻具有三次方的高時間復雜度。本文設計了面向EMD距離的高效索引存儲結構,并在此基礎上分別提出了數據庫環(huán)境下和數據流環(huán)境下基于EMD距離的直方圖相似性搜索算法。本文提出的算法都極大提高了基于EMD距離的相似性搜索的處理效率。本文的主要研究內容和創(chuàng)新點包括:
第一,提出了基于均值的差分隱私直方圖構造方法,包括Mean-NoiseFirst方法和Mea
5、n-StructureFirst方法。利用V-Optimal直方圖構造技術將原始頻數序列上位置鄰近取值相似的頻數合并到一個數據桶。由于使用均值統(tǒng)計量作為數據桶內各個頻數的代表頻數,可以有效平滑或降低為了滿足差分隱私模型限制而向數據桶內各個頻數上添加的噪音。使用真實數據集進行實驗評估證明:Mean-NoiseFirst方法和Mean-StructureFirst方法構造的差分隱私直方圖比之前最好的方法構造的差分隱私直方圖在數據精度上有顯著
6、提高。
第二,提出了基于中位數的差分隱私直方圖構造方法,包括Median-NoiseFirst方法和Median-StructureFirst方法。由于使用中位數統(tǒng)計量作為數據桶內各個頻數的代表頻數,有效避免了數據桶內添加的極端值噪音對數據桶代表頻數的影響。實驗證實,基于中位數的Median-StructureFirst方法不但顯著優(yōu)于基于均值的Mean-StructureFirst方法,更比之前最好的Boost方法和Priv
7、elet方法所構造直方圖的數據質量平均提高了1倍。當隱私保護需求較高時,基于中位數的Median-NoiseFirst方法顯著優(yōu)于基于均值的Mean-NoiseFirst方法。而在隱私保護需求較低時,Mean-NoiseFirst方法則更有優(yōu)勢。特別地,Median-NoiseFirst方法構造的差分隱私直方圖在應答單位范圍計數查詢時的結果精度比之前最好的Dwork方法的結果精度最多提高了5倍。
第三,提出了面向EMD距離的直
8、方圖高效索引和存儲策略。利用線性規(guī)劃中的對偶理論將直方圖映射至一維實數空間,繼而采用經典的B+樹結構索引一維映射空間內的各個映射點。為了使索引結構高效支持基于EMD距離的相似性搜索,搭建了直方圖在B+樹上的鍵值和直方圖之間的EMD距離的聯(lián)系,為基于索引的數據剪枝提供了基本思路。與先前提出的索引結構不同,基于該索引結構進行剪枝過濾能夠保證查詢結果的完備性,即不會錯誤過濾掉任一查詢結果對象。
第四,以面向EMD距離的直方圖索引和存
9、儲策略為基礎,提出了數據庫環(huán)境下基于EMD距離的直方圖相似性搜索算法,包括范圍查詢算法和k-近鄰查詢算法。在處理范圍查詢時,將對直方圖記錄集的范圍查詢轉變?yōu)閷+樹索引鍵值空間的子范圍查詢,成功過濾掉了大量無關記錄。在處理k-近鄰查詢時,根據當前的查詢結果自動調整B+樹上的搜索范圍,成功約簡了k-近鄰查詢的搜索空間。基于真實數據集進行大量實驗評估證實了本文提出的基于EMD距離的相似性搜索技術的查詢處理性能比先前最好方法的查詢處理性能平均
10、提高了1倍。
第五,提出了數據流環(huán)境下基于EMD距離的直方圖連續(xù)相似性搜索技術。利用EMD距離的對偶線性規(guī)劃問題的可行解高效過濾數據流上的無關直方圖記錄。同時結合數據流的特性,設計了可行解動態(tài)更新策略和多查詢共享策略,進一步提高系統(tǒng)的查詢處理效率。以本文提出的基于EMD距離的連續(xù)相似性搜索技術為基礎,開發(fā)了在線視頻流盜版視頻幀實時檢測系統(tǒng)。由于使用了一系列針對數據流環(huán)境的查詢優(yōu)化策略,演示系統(tǒng)在同時處理80個連續(xù)查詢時,仍能保
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網頁內容里面會有圖紙預覽,若沒有圖紙預覽就沒有圖紙。
- 4. 未經權益所有人同意不得將文件中的內容挪作商業(yè)或盈利用途。
- 5. 眾賞文庫僅提供信息存儲空間,僅對用戶上傳內容的表現方式做保護處理,對用戶上傳分享的文檔內容本身不做任何修改或編輯,并不能對任何下載內容負責。
- 6. 下載文件中如有侵權或不適當內容,請與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。
最新文檔
- 數據倉庫元數據管理技術研究與應用.pdf
- XML數據管理中的結構查詢技術研究.pdf
- 對等數據管理系統(tǒng)中數據映射的推導技術研究.pdf
- 流數據管理關鍵技術研究與應用.pdf
- 對等網中數據管理的容錯技術研究.pdf
- 基于NoSQL的大數據管理技術研究與應用.pdf
- 面向數據密集型應用的數據管理關鍵技術研究.pdf
- 產品數據管理中的關鍵技術研究.pdf
- WEB數據管理與查詢技術研究.pdf
- 基于rdbms的xml數據管理技術研究
- 試驗數據管理技術研究及其在航空領域的應用.pdf
- 產品數據管理中項目管理的關鍵技術研究.pdf
- 面向WEB的XML數據管理技術研究.pdf
- 造船企業(yè)產品數據管理應用技術研究.pdf
- 面向對象的XML數據管理技術研究.pdf
- XML數據管理關鍵技術研究.pdf
- p2p數據管理系統(tǒng)中的事務技術研究
- 物聯(lián)網中海量數據管理技術研究.pdf
- 汽車試驗數據管理與重用技術研究.pdf
- 面向方面的XML數據管理技術研究.pdf
評論
0/150
提交評論