摘要:大數(shù)據(jù)時代的到來給傳統(tǒng)的數(shù)據(jù)查詢帶來了性能挑戰(zhàn),即使查詢算法有著O(n)的線性復(fù)雜度,但當(dāng)n極大時其時間開銷也難以滿足用戶需求。在很多實際應(yīng)用中,人們并不需要精確的查詢結(jié)果,但要求在給定時間內(nèi)完成查詢,因此可適當(dāng)犧牲查詢精度以滿足性能約束。采樣查詢通過約簡查詢范圍來提高查詢性能,現(xiàn)有的采樣方法多針對特定的算法和特定的應(yīng)用場景,缺乏大數(shù)據(jù)環(huán)境下一般性的采樣查詢方法以及保證性能和精度的研究。文中研究大數(shù)據(jù)環(huán)境下列存儲的采樣查詢處理,從數(shù)據(jù)劃分和數(shù)據(jù)采樣兩方面改進大數(shù)據(jù)的查詢效率。提出了基于加速比和勢分布的采樣方法,其支持各類采樣算法,實現(xiàn)了分布式環(huán)境下采樣查詢的隨機性保證、性能保證和近似性評價,并兼容了精確查詢。該方法可以快速應(yīng)用到已有大量數(shù)據(jù)的列存儲中,具備良好的擴展性和可維護性。以Top-K為查詢用例的實驗結(jié)果證明,在不同數(shù)據(jù)量、不同數(shù)據(jù)分布和不同采樣算法下,實際采樣率與給定采樣率的誤差低于2%,查詢準(zhǔn)確度(Accuracy)穩(wěn)定,方差在0.10和0.12之間,因此提出的基于段勢的數(shù)據(jù)劃分的采樣效率高于平均劃分和線性劃分。
注:因版權(quán)方要求,不能公開全文,如需全文,請咨詢雜志社。
計算機科學(xué)雜志, 月刊,本刊重視學(xué)術(shù)導(dǎo)向,堅持科學(xué)性、學(xué)術(shù)性、先進性、創(chuàng)新性,刊載內(nèi)容涉及的欄目:網(wǎng)絡(luò)與通信、信息安全、軟件與數(shù)據(jù)庫技術(shù)、人工智能、圖形圖像與模式識別等。于1974年經(jīng)新聞總署批準(zhǔn)的正規(guī)刊物。