如何進(jìn)行抽樣
抽樣分類
?
1)概率抽樣:以數(shù)據(jù)概率論為基礎(chǔ),按照隨機(jī)的原則進(jìn)行抽樣,;
2)非概率抽樣:根據(jù)人類的主觀經(jīng)驗(yàn)和狀態(tài)進(jìn)行判斷,;
?
概率抽樣方法
1)簡單隨機(jī)抽樣:按等概率原則直接從總中抽取N個樣本
優(yōu)點(diǎn):易于操作;
缺點(diǎn):不能保證樣本能完美代表總體,;
適用:個體分布均勻的場景
?
2)等距抽樣:先將總體中的每個個體按順序編號,,然后計(jì)算出抽樣間隔,再按固定抽取個體
優(yōu)點(diǎn):易于操作,;
缺點(diǎn):再明顯的分布規(guī)律時容易產(chǎn)生偏差,;
適用:個體分布均勻的場景,呈現(xiàn)明顯的均勻分布規(guī)律
?
3)分層抽樣:先將所有個體樣本按照某種特征劃分為幾個類別,,然后從每個類別中使用隨機(jī)抽樣或等距抽樣的方法選擇個體組成樣本
優(yōu)點(diǎn):降低抽樣誤差,,針對不同類別的數(shù)據(jù)樣本進(jìn)行單獨(dú)研究;
缺點(diǎn):無缺點(diǎn),;
適用:帶有分類邏輯的屬性,標(biāo)簽等特征的數(shù)據(jù)
?
4)整群抽樣:先將所有樣本分為幾個小群體集,,然后隨機(jī)抽樣幾個小群體集代表總體,。
優(yōu)點(diǎn):易于操作;
缺點(diǎn):分布受限于小群體集的劃分,,抽樣誤差較大,;
適用:小群體集的特征差異比較小,并且對劃分小群體集有更高的要求
?
抽樣需要注意問題
1)反應(yīng)抽樣背景
a.數(shù)據(jù)時效性,;
b.業(yè)務(wù)增長性,;
c.數(shù)據(jù)來源多樣性;
d.業(yè)務(wù)數(shù)據(jù)可行性
2)滿足數(shù)據(jù)分析和建模需求
a.抽樣樣本量,;
A.以時間為維度分布,,至少包含一個能滿足預(yù)測的完整業(yè)務(wù)周期;
B.做預(yù)測(包含分類和回歸)分析建模的,,需要考慮特征數(shù)量和特征值域(非數(shù)值)的分布,,通常數(shù)據(jù)記錄數(shù)同時是特征數(shù)量和
特征值域的100倍以上;
C.做關(guān)聯(lián)規(guī)則分析模型,,根據(jù)關(guān)聯(lián)前后項(xiàng)的數(shù)量,,每個主體需要至少1000條數(shù)據(jù)。
D.異常檢測類分析建模,,無論是監(jiān)督還是非監(jiān)督建模,,數(shù)據(jù)記錄越多越好
?
b.抽樣樣本在不同類別中的分布問題