統計分析前,要做哪些數據準備工作?

2019-12-15 高樂 醫咖會

提到數據分析,首先會想到的可能是t檢驗、回歸分析等各種具體的分析方法,但對于經歷過完整數據分析的同學來說,最復雜、最耗費時間的步驟往往是數據的清理,也就是將數據整理成為能夠進行上述統計分析的格式。因此,本節內容我們將對數據的準備進行簡要介紹,重點介紹數據審核,其次會用少量篇幅簡單介紹數據在進行分析時的適用性。在數據審核方面,主要考慮的是數據的完整性和合理性,也就是對缺失數據和離群值進行識別和處

提到數據分析,首先會想到的可能是t檢驗、回歸分析等各種具體的分析方法,但對于經歷過完整數據分析的同學來說,最復雜、最耗費時間的步驟往往是數據的清理,也就是將數據整理成為能夠進行上述統計分析的格式。因此,本節內容我們將對數據的準備進行簡要介紹,重點介紹數據審核,其次會用少量篇幅簡單介紹數據在進行分析時的適用性。

在數據審核方面,主要考慮的是數據的完整性和合理性,也就是對缺失數據和離群值進行識別和處理。

對缺失值的處理

在很多情況下,研究中所收集的數據會出現缺失情況,缺失的類型大致可以分為以下三種:

① 完全隨機缺失(Missing completely at random,MCAR),數據缺失隨機發生,與自身及其他變量均無關,任何變量的每一條記錄發生缺失的概率相同。例如由于設備故障、樣品運輸丟失等導致的數據缺失,可視為MCAR[1]。這是最理想的情況,但在許多領域中這種情況并不合理;

② 隨機缺失(Missing at random,MAR),是一種較為合理的情況。缺失值與自身變量無關,但與其他研究變量相關。假設老師的職稱越高,提供其工資信息的可能性越低,那么每個職稱分組中可認為老師工資信息缺失是隨機發生的,可以通過加權的方法進行解決;

③ 非隨機缺失(Missing not at random,MNAR),即缺失值與自身變量有關。例如一項研究中對受教育程度情況進行了調查,受教育程度較低的個體可能存在該變量的缺失,這就是非隨機缺失。

對缺失值最好的處理方法是預防缺失的發生,即通過合理的研究設計、預試驗的開展、調查員培訓等方法盡量保證數據的完整性。但當缺失值不可避免時,就需要通過一些統計學方法對其進行處理:

① 缺失值刪除

(a) 刪除缺失數據行,適用于MCAR數據的處理,在大樣本量且缺失較少的情況下很有效。該方法不會影響結果估計的準確性,但樣本量會因此減小,從而影響結果的精確性;

(b) 刪除缺失變量,適用于存在另一個無缺失的變量能夠代替有缺失變量的情況,通常不建議采用這種方法,因為“保留數據總比刪除數據好”;

(c) 選擇性刪除,在研究不同組合變量的相關關系時,可選擇該組合內所有可用的數據進行估計,但由于模型不同部分的樣本量可能不同,會導致研究結果的解釋存在一定困難。

② 缺失值填補

(a) 均值、中位數和眾數填補:根據數據分布,選擇使用樣本均值、中位數或眾數對缺失值進行填補,沒有考慮時序特征及變量間關系。該方法較為簡單,但有明顯缺陷,例如降低了數據方差;

(b) 多重填補:基于貝葉斯方法,創建多個填補數據集,即根據現有觀測數據為每個缺失數據生成若干個可供填補的數值,結合填補后不同的結果,得出平均估計結果并考察缺失數據的不確定性[2];

(c) 回歸填補:包括線性回歸和Logistic回歸。首先識別缺失變量的預測變量,其次使用無缺失記錄生成預測方程,對缺失值進行預測:

(d) 虛擬變量設置:將是否缺失設置為虛擬變量,這是處理分類變量缺失較為簡單的一種方法,但估計精度會下降;

(e) 線性內插法[3]:若缺失值與未缺失值間存在線性關系,根據缺失值的前一個和后一個觀測值對缺失值進行計算;

(f) 臨床試驗中常用方法[4]:末次觀察前推法(Last observation carried forward,LOCF),前次觀察值后推法(Next observation carried backward,NOCB),基線值后推法(Baseline observation carried forward,BOCF),最差觀測值推進法(Worst observation carried forward,WOCF)和將缺失值視為治療失敗法(Missing value treated as failure,MVTF)等。



圖1 缺失值處理方法的選擇

(來源:https://towardsdatascience.com/how-to-handle-missing-data-8646b18db0d4)

對于完全隨機缺失,簡單的刪除缺失數據行就可得到無偏的估計結果;對于隨機缺失,一些復雜的統計方法可能會得到無偏估計結果;而對于非隨機缺失,無法得到無偏估計結果,只能通過復雜的統計方法減小估計值的偏倚。

對離散值的處理

在數據檢查與整理時,通常會發現一些完全偏離其他數據的數值,稱之為離群值,產生的原因可能是數據錯誤(測量或記錄錯誤)或真正離群值,主要分為單變量離群值和多變量離群值。離群值的識別沒有精確的、能夠稱之為金標準的方法,通常經過一些統計學方法進行識別。

對單變量離群值的識別,主要的方法為直方圖(落在直方圖兩端較遠距離數據)和箱式圖(距離第25百分位數Q1或第75百分位數Q3的距離是四分位數間距IQR的1.5-3倍為輕度離群值,距離Q1或Q3的距離大于IQR的3倍為極端離群值)[5]。

對多變量離群值的識別,可通過馬氏距離進行判斷,首先計算一個點到某一數據分布之間的距離,隨后根據卡方分布確定臨界值,若某個個體的馬氏距離大于該臨界值,則可認為是離群值[6]。

對于離群值的處理,有以下幾種方法:

① 數據檢查:檢查是否為客觀失誤造成的數值異常,如果存在數據收集或錄入錯誤,要及時更正;

② 轉換變量:如果能夠確定某一離群值是正確且真實的,為避免數據分布嚴重傾斜,可以對數據進行轉換,這樣不會改變原有數值間的相對大小,但會使數據分布更為集中;

③ 刪除數據行:適用于某一個案例出現了多個變量異常的情況,或含有異常值的個體所占比例很小,可以考慮刪除整條信息;

④ 刪除變量:若多個案例的某一變量均發現異常,可以根據實際情況考慮刪除該變量;

⑤ 將離群值視為缺失數據處理,可以進行數據填補等操作;

⑥ 改變數值:若想對離群值進行保留,可以對其數值進行調整使之更接近均值,也就是說可以設定一個百分位閾值,將超過該百分位范圍的數據替換為該百分位數值。

數據適用性

不同的統計分析方法對數據有不同的要求,例如正態分布及方差齊性假設等,因此在分析前,需要對數據進行檢查,來判斷是否符合相應假設,這些假設見下表所示:

表1 數據假設的使用情境及檢驗方法

數據假設

使用情境

檢驗方法

正態性

t檢驗,方差分析,Person相關性,線性回歸,其它參數檢驗 [7]

SPSS教程:判斷數據正態分布的超多方法!

方差

同質性

方差分析ANOVA(t 檢驗 and F 檢驗)[8]

Bartlett’s檢驗,Levene’s檢驗,Brown-Forsythe檢驗 [9]

方差齊性

相關和回歸分析

Breusch-Pagan檢驗 [10]

方差/協方差矩陣的同質性

多元方差分析MANOVA,判別函數分析,多變量回歸 [11]

Box’s M檢驗

球行檢驗

重復測量的ANOVA

Mauchly's檢驗

回歸

同質性

協方差分析ANCOVA

因變量與協變量散點圖,自變量與協變量交互分析(廣義線性模型)

線性相關

線性回歸分析

散點圖

此外,在進行回歸分析時,還需要對變量之間的多重共線性進行判斷。當模型中的一個變量可以被其他變量或其他變量的線性組合較好的預測時,就會出現該情況。

多重共線性一般由容忍度和方差膨脹因子(VIF)進行判斷。一般認為如果容忍度<0.2或VIF>5,則提示變量之間存在多重共線性。一般解決方法有剔除模型中一個或多個預測變量,將模型中多個預測變量整合為一個復合變量,采用逐步回歸的方法進行變量篩選,或進行主成分分析。

通常,收集到的數據都會存在各種各樣的問題,為了得到“干凈”且適合分析的數據,通常需要經過很多步驟,來達到最終的目的。因此我們要掌握并選擇最適合自己數據的處理方法,來得到更精確的分析結果。

[1] Kang, H. (2013). The prevention and handling of the missing data. Korean journal of anesthesiology, 64(5), 402.

[2] Sterne, J. A., White, I. R., Carlin, J. B., Spratt, M., Royston, P., Kenward, M. G., ... & Carpenter, J. R. (2009). Multiple imputation for missing data in epidemiological and clinical research: potential and pitfalls. BMJ, 338, b2393.

[3] Available at https://www.lexjansen.com/nesug/nesug01/ps/ps8026.pdf.

[4] Available at http://onbiostatistics.blogspot.com/2010/08/locf-bocf-wocf-and-mvtf.html.

[5] Available at http://www.psychwiki.com/wiki/Detecting_Outliers_-_Univariate.

[6] Available at https://en.wikiversity.org/wiki/Multivariate_outlier.

[7] Ghasemi, A., & Zahediasl, S. (2012). Normality tests for statistical analysis: a guide for non-statisticians. International journal of endocrinology and metabolism, 10(2), 486.

[8] Available at https://methods.sagepub.com/reference/encyc-of-research-design/n179.xml.

[9] Available at http://www.math.montana.edu/jobo/st541/sec2e.pdf.

[10] Available at https://en.wikipedia.org/wiki/Homoscedasticity.

[11] Available at http://www.introspective-mode.org/data-assumption-homogeneity-of-variance-covariance/.

相關資訊

專家共識:臨床試驗統計分析計劃及統計分析報告的考慮

中國臨床試驗生物統計學組(CCTS)成員(按姓名拼音排序):陳峰、陳平雁、陳啟光、賀佳、黃欽、金丕煥、李康、李寧、李衛、李曉松、凌莉、劉玉秀、蘇炳華、孫高、王武保、王彤、魏朝暉、夏結來、姚晨、易東、尹平、于浩、張羅漫、趙耐青。 統計分析計劃(statistical analysis plan,SAP)是對臨床試驗的統計學考慮及擬對數據進行統計分析的清晰描述。統計分析計劃可以是獨立的文

因子分析方法——多變量分析

沈浩 因子分析(Factor Analysis)是一種非常有用的多變量分析技術。我想說,你要想學好多變量分析技術,一是:理解多元回歸分析,二是:理解因子分析;這是多變量分析技術的兩個出發點。為什么這么說呢?多元回歸分析是掌握有因變量影響關系的重點,無論什么分析,只要研究的變量有Y,也就是因變量,一般都是回歸思想,無非就是Y的測量尺度不同,選擇不同的變形方法。而因子分析則是研究沒有因變量和自變量之

SPSS中多選題的錄入及統計分析

多選題,就是說一個題目可以有多個答案。在錄入的時候有兩種選擇。下來舉例說明:Q1 你經常使用的搜索引擎是哪幾個?     1 百度      2 Google      3 雅虎      4 其他假設有5個被訪者,分別選擇了A 1

1000炮街机捕鱼游戏下载 排列7走势图 广东十一选五号码推荐 快乐12开奖走势图 河南省体彩11选5 南京期货配资 福建十一选五怎么玩 平码绝密公式规律 贵州11选5计划 河北快3结果 秒速快三开户