Sabtu, 02 Januari 2016

Deteksi Outlier dengan Hampel Identifier

Dalam penelitian statistik, asumsi Normalitas sering menjadi permasalahan yang serius ketika data pengamatan tidak berdistribusi Normal. Hal ini sering dijumpai khususnya pada data yang memiliki banyak nilai pencilan (outliers). Nilai outliers merupakan satu atau lebih individu data yang muncul/berada jauh dari himpunan data pengamatan. Sebagai contoh, diberikan kasus Analisis Regresi Berganda dengan asumsi Residual berdistribusi Normal. Dalam kasus ini, dapat diperoleh suatu residual model yang memiliki penyimpangan skewness dan kurtosis yang sangat besar pada bentuk tails dari distribusi Normal-nya. Penyimpanan tersebut ditunjukkan dari nilai skewness yang tidak mendekati nol dan kurtosis yang tidak mendekati tiga, sehingga kondisi ini akan menyebabkan residual model yang tidak berdistribusi Normal ketika dilakukan pengujian Normalitas residual dengan uji Jarque-Bera. Hasil ini juga akan nampak pada hasil pengujian Normalitas lainnya, seperti: uji Kolmogorov-Smirnov, uji Anderson-Darlin, dan uji Shapiro-Wilk.


Hampel identifier.

Ada suatu teknik deteksi robust outlier yang dapat digunakan untuk masalah outlier, yaitu Hampel identifier[1]. Teknik ini merupakan perkembangan dari versi robust yang digunakan oleh "3σ edit rule" atau "Z-score" untuk mendekati pendeteksian outliers. Pada aturan Z-score, estimasi mean dan standart deviasi yang terpengaruh outliers digantikan oleh estimasi median dan median absolute deviation (MAD). Selanjutnya pada Hampel identifier, nilai MAD dikembangkan kedalam perhitungan nilai S yang dirumuskan sebagai berikut

MAD = med{|xi – med{xi}|}
S = 1,4826 * MAD,

sehingga dihasilkan deteksi outliers berupa

Hampel jarak ke-i = |xi – med{xi}|/S .

Indeks i = 1,2,...,n dan x adalah data pengamatan sebanyak n. Operator med adalah median, kemudian ketetapan 1,4826 dipilih agar E(S) = σ (Unbiased) pada pendekatan distribusi Normal. Suatu data pengamatan dikatakan sebagai outlier jika diperoleh nilai Hampel jarak > 3 pada data bersangkutan. Sebagai contoh persamaan regresi, deteksi outliers untuk data pengamatan dapat juga dilakukan pada data residual dari persamaan regresinya.


Pendeteksian Outliers.

Ketentuan mengenai Hampel jarak > 3 dapat ditunjukkan pada penjelasan distribusi dari data yang berdistribusi Normal. Jika data berdistribusi Normal, maka[2]:

  • 68,27% dari data terletak antara µσ dan µ + σ,
  • 95,45% dari data terletak antara µ – 2σ dan µ + 2σ, dan
  • 99,73% dari data terletak antara µ – 3σ dan µ + 3σ.

Hal ini dapat diperjelas pada gambar berikut :

Berdasarkan Gambar ini, estimasi µ dan σ diganti dengan median dan S karena estimasi µ dan σ terpengaruh outliers. Pada kondisi 99,73% dari data, jarak antara data pengamatan (xi) dan nilai mediannya (med{xi}) maksimal sebesar 3σ atau 3S, sehingga berlaku rumusan

|xi – med{xi}| ≤ 3S ,

kemudian outliers terjadi jika

|xi – med{xi}| > 3S ,

Dengan demikian, suatu data pengamatan dikatakan sebagai outlier jika

Hampel jarak ke-i = |xi – med{xi}|/S > 3.

dengan

S = 1,4826 * MAD dan MAD = med{|xi – med{xi}|} .


REFERENSI

[1] Fernando, T.M.K.G., Maier, H.R., Dandy, G.C., dan May, R., (2005), “Efficient Selection of Inputs for Artificial Neural Network Models”, Conference Paper, International Congress on Modelling and Simulation (16th : 2005 : Melbourne, Victoria), hal: 1806-1812.
[2] Spiegel, R., M., 1992, Schaum’s Outline Series Theory and Problem of Statistics, Metric Editions, Singapore: McGRAW-HILL Book Company.


<--DOWNLOAD_FILE_DETEKSI_OUTLIER-->


0 komentar:

Poskan Komentar