Minggu, 01 November 2015

Deteksi dan Koreksi Linearitas *stata 12

Kita kembali kepada data yang telah kita bahas sebelumnya yaitu melihat pengaruh variabel indeks gini terhadap produk domestik bruto (GDP), ekspor barang dan jasa (% dari GDP), indeks harga konsumen (% dari GDP), dan tingkat pengangguran (% dari populasi) yang diambil dari BPS dan World Bank (lihat datanya di bahasan Regresi linier).
Kali ini kita akan coba mendeteksi masalah linearitas dalam regresi linier yang mengasumsikan bahwa variabel Y harus memiliki hubungan linier terhadap variabel X.
Kita lihat secara keseluruhan dengan graph matriks,

.graph matrix gini gdp export cpi unem, half

Dari graph matrix yang kita peroleh jelas bahwa tidak terdapat hubungan linier antara variabel dependen gini dengan variabel prediktor lainnya. Indikasi sebaran dari scatterplot terlihat acak.
Kita akan explore mendalam terhadap data dengan scatterplot masing-masing variabel X terhadap gini (Y),

1. Pertama kita akan lihat variabel gini dan gdp,

.scatter gini gdp

kemudian, kita coba melihatnya dengan acprplot (augmented component-plus-residual-plot), dengan pemulusan data lowess (locally weighted scatterplot smoothing) yang baik untuk menunjukkan linearitas.

.regress gini gdp
.acprplot gdp, lowess

Hubungan diatas menunjukkan bentuk kurva polinomial tidak menunjukkan pola linier karena pola garis di sebelah kiri menurun, namun tidak terlalu jauh dari garis linier.
Tetapi kita akan lihat dengan estimasi densitas kernel, dimana dilakukan pemulusan terhadap data untuk membandingkannya dengan kurva sebaran normal.

.kdensity gdp, normal

Dari estimasi densitas kernel kita lihat bahwa estimasi densitas kernel telah mengikuti pola kurva normal, dengan demikian gdp kita asumsikan linier terhadap variabel gini.

2. Kita lanjutkan variabel berikutnya export,

.scatter gini export

pola scatterplot gini export tidak linier kecuali dengan adanya pencilan di bagian kanan atas, mari kita lihat dengan acprplot,

.regress gini export
.acprplot export, lowess

Kemudian dengan estimasi densitas kernel,

.kdensity export, normal

Wew, estimasi densitas kernel menunjukkan kecenderungan menjulur ke sebelah kanan, berbeda dengan pola kurva normal, dengan demikian kita perlu mentransformasi variabel export ke bentuk lain, misalnya log (lihat bahasan transformasi data disini),
.generate logexp=log(export)
.label variable logexp “log-10 of export”
.kdensity logexp, normal

Alhamdulillah, sekarang datanya sudah linier, bersesuaian dengan kurva normal. Dengan demikian kita memiliki variabel baru yaitu log ekspor (logexp).

3. Kemudian kita lihat variabel cpi,

.scatter gini cpi

.regress gini cpi
.acprplot cpi, lowess

Nah, acprplot variabel cpi menunjukkan bentuk linier terbalik yang cukup jauh dari garis linier, coba kita lihat pemulusannya dengan densitas kernel,

.kdensity cpi, normal

Variabel cpi menunjukkan kesetangkupan (skewed) yang memanjang ke arah kanan, dengan demikian transformasi akan kembali kita lakukan,

.generate logcpi=log(cpi)
.label variable logcpi “log-10 of cpi”
.kdensity logcpi, normal

Data terlihat sudah mengikuti kurva sebaran normal. Dengan demikian kita memiliki variabel baru kembali yaitu logcpi.

4. Kemudian kita lanjut ke variabel terakhir unem,

.scatter gini unem

residual tampak tersebar ke segala arah, mungkinkah ini gejala masalah linearitas? kita cek aja,

.regress gini unem
.acprplot unem, lowess

Pola residual variabel cpi menunjukkan kuadratik negatif, dan terletak tidak jauh dari garis linier, kita cek kembali dengan estimasi densitas kernel,

.kdensity unem, normal

Pola kurva normal telah diikuti dengan estimasi densitas kernel terhadap variabel unem, dengan demikian tidak terdapat masalah linearitas,
Sekarang kita memiliki dua variabel baru yaitu logexp (log ekspor) dan logcpi (log indeks harga konsumen=cpi). 
5. Dengan demikian persamaannya menjadi:
gini = β0 + β1*gdp + β2*logexp + β3*logcpi + β4*unem + ε
Mari kita regresikan,


.regress gini gdp logexp logcpi unem, robust

Meskipun kita telah melakukan transformasi data dan masalah linearitas telah kita perbaiki, tetapi tetap satu-satunya variabel yang signifikan terhadap indeks gini adalah gdp (% dari gdp) dengan nilai 0,05 > 0,018 (p-value > p-predict).(yos)
download bahasan ini dalam versi pdf di bawah >>>

download link

0 komentar:

Posting Komentar