Minggu, 08 November 2015

Diagram Batang-Daun

Diagram batang dan daun atau diagram batang adalah tehnik yang dilakukan untuk menyusun klasifikasi antara variabel-variabel baik itu diskret atau kontinyu. Diagram Batang dan daun digunakan untuk menyusun data sebagaimana awalnya data dikumpulkan. Diagram batang dan daun akan berbentuk seperti diagram batang, setiap angka pada data disusun ke dalam batang dan daun. Bagian batang terdiri atas semua angka dari data kecuali data digit terakhir. Bagian daun dari angka-angka tersebut akan berupa digit tunggal.
Elemen-elemen dari Diagram Batang dan Daun

  • Bagian batang akan menunjukkan digit pertama dari angka (misalnya ribuan, ratusan, atau puluhan), sedangkan bagian daun menunjukkan digit terakhir (satuan).
  • Secara keseluruhan hanya berisi bilangan bulat. Angka desimal akan dibulatkan kepada pembulatan angka terdekat. Misalnya data hasil pengujian, kecepatan, tinggi, lebar, dan lain-lain.
  • Terlihat seperti diagram batang ketika diputar ke samping
  • Menunjukkan sebaran data, seperti angka tertinggi, terendah, angka yang sering muncul dan angka pencilan (angka yang terletak diluar kelompok utama).

Cara menggambar diagram batang daun cukup mudah, cukup kamu tempatkan bilangan besar seperti ratusan atau puluhan di bagian kiri halaman/buku, kemudian satuannya kamu tempatkan di bagian kanan halaman/buku. Diantara keduanya kamu gambar garis lurus, Nah, yang bagian kiri itu batang, sedangkan yang di bagian kanan adalah daun.

Misalnya kita mempunyai objek pengamatan sebanyak 329, maka bagian batang adalah 32 dan bagian daun adalah 9. Jika objek pengamatan kita sebanya 19, maka bagian batang adalah 1 dan bagian daun adalah 9. Bagaimana dengan desimal? Jika kita memiliki data kecepatan 43,4 km/jam, maka yang menjadi batang adalah 43 sedangkan yang menjadi daun adalah 4. Tetapi dalam kasus data yang besar, nilai 43,4 dapat kamu bulatkan ke bawah menjadi 43, maka yang menjadi batang adalah 4 dan yang menjadi bagian daun adalah 3.

Ilustrasi 1.

Berikut ini adalah nilai matematika siswa kelas IPA II di SMU 3, dengan jumlah siswa sebanyak 30.


Maka diagram batang daunnya dapat kita susun menjadi:


Dari diagram batang daun di atas kita dapat mengetahui sebaran nilai dan membuat pemisahan antara nilai tengah, nilai tertinggi, nilai terendah, bahkan pencilan. Jika kita putar ke samping akan terlihat seperti diagram batang. Manfaat yang utama dari diagram batang daun adalah data yang terkelompokkan, dan kita dapat melihat data aslinya dengan jelas.

Ilustrasi 2.
Berikut ini adalah data jumlah pengunjung warnet selama 10 hari,

2   3   4   2   5   6   4   7   4   0

Maka diagram batang daunnya menjadi:


Diagram batang daun kita hanya memiliki satu kelompok data, tentunya ia tidak dapat mendeskripsikan sebaran data secara lebih banyak. Kita dapat mengelompokkan menjadi data interval, misalnya 0-4 dan 5-7,

Maka diagram batang daunnya menjadi,


Nah, dengan demikian kita bisa lebih mengeksplorasi datanya lebih jauh, dan pola diagram batangnya akan terlihat. 0(0) menyatakan interval 0-4, sedangkan angka 0(5) menyatakan interval 5-7.(yoso)
download materi format pdf di bawah >>>

Sabtu, 07 November 2015

Uji Heteroskedastisitas *stata 12

Salah satu asumsi dalam regresi linier dengan metode kuadrat terkecill (OLS) adalah distribusi residual/error sama (homoskedastik) dan asumsi ini didukung oleh rata-rata error==0, dan dengan keragaman yang konstan.


Ketika eror tidak memiliki keragaman yang konstan maka persamaan mengandung masalah heteroskedastisitas atau


Model Umum Regresi adalah:


Asumsi homoskedastis diberikan oleh persamaan berikut:


Ketika asumsi ini dilanggar sehingga eror tidak bersifat konstan, maka kita dapatkan masalah heteroskedastisitas:


Pada penerapannya eror sulit memiliki keragaman yang konstan, hal ini sering terjadi padadata silang (cross section) dibanding data runtun waktu (time series). Seringkali terdapat perbedaan yang cukup besar pada perbandingan data antar Negara, provinsi, perusahaan maupun industri.

Seringkali ditemukan bahwa masalah heteroskedastisitas tidak mempengaruhi model yang kita bangun atau tidak bias, namun kita akan kehilangan estimator yang bersifat B.L.U.E sehingga persamaan sulit diandalkan sebagai alat estimasi.

Analogi sederhana pada kejadian heteroskedastisitas dapat kita lihat pada model hubungan antara harga dengan permintaan (demand). 

Berdasarkan hipotesis jika harga meningkat, maka demand akan turun, demikian pula sebaliknya. Pada kejadian heteroskedastisitas adalah jika harga meningkat maka demand kemungkinan bisa konstan.

Kembali kepada data yang kita miliki dengan variabel dependen indeks gini dan variabel independen gdp, log ekspor, log cpi, dan unemployment rate. Dalam excel datanya bisa diambil disini >>>.

Pengamatan dilakukan selama 32 tahun mulai tahun 1979 - 2010, dengan struktur data sebagai berikut:


Setelah dilakukan uji linearitas maka didapatkanlah variabel-variabel baru yaitu logexp dan logcpi, kamu bisa lihat bahasannya disini >>>
Salah satu asumsi penting dalam regresi linier metode kuadrat terkecil (OLS) adalah keragaman dari residual data bersifat homoskedastik atau konstan. Residual error (e) bersifat homoskedastik jika keragaman sebaran kondisional dari ei yang dinyatakan dengan xi(var(ei│xi)), adalah konstan untuk i = 1,...,n, dan tidak tergantung pada x, selain itu, error dinyatakan heteroskedastik. (Stock and Watson, 2003). Untuk melihat ada atau tidaknya indikasi heteroskedastisitas kita akan plotkan residual dan predicted values setelah menjalankan regresi dengan rvplot, tetapi sebelum itu kita coba lihat terlebih dahulu residualnya, Kali ini kita menggunakan bantuan perangkat lunak stata versi 12,

Kita jalankan regresi,

.regress gini gdp logexp logcpi unem


Didapatkan output regresinya, untuk interpretasi hasil regresi tidak akan dibahas kembali disini, kamu bisa lihat di bahasan regresi linier *stata 12,

Kemudian kita cari residualnya untuk variabel dependen gini (Y), dalam stata kita nyatakan dengan command berikut,

.predict gini_predict
.label variable gini_predict "gini predicted"

Kita lihat pola sebaran residual gini_predict pada scatterplot,

.scatter gini gini_predict


Kita asumsikan bahwa garis merah adalah garis linier, ternyata sebaran residual gini masih tersebar jauh dari garis linier, Ini menyatakan bahwa nilai predicted kurang baik dalam menyusun model persamaan gini.

Kemudian kita plot residual terhadap predicted value untuk melihat indikasi heteroskedastisitas dengan rvfplot.

.rvfplot, yline(0)


Residual tersebar cukup jauh dari garis residual - predicted value (titik 0) yang diharapkan, ini adalah indikasi masalah heteroskedastisitas.

Teknik lain dalam melihat indikasi heteroskedastisitas adalah uji Breusch-Pagan, Hipotesis null dari uji ini adalah residual bersifat homoskedastik. Jika nilai Prob > chi2 lebih dari tingkat signifikansi 95%, maka H0 ditolak, mari kita lihat,

.estat hettest


Hasil pengujian Breusch-Pagan dengan nilai chi-square sangat kecil yaitu 0,04 dan p-value sebesar 0,83 (0,83 > 0,05), mengindikasikan adanya masalah heteroskedastisitas pada variabel independen yang kita gunakan, Dengan demikian kita dapat menolak H0 dimana data tidak bersifat homoskedastik.

Untuk mengatasi masalah heteroskedastisitas dalam stata, kita cukup menambahkan command robust dalam persamaan regresi linier, kita harus tetap mengasumsikan adanya masalah heteroskedastisitas dalam model kita. Untuk command robust kita sudah menggunakannya, lihat contohnya kembali pada bahasan regresi linier *stata 12. (yoso)

download bahasan ini versi pdf di bawah >>>

Kamis, 05 November 2015

Uji Autokorelasi Regresi Linier *stata 12

Uji autokorelasi dilakukan untuk melihat apakah ada hubungan linier antara error serangkaian observasi yang diurutkan menurut waktu (data time series). Uji autokorelasi perlu dilakukan apabila data yang dianalisis merupakan data time series (Gujarati, 1993).

dimana:
d = nilai Durbin Watson
Σei = jumlah kuadrat sisa
Nilai Durbin Watson kemudian dibandingkan dengan nilai d-tabel. Hasil perbandingan akan menghasilkan kesimpulan seperti kriteria sebagai berikut:
  • Jika d < dl, berarti terdapat autokorelasi positif
  • Jika d > (4 – dl), berarti terdapat autokorelasi negatif
  • Jika du < d < (4 – dl), berarti tidak terdapat autokorelasi
  • Jika dl < d < du atau (4 – du), berarti tidak dapat disimpulkan
Berikut ini adalah daerah pengujian durbin watson:

Kita lihat kembali data indeks gini, gdp, log ekspor, log cpi, dan unemployment seperti yang telah kita bahas di bahasan regresi linier, datanya dalam bentuk time series bisa kamu download disini >>>,
Statistik durbin-watson hanya dapat digunakan pada data time series, oleh karena asumsi autokorelasi hanya terjadi pada tipe data tersebut, untuk data dengan tipe cross section, kita tidak perlu menjalankan statistik Durbin-Watson (lihat bahasan tipe data ekonometrika). Karena contoh yang kita gunakan saat ini adalah data time series, maka kita asumsikan data mungkin terdapat masalah autokorelasi, Sebelum masuk ke stata kita perlu menambahkan komponen time series terlebih dahulu pada data kita, Sebagai contoh lihat data di bawah ini:

Lihat pada bagian yang ditandai, kami telah menambahkan komponen waktu pada data, kemudian data sidah bisa kita import ke dalam stata, untuk langkah mengimpor data tidak akan kita bahas disini, kamu bisa lihat di bahasan statistik deskriptif *stata 12, Kemudian kita dapat menyatakan bentuk data dalam stata seperti berikut:

.tsset year


variael waktu telah kita rinci dalam stata, kemudian kita jalankan regresi terlebih dahulu kemudian statistik durbin-watson,

.regress gini gdp logexp logcpi unem, robust
.dwstat


Nilai statistik Durbin-Watson dengan 5 variabel dan 32 observasi adalah 0,736. Selanjutnya kita akan menentukan batas bawah (DL) dan batas atas (DU) statistik Durbin-Watson dengan melihat tabel statistik Durbin Watson, kamu bisa download disini >>>


Lihat nilai dL dan dU dengan k=2 dan n=32 sebesar 0,917 dan 1,597, sedangkan nilai d yang kita peroleh sebesar 0,736. Dengan demikian d < dL, dapat kita simpulkan bahwa data mengandung masalah autokorelasi positif.

Cara berikutnya mendeteksi autokorelasi adalah dengan correlogram untuk melihat hubungan korelasi antar variabel dengan nilai pada beberapa periode sebelumnya yang dinyatakan dengan lags. Mari kita lihat correlogram residual dengan bartlett's formula moving average(q) pada tingkat signifikansi 95%. Garis biru adalah nilai kritik 0,05, 

.ac gdp, lags(10)


grafik autokorelasi mengindikasikan bahwa variabel gdp terkorelasi dengan 2 periode sebelumnya.

.ac logexp, lags(10)


demikian juga dengan variabel logexp, terkorelasi dengan nilai dua tahun sebelumnya (lihat garis yang berada diluar daerah biru).

.ac logcpi, lags(10)


variabel logcpi tidak terkorelasi dengan nilai pada periode sebelumnya, garis residual masih berada dalam area nilai kritik 0,05.

.ac unem, lags(10)


variabel independen terakhir unem mengindikasikan autokorelasi positif, karena terkorelasi dengan nilai tiga tahun sebelumnya.
Untuk bahasan koreksi masalah autokorelasi akan dibahas selanjutnya. (yoso)
download materi dalam format pdf di bawah >>>

Rabu, 04 November 2015

Uji Asumsi Multikolinearitas *stata 12

Multikolinearitas adalah kondisi terdapatnya hubungan linier atau korelasi yang tinggi antara masing-masing variabel independen dalam model regresi. Multikolinearitas biasanya terjadi ketika sebagian besar variabel yang digunakan saling terkait dalam suatu model regresi. Oleh karena itu masalah multikolinearitas tidak terjadi pada regresi linier sederhana yang hanya melibatkan satu variabel independen.
Indikasi terdapat masalah multikolinearitas dapat kita lihat dari kasus-kasus sebagai berikut:
1. Nilai R2 yang tinggi (signifikan), namun nilai standar error dan tingkat signifikansi masing-masing variabel sangat rendah.
2. Perubahan kecil sekalipun pada data akan menyebabkan perubahan signifikan pada variabel yang diamati.
3. Nilai koefisien variabel tidak sesuai dengan hipotesis, misalnya variabel yang seharusnya memiliki pengaruh positif (nilai koefisien positif), ditunjukkan dengan nilai negatif.
Memang belum ada kriteria yang jelas dalam mendeteksi masalah multikolinearitas dalam model regresi linier. Selain itu hubungan korelasi yang tinggi belum tentu berimplikasi terhadap masalah multikolinearitas. Tetapi kita dapat melihat indikasi multikolinearitas dengan tolerance value (TOL), eigenvalue, dan yang paling umum digunakan adalah varians inflation factor (vif).

Hingga saat ini tidak ada kriteria formal untuk menentukan batas terendah dari nilai toleransi atau VIF. Beberapa ahli berpendapat bahwa nilai toleransi kurang dari 1 atau VIF lebih besar dari 10 menunjukkan multikolinearitas signifikan, sementara itu para ahli lainnya menegaskan bahwa besarnya R2 model dianggap mengindikasikan adanya multikolinearitas. Klein (1962) menunjukkan bahwa, jika VIF lebih besar dari 1/(1 – R2) atau nilai toleransi kurang dari (1 – R2), maka multikolinearitas dapat dianggap signifikan secara statistik.
Kita kembali kepada data yang telah kita bahas sebelumnya yaitu melihat pengaruh variabel indeks gini terhadap produk domestik bruto (GDP), ekspor barang dan jasa (% dari GDP), indeks harga konsumen (% dari GDP), dan tingkat pengangguran yang diambil dari BPS dan World Bank, pengamatan dilakukan dengan data dari tahun 1979 hingga 2010 (lihat datanya di bahasan ini, Regresi linier). 
Model yang sudah kita dapatkan dan bebas dari masalah linearitas adalah sebagai berikut.

.regress gini gdp logexp logcpi unem, robust


Mari kita lihat dari regresi yang kita peroleh, variabel gdp signifikan berpengaruh terhadap gini, namun dengan nilai koefisien yang sangat kecil (0,00013), sedangkan variabel  lain tidak berpengaruh signifikan. Variabel logexp berpengaruh negatif terhadap gini, hal ini telah sesuai dengan asumsi bahwa peningkatan 0,1 satuan variabel logexp akan mengurangi 0,000036 gini. Demikian juga dengan variabel unem, peningkatan tingkat pendapatan akan mengurangi indeks gini, dan seterusnya. Kemudian nilai standar error yang kita peroleh sangat kecil, demikian pula halnya dengan nilai R-square sebesar 20,57% (lihat nilai R-sq) tidak mengindikasikan adanya multikolinearitas.
Berikutnya kita akan melihat korelasi antara variabel independen, jika variabel-variabel independennya saling terkorelasi, maka kita asumsikan data mengandung masalah kolinearitas,

.pwcorr gdp logexp logcpi unem, star(0,05) sig



Salah satu asumsi dari regresi linier adalah antar variabel independen tidak bersifat multikolinear, artinya salah satu regresor tidak memiliki fungsi linier terhadap regresor lain. Kita dapatkan dari hasil korelasi bahwa terdapat korelasi antar variabel independen terutama pada tingkat signifikansi 95%, antara lain gdp dengan unem, logexp dengan unem, dan logexp dengan logcpi. Hubungan korelasi antar variabel mengindikasikan adanya masalah multikolinearitas. Tetapi dalam kasus ini korelasi tidak terlalu signifikan, untuk lebih meyakinkan dugaan kita selanjutnya kita akan melihat nilai variance inflation factor (vif), karena saat terjadi multikolinearitas standar error kemungkinan mengalami inflasi. Nilai vif > 10 atau 1/vif < 0,10 akan mengindikasikan adanya masalah multikolinearitas. Pertama-tama kita jalankan regresi linier terlebih dahulu, setelah menjalankan regresi kita cukup mengetikkan command vif untuk melihat variance inflation faktor,

.regress gini gdp logexp logcpi unem, robust
.vif

ternyata nilai vif tidak ada yang lebih dari 10, maka asumsi kita terpenuhi.

Command lain dalam stata untuk mendeteksi masalah kolinearitas adalah
collin, namun dalam pengetikannya kita tidak lagi menjalankan command regresi terlebih dahulu. Untuk mengaktifkan command ini kita dapat mengetikkan findit collin ke dalam stata.

.findit collin



kemudian akan ditampilkan jendela search dalam stata, cari collin, lalu klik install,

Setelah terinstal kita coba command collin tanpa memasukkan variabel dependen gini. Sekali lagi bahwa collin tidak perlu dilakukan command regress terlebih dahulu seperti halnya dengan command vif.

.collin gdp logexp logcpi unem


Berikut output dari collinearity diagnostic, hasilnya sama dengan vif, tidak mengindikasikan adanya masalah multikolinearitas. (yoso)


download materi ini dalam versi pdf di bawah >>>

Minggu, 01 November 2015

Deteksi dan Koreksi Linearitas *stata 12

Kita kembali kepada data yang telah kita bahas sebelumnya yaitu melihat pengaruh variabel indeks gini terhadap produk domestik bruto (GDP), ekspor barang dan jasa (% dari GDP), indeks harga konsumen (% dari GDP), dan tingkat pengangguran (% dari populasi) yang diambil dari BPS dan World Bank (lihat datanya di bahasan Regresi linier).
Kali ini kita akan coba mendeteksi masalah linearitas dalam regresi linier yang mengasumsikan bahwa variabel Y harus memiliki hubungan linier terhadap variabel X.
Kita lihat secara keseluruhan dengan graph matriks,

.graph matrix gini gdp export cpi unem, half

Dari graph matrix yang kita peroleh jelas bahwa tidak terdapat hubungan linier antara variabel dependen gini dengan variabel prediktor lainnya. Indikasi sebaran dari scatterplot terlihat acak.
Kita akan explore mendalam terhadap data dengan scatterplot masing-masing variabel X terhadap gini (Y),

1. Pertama kita akan lihat variabel gini dan gdp,

.scatter gini gdp

kemudian, kita coba melihatnya dengan acprplot (augmented component-plus-residual-plot), dengan pemulusan data lowess (locally weighted scatterplot smoothing) yang baik untuk menunjukkan linearitas.

.regress gini gdp
.acprplot gdp, lowess

Hubungan diatas menunjukkan bentuk kurva polinomial tidak menunjukkan pola linier karena pola garis di sebelah kiri menurun, namun tidak terlalu jauh dari garis linier.
Tetapi kita akan lihat dengan estimasi densitas kernel, dimana dilakukan pemulusan terhadap data untuk membandingkannya dengan kurva sebaran normal.

.kdensity gdp, normal

Dari estimasi densitas kernel kita lihat bahwa estimasi densitas kernel telah mengikuti pola kurva normal, dengan demikian gdp kita asumsikan linier terhadap variabel gini.

2. Kita lanjutkan variabel berikutnya export,

.scatter gini export

pola scatterplot gini export tidak linier kecuali dengan adanya pencilan di bagian kanan atas, mari kita lihat dengan acprplot,

.regress gini export
.acprplot export, lowess

Kemudian dengan estimasi densitas kernel,

.kdensity export, normal

Wew, estimasi densitas kernel menunjukkan kecenderungan menjulur ke sebelah kanan, berbeda dengan pola kurva normal, dengan demikian kita perlu mentransformasi variabel export ke bentuk lain, misalnya log (lihat bahasan transformasi data disini),
.generate logexp=log(export)
.label variable logexp “log-10 of export”
.kdensity logexp, normal

Alhamdulillah, sekarang datanya sudah linier, bersesuaian dengan kurva normal. Dengan demikian kita memiliki variabel baru yaitu log ekspor (logexp).

3. Kemudian kita lihat variabel cpi,

.scatter gini cpi

.regress gini cpi
.acprplot cpi, lowess

Nah, acprplot variabel cpi menunjukkan bentuk linier terbalik yang cukup jauh dari garis linier, coba kita lihat pemulusannya dengan densitas kernel,

.kdensity cpi, normal

Variabel cpi menunjukkan kesetangkupan (skewed) yang memanjang ke arah kanan, dengan demikian transformasi akan kembali kita lakukan,

.generate logcpi=log(cpi)
.label variable logcpi “log-10 of cpi”
.kdensity logcpi, normal

Data terlihat sudah mengikuti kurva sebaran normal. Dengan demikian kita memiliki variabel baru kembali yaitu logcpi.

4. Kemudian kita lanjut ke variabel terakhir unem,

.scatter gini unem

residual tampak tersebar ke segala arah, mungkinkah ini gejala masalah linearitas? kita cek aja,

.regress gini unem
.acprplot unem, lowess

Pola residual variabel cpi menunjukkan kuadratik negatif, dan terletak tidak jauh dari garis linier, kita cek kembali dengan estimasi densitas kernel,

.kdensity unem, normal

Pola kurva normal telah diikuti dengan estimasi densitas kernel terhadap variabel unem, dengan demikian tidak terdapat masalah linearitas,
Sekarang kita memiliki dua variabel baru yaitu logexp (log ekspor) dan logcpi (log indeks harga konsumen=cpi). 
5. Dengan demikian persamaannya menjadi:
gini = β0 + β1*gdp + β2*logexp + β3*logcpi + β4*unem + ε
Mari kita regresikan,


.regress gini gdp logexp logcpi unem, robust

Meskipun kita telah melakukan transformasi data dan masalah linearitas telah kita perbaiki, tetapi tetap satu-satunya variabel yang signifikan terhadap indeks gini adalah gdp (% dari gdp) dengan nilai 0,05 > 0,018 (p-value > p-predict).(yos)
download bahasan ini dalam versi pdf di bawah >>>

download link