Sabtu, 31 Oktober 2015

Regresi Linier *stata 12

Regresi digunakan untuk menghitung perubahan efek yang tidak diketahui dari sebuah variabel terhadap variabel lain, asumsi yang berlaku adalah terdapat hubungan linier antar kedua variabel (X dan Y). Singkatnya regresi linier menghitung seberapa besar perubahan Y ketika X berubah sebesar 1 unit.
Persamaan regresi dapat ditulis sebagai berikut:
Y = β0 + β 1X1 + β 2X2 + β 3X3 + β 4X4 + …… + βnXn + e
Dimana:
Y = variabel dependen (tak bebas)
b0 = konstanta (tetapan)
X1, X2 = variabel independen (bebas)
e = error

Ilustrasi:
Jika kita memiliki data indeks gini selama 32 tahun sebagai variabel dependen, dimana variabel independen yang kita perhitungkan antara lain adalah produk domestik bruto (gdp), ekspor barang dan jasa (persentase dari gdp), indeks harga konsumen (cpi), dan tingkat pengangguran yang merupakan persentase dari total populasi penduduk (unem) Data diambil dari Badan Pusat Statistik (BPS) dan World Bank. Kamu bisa ambil datanya disini >>>

Kali ini kita akan melihat pengaruh variabel independen yang digunakan terhadap indeks gini Indonesia selama 32 tahun (1979-2010). Software yang digunakan adalah stata 12,
Tahap impor data
Untuk impor data tidak akan dijelaskan kembali disini, kamu bisa lihat di bahasan statistik deskriptif *stata 12.
Setelah masuk dalam file editor stata, kita lihat terlebih dahulu struktur datanya,

.describe


Dari output kita lihat storage type tidak mengandung tipe string, data string harus dirubah dulu agar dapat diolah dengan stata. Command diatas perlu kita buat spesifik agar tidak memasukkan waktu (year) yang notabene merupakan integeer.

.describe gini gdp gdp export cpi unem


Kemudian indikator statistik deskriptif yang menerangkan mean dan standar deviasi, bagi yang belum memahami command dasar dalam stata bisa melihatnya di bahasa statistik deskriptif *stata 12,

.summarize gini gdp export cpi unem


Berikutnya kita akan masuk ke analisis regresi,

.regress gini gdp export cpi unem, robust


Command robust disini dimaksudkan untuk mengendalikan masalah heteroskedastisitas pada variabel, untuk kamu yang belum memahami apa itu masalah heteroskedastisitas dalam regresi bisa lihat di bahasan uji heteroskedastisitas dan multikolinearitas
Dari regresi linier di atas dapat kita bangun model regresi dari nilai koefisien hasil regresi diatas sebagai berikut:

Y = β0 + β1X1 + β2X2 + β3X3 + β4X4 + … + βnXn + ε
gini = 0,3866975 + 0,00011406*gdp – 0,0021738*export + 0,001151*cpi – 0,0054169*unem + ε
  • Nilai Prob > F sebesar 0,0174 masih lebih kecil daripada nilai kritik α=0,05 menunjukkan model signifikan secara statistik, hal ini juga mengindikasikan terdapatnya hubungan antara variabel Y dan X.
  • R-squared menunjukkan keragaman Y yang dapat dijelaskan oleh model variabel X, artinya X dapat menjelaskan sebanyak 19,8 persen keragaman yang terdapat pada variabel Y.
  • Nilai MSE menunjukkan standar deviasi/error dari model, semakin mendekati nol maka error semakin kecil, artinya model semakin baik.
  • Nilai t diperoleh dari koefisien dibagi dengan robust standar error, nilainya harus lebih besar dari nilai t statistik pada selang kepercayaan 95% yaitu 1,96 (lihat tabel t), nilai yang paling dominan menjelaskan variabel gini adalah gdp sebesar 2,78.
  • Nilai P > (t) merupakan nilai two-tail p-value, harus lebih kecil dari nilai kritik 0,05 atau 0,1. Dari hasil diatas variabel yang signifikan hanyalah gdp (0,010 < 0,05).
Jika kita berikan command tanpa robust, kemungkinan masih terdapat masalah heteroskedastisitas. Command ini akan menyertakan tabel analisis keragaman (ANOVA) seperti berikut, 
yang belum memahami konsep ANOVA bisa lihat di bahasan uji one way ANOVA.

.regress gini gdp export cpi unem


Kemudian kita akan melihat korelasi antar variabel dengan korelasi pearson, semakin mendekati nilai 1, maka hubungan antar variabel akan semakin kuat,

.pwcorr gini gdp export cpi unem, star(0.05) sig


Dari output korelasi pearson kita dapat melihat hubungan yang paling signifikan adalah yang ditandai dengan command star(0,05) yaitu gdp dengan unem sebesar 0,77 dan cpi dengan export sebesar 0,73 dengan tingkat signifikansi 0,000 (0,05 > 0,000).
Kemudian kita representasikan dengan grafik matriks korelasi dengan scatterplot untuk melihat pola persebaran datanya secara keseluruhan,

.graph matrix gini gdp export cpi unem, half maxis (ylabel (none) xlabel (none))


Dari scatterplot di atas manakah menurut kamu yang memiliki pola linier? Lihat antara gdp dengan cpi, kemudian export dengan cpi, gini dengan cpi.
download materi versi pdf di bawah ini >>>

download link

Kamis, 29 Oktober 2015

Statistik Deskriptif *stata 12


Ilustrasi pengolahan data dengan stata kita mulai dengan tabel 1, dimana UMR dinyatakan dengan minwag, inflasi dengan inflation, ekspor nonmigas dengan export, dan produk domestik bruto dalam GDP. UMR dalam Rupiah, inflation dengan indeks, export dengan miliar Rupiah, dan GDP dalam miliar Rupiah, kamu bisa download datanya dengan format excel disini >>>

tabel 1. data UMR, inflasi, ekspor nonmigas, dan GDP

1. Tahap impor data dari excel;
ketentuan yang berlaku dalam stata antara lain baris pertama hanya berisi nama variabel, tidak ada pengamatan yang hilang atau sel yang kosong (kecuali dalam kasus unbalanced panel data), dan nama variabel tidak mengandung spasi.
pilih file > import > excel spreadsheet


kemudian akan tampil jendela import tentukan worksheet tempat data kamu berada, checklist first row as variable names, kemudian ok


kemudian di jendela  command akan muncul datanya,


2. mengetahui informasi umum mengenai data kita ketikkan di jendela command

.describe

maka akan tampil informasinya seperti berikut:

informasi lain mengenai karakteristik masing-masing variabel adalah dengan command

.codebook

hasilnya seperti berikut:


kemudian command lain yang mendeskripsikan pengamatan data

.inspect

misalnya terhadap salah satu variabel menjadi;

.inspect gdp

hasilnya adalah

3. kemudian command list juga diperlukan untuk menayangkan data dalam bentuk daftar,

.list

output

4. Kemudian command untuk menampilkan mean, keragaman, dan standar deviasi

.summarize

output


5. untuk informasi yang lebih detail per variabel kita bisa menambahkan informasi seperti berikutl

. summarize (your_variable), detail

misalnya variabel inflation ingin kita explore secara mendalam, maka:

.summarize inflation, detail

coba lihat informasi yang ditampilkan akan lebih lengkap,
















download bahasan dalam bentuk pdf di bawah >>>

download link

Senin, 26 Oktober 2015

Korelasi Pearson

Korelasi Pearson
korelasi (r) merupakan nilai statistik yang menggambarkan hubungan antara variabel X dan Y dalam terminologi variabel independen, kedua variabelnya sama-sama bebas. Ketika nilai korelasi yang ditunjukkan oleh scatterplot konsekuen menanjak atau berbentuk seperti trend, maka r = +1, ketika nilai korelasi yang ditunjukkan berpola menurun terhadap ordinat, maka r = -1. Semakin dekat nilai r terhadap 1, maka korelasi akan semakin kuat, begitu pula sebaliknya, semakin nilai r mendekati nol, maka hubungan korelasi akan semakin lemah.
Koefisien Korelasi Pearson
Untuk menghitung koefisien korelasi variabel X, kita memerlukan tiga total penjumlahan kuadrat (SS) dimana SS untuk variabel X adalah:
Dimana:
SS       = total penjumlahan kuadrat (sum of square)
XX       = adalah variabel X dengan X
Xi         = adalah n atau jumlah pengamatan
      = nilai rata-rata variabel X

Sedangkan untuk menghitung nilai total koefisien korelasi variabel Y adalah:
Dimana:
SS       = total penjumlahan kuadrat (sum of square)
XX       = adalah variabel Y dengan Y
Xi         = adalah n atau jumlah pengamatan
       = nilai rata-rata variabel Y

Dengan demikian penjumlahan antara kedua variabel dalam koefisien korelasi (SSXY) adalah:
Maka koefisien korelasi adalah:

Interpretasi Koefisien Korelasi Pearson
Koefisien korelasi menunjukkan apakah korelasi antar variabel bernilai positif atau negatif, hal ini menentukan kekuatan hubungan keduanya. Walaupun tidak ada ketetapan nilai dalam menjelaskan seberapa kuat hubungan korelasi, tapi kita dapat menyimpulkannya sebagai berikut:
0 < │r│ < 0,3 adalah korelasi positif lemah
0,3 < │r│ < 0,7 adalah korelasi positif menengah
│r│ > 0,3 adalah korelasi positif kuat
Ilustrasi:
Berikut ini adalah data jumlah pemilik kendaraan bermotor dan data persentase pemilik surat izin mengemudi (SIM) di beberapa kota. Kita kan melihat hubungan korelasi antara kedua variabel tersebut, kita memiliki 16 pengamatan di 16 kota, berikut datanya:
*kita tidak menampilkan perhitungan manual disini tetapi menggunakan perangkat lunak excel 2010.

Untuk langkah pertama kita akan melihat pola persebaran data dengan scatterplot dengan kriteria sebagai berikut:.

Untuk menampilkan scatterplot dengan excel dapat dengan blok semua data dari kedua variabel > insert > scater. Maka scatterplot yang kita dapatkan dari data di atas adalah sebagai berikut:


Kita lihat pola persebaran data pada scatterplot menunjukkan persebaran yang tidak normal lebih ke arah korelasi negatif.
Berikut kita akan melihat nilai korelasinya dengan analysis toolpack bawaan excel, pilih di menubar data > data analysis, seperti gambar,

Bagi yang tidak memiliki menu data analysis, kamu bisa memunculkannya melalui jendela add-ins, melalui menu file > option > add-ins, maka akan ditampilkan jendela add-ins, kamu tinggal pilih analysis toolpack > ok,



Berikutnya kita ingin mengetahui berapa nilai korelasi antara kedua variabel tersebut, kamu bisa masuk ke menubar data > data analysis > pilih correlation > oke,



Setelah muncul jendela correlation, pilih pada input range data yang ingin kamu analisis, kemudian pada output range letakkan dimana saja pada sel excel untuk tampilan outputnya, lalu ok,



Datanya akan ditampilkan sebagai berikut:



Hasil korelasi antara variabel % driver license own terhadap variabel number of motorcycle adalah -0,43, ini menunjukkan nilai korelasi negatif antara kedua variabel tersebut. Hal ini juga ditunjukkan oleh pola sebaran melalui grafik scaterplot menurun atau berlawanan dengan pola data trend.
download materi versi pdf di bawah ini >>>
download link

Rabu, 21 Oktober 2015

Normalisasi Data Dengan Transformasi *excel

Kebanyakan variabel tidak memenuhi uji statistik parametrik karena tidak terdistribusi normal, keragamannya tidak homogen, atau keduanya. Menggunakan uji statistik parametrik seperti ANOVA atau regresi linier pada data tersebut dapat mengakibatkan hasil analisis yang keliru. Pada beberapa kasus, mentransformasi data akan membuat kecocokannya terhadap asumsi menjadi lebih baik.
Untuk mentransformasi data, anda dapat menggunakan operasi matematik pada setiap observasi, kemudian menggunakan angka-angka yang telah bertransformasi tersebut pada pengujian.
Berikut ini adalah jenis-jenis normalisasi data dengan transformasi:
normalisasi
Berikut ini 12 angka data time series nilai tukar Rupiah terhadap dollar Amerika Serikat; kolom kedua adalah data asli, kolom ketiga adalah data log, dan kolom ketiga adalah data akar unit:
Tahun
Data
Log
Akar Unit
1978
442
2,645422
21,0238
1979
623
2,794558
24,96197
1980
627
2,797268
25,03997
1981
632
2,80058
25,13563
1982
661
2,820464
25,7177
1983
889
2,949024
29,8203
1984
901
2,954734
30,017
1985
778
2,891192
27,89946
1986
855
2,932129
29,24585
1987
1.153
3,061852
33,95674
1988
1.325
3,12214
36,39739
Tentunya setelah data ditransformasi, kita juga harus melakukan transformasi terhadap hasilnya. Kita dapat melakukan lawan dari fungsi matematika yang anda gunakan pada transformasi data. Untuk data log, kita dapat melakukan transformasi balik dengan menambahkan pangkat 10 ke angka tersebut.
Pada transformasi log kita menggunakan nilai log dari variabel yang kita gunakan dari analisis. Transformasi log berguna untuk data dimana kita menemukan nilai residual yang semakin besar untuk nilai yang lebih besar dari variabel dependen. Trend pada nilai residual tersebut muncul seringkali karena error atau perubahan nilai dari variabel hasil merupakan persen dari data aktualnya.
Berikut ini adalah beberapa tipe data dengan transformasi yang lazim digunakan:

1. Data Jumlah/Total (amount)

Jumlah merupakan jenis data yang paling lazim ditemui. Datanya terdiri dari data positif (tidak negative), bilangan bulat, pecahan, dan angka irasional. Data jenis ini tidak mungkin negative, misalnya jumlah uang, ketinggian gedung, jangka waktu, dan lain-lain. Menganalisa data jumlah biasanya dengan mengambial angka logaritmanya. Beberapa ukuran yang biasanya digunakan dalam ilmu pengetahuan adalah ukuran logaritmik data actual. Misalnya skala Richter untuk mengukur gempa, mengukur intensitas suara, dan kecepatan peluru senapan.

2. Data Perhitungan (counts)

Perhitungan adalah jumlah dari suatu benda. Biasanya direpresentasikan dengan bilangan bulat non-negatif, seperti jumlah orang di kelas dan jumlah pegawai di perusahaan.
Akar unit (square roots) atau Logaritma (logarithms) biasanya diterapkan pada data perhitungan. Ada juga jenis transformasi yang disebut transformasi “Box-Cox” yang merupakan alat untuk mentransformasi data perhitungan.

3. Pecahan (fraction)

Merupakan data rasio dan biasanya merupakan data persentase dengan dasar perhitungan 100. Namun, semua angka rasional juga disebut pecahan.
Persen biasanya akan lebih mudah dibaca dengan log[ p/(1 – p) ], dimana p adalah persentase yang digambarkan sebagai pecahan antara 0 dan 1. Jika kita ingin mentransformasi persentase 100, transformasinya adalah log[ p/100-p) ].

4. Peringkat (rank)

Peringkat merupakan bilangan bulat yang menggambarkan tingkatan objek atau entitas. Seringkali variabel tambahan ditambahkan kepada data tersebut untuk mengindikasikan tingkatan objek yang dideskripsikan. Peringkat biasanya ditransformasikan dengan log.

5. Neraca (balance)

Neraca merupakan variabel yang diukur pada sebuah skala yang dapat berupa angka negative atau positif, biasanya memungkinkan bagi semua angka baik itu bilangan bulat, pecahan, rasional, dan irasional. Misalnya data keuntungan perusahaan, keuntungan/kerugian transaksi saham, temperatur suhu, dan lain-lain. Data neraca jarang ditransformasikan.
Sumber: Mosteller,F. and .Tukey, J., Data Analysis and Regression, Reading, MA: Addison-Wesley, 1977
download materi versi pdf dibawah ini >>>