Simple Linear Regression – Bagian 2

Di pos sebelumnya, kita sudah membahas tentang regresi linear. Nah, kali ini kita akan membahas bagaimana mengevaluasi model yang sudah dihasilkan oleh regresi linear tersebut. Dengan kata lain, seberapa “akurat” model yang kita hasilkan dalam memprediksi titik-titik data yang ada.

Evaluasi Akurasi Perkiraan Nilai Koefisien

Selalu ada galat ketika melakukan estimasi terhadap nilai koefisien dan menentukan fungsi regresi yang digunakan. Entah karena ketidaksesuaian fungsi regresi yang digunakan (diasumsikan linear, padahal kuadratis, misalnya), adanya data pencilan, atau karena adanya pengaruh variabel lain yang belum dimasukkan sebagai pertimbangan untuk menyusun model regresinya. Oleh karena itu, fungsi linear yang didefinisikan sebelumnya dapat ditulis ulang sebagai

y = a + bx + \epsilon

dengan \epsilon adalah penampung dari semua hal yang mungkin kita lewatkan saat melakukan estimasi. Dalam kasus taksi yang digunakan pada pos yang lalu, contohnya adalah waktu tunggu taksi atau kesalahan pengukuran — ternyata argonya sedang rusak sehingga kita bayar seikhlasnya saja.

Nah, kita perlu mengingat bahwa data yang kita gunakan dalam memperkirakan nilai koefisien ini merupakan sekelompok sampel — bukan populasi. Oleh karena itu, dikenal lah benda-benda bernama confidence interval dan p-value yang digunakan untuk mengetahui apakah parameter yang digunakan untuk memprediksi y (nilai a dan b) itu signifikan atau hanya kebetulan saja. Walakin, beberapa orang sudah meninggalkan confidence interval dan p-value dewasa ini. Sedikit gambaran mengapa nilai-nilai itu ditinggalkan bisa dilihat di artikel ini dan komik ini.

Evaluasi Akurasi dari Model

Ada beberapa cara yang dapat digunakan untuk mengevaluasi model (fungsi) yang sudah dihasilkan. Intinya, kita ingin melihat seberapa jauh model yang kita hasilkan cocok dengan data yang tersedia. Berdasarkan kitab kuning ilmu statistik [1], ada dua metode yang secara umum dilakukan untuk mengevaluasi model yang dihasilkan: residual standard error (RSE) dan R^2. Sebagai tambahan, dalam pos ini akan diberikan juga metode evaluasi lainnya: root mean squared error (RMSE).

Residual Standard Error

Ingat bahwa di bagian sebelumnya sempat dibahas tentang munculnya \epsilon? Nah, RSE ini adalah estimasi simpangan baku (standard deviation) dari \epsilon. Rumus dari RSE dapat dituliskan sebagai berikut

RSE = \sqrt{\frac{1}{n-2} RSS} = \sqrt{\frac{1}{n-2} \sum_{i=1}^{n}(y_i - \hat{y_i})^2}

dengan nilai \hat{y_i} adalah prediksi nilai y ke-i berdasarkan model yang telah dibuat. Mengapa dibagi n-2? Karena n-2 adalah derajat kebebasan, dan dengan mengestimasi nilai \alpha dan \beta, maka kita sudah membuang dua derajat kebebasan. Artinya, semakin banyak parameter yang digunakan, maka semakin banyak pula nilai error yang dikompensasi.

Sementara RSE hanya mengandalkan selisih dari nilai yang diprediksi dan nilai yang diobservasi, R^2 mencoba mengenalkan total sum of squares (TSS) yang mengukur ketersebaran dalam datanya sendiri. TSS diformulasikan sebagai TSS = \sum{(y_i - \overline{y})^2}, dan nilai R^2 dirumuskan sebagai

R^2 = \frac{TSS - RSS}{TSS} = 1 - \frac{RSS}{TSS}

Nilai R^2 yang mendekati 1 berarti data yang cukup bermacam-macam itu sudah tertangani dengan baik dalam model regresi linear yang dibentuk. Sedangkan jika nilai R^2 mendekati 0, maka kemungkinan model linear yang dibentuk tidak tepat, atau variansi dari datanya terlalu tinggi, atau keduanya.

Root Mean Squared Error

Terakhir, cara yang juga biasanya digunakan untuk mengevaluasi model regresi linear adalah dengan RMSE. Cara ini juga dikenal dengan nama root mean squared deviation (RMSD). Seperti dapat diperkirakan dari namanya, RMSE atau RMSD dihitung dengan menguadratkan error (predictedobserved) dibagi dengan jumlah data (= rata-rata), lalu diakarkan. Secara matematis, rumusnya ditulis sebagai berikut

RMSE = \sqrt{\frac{1}{n} \sum_{i=1}^{n} (\hat{y_i} - y_i)^2}

yang sebetulnya juga bisa dilihat sebagai

RMSE = \sqrt{\frac{1}{n} RSS}


Nah, dengan gambaran tersebut, semoga Anda sudah bisa lebih memahami gambaran mengenai simple linear regression. Untuk bagian berikutnya, kami akan mencoba memberikan contoh kode program untuk regresi linear. Sementara itu, selamat mencoba-coba!

Referensi
[1] James, G., Witten, D., Hastie, T., & Tibshirani, R. (2013). An Introduction to Statistical Learning (p. 68). New York: Springer.