Dalam model statistik, analisis regresi adalah kajian yang digunakan untuk menilai hubungan antara pembolehubah. Kaedah matematik ini merangkumi banyak kaedah lain untuk memodelkan dan menganalisis beberapa pemboleh ubah, apabila fokusnya adalah pada hubungan antara pembolehubah bergantung dan satu atau lebih yang bebas. Secara lebih khusus, analisis regresi membantu memahami bagaimana nilai biasa perubahan variabel bergantung jika salah satu pemboleh ubah bebas berubah, sementara pemboleh ubah bebas yang lain tetap tetap.
Dalam semua kes, anggaran sasaran adalah fungsi pembolehubah bebas dan dipanggil fungsi regresi. Dalam analisis regresi, ia juga menarik untuk mencirikan perubahan dalam pembolehubah bergantung sebagai fungsi regresi, yang boleh digambarkan menggunakan taburan kebarangkalian.
Tugas Analisis Regresi
Kaedah penyelidikan statistik ini digunakan secara meluas untuk peramalan, di mana penggunaannya mempunyai kelebihan yang ketara, tetapi kadang-kadang ia boleh membawa kepada ilusi atau hubungan palsu, oleh sebab itu disarankan untuk menggunakannya dengan teliti dalam hal ini, karena, misalnya, korelasi tidak berarti hubungan kausal.
Sejumlah besar kaedah telah dibangunkan untuk menjalankan analisis regresi, seperti regresi kuadrat linier dan biasa, yang merupakan parametrik. Inti mereka adalah bahawa fungsi regresi ditakrifkan dari segi bilangan terhingga parameter tidak diketahui yang dianggarkan dari data. Regresi nonparametrik membolehkan fungsinya untuk terletak dalam satu set fungsi tertentu, yang boleh dimensi tak terhingga.
Sebagai kaedah penyelidikan statistik, analisis regresi dalam amalan bergantung kepada bentuk proses penjanaan data dan bagaimana ia berkaitan dengan pendekatan regresi. Oleh kerana bentuk sebenar proses data menjana, sebagai peraturan, nombor yang tidak diketahui, analisis regresi terhadap data sering bergantung sedikit pada andaian mengenai proses ini. Andaian ini kadang-kala disahkan jika terdapat data yang mencukupi. Model regresi sering berguna walaupun andaian agak dilanggar, walaupun mereka tidak boleh bekerja dengan kecekapan maksimum.
Dalam erti yang lebih sempit, regresi boleh dikaitkan secara khusus kepada penilaian pembolehubah tindak balas yang berterusan, berbeza dengan pemboleh ubah tindak balas diskret yang digunakan dalam klasifikasi. Kes pemboleh ubah output berterusan juga dipanggil regresi metrik untuk membezakannya daripada masalah yang berkaitan.
Kisah itu
Bentuk regresi terawal adalah kaedah kuadrat terkecil yang diketahui. Ia diterbitkan oleh Legendre pada tahun 1805 dan Gauss pada tahun 1809. Legendre dan Gauss menerapkan kaedah ini untuk menentukan penentuan astronomi dari orbit badan di sekitar Matahari (terutamanya komet, tetapi kemudian dijumpai planet-planet kecil). Gauss menerbitkan satu perkembangan teori teori sekurang-kurangnya pada tahun 1821, termasuk versi teorem Gauss-Markov.
Istilah "regresi" dicipta oleh Francis Galton pada abad ke-19 untuk menggambarkan fenomena biologi. Intinya adalah bahawa pertumbuhan keturunan dari pertumbuhan nenek moyang, sebagai peraturan, merosot hingga normal.Untuk Galton, regresi hanya mempunyai makna biologi ini, tetapi kemudian karyanya diteruskan oleh Udney Yule dan Karl Pearson dan dibawa ke konteks statistik yang lebih umum. Dalam karya Yule dan Pearson, pembahagian bersama bagi pembolehubah tindak balas dan pemboleh ubah penjelasan dianggap Gaussian. Anggapan ini ditolak oleh Fisher dalam karya-karya 1922 dan 1925. Fisher menyarankan bahawa pengagihan bersyarat pembolehubah tindak balas adalah Gaussian, tetapi pengedaran bersama tidak seharusnya. Dalam hal ini, andaian Fischer lebih dekat dengan perumusan Gauss 1821. Sehingga 1970, kadang-kadang mengambil masa sehingga 24 jam untuk mendapatkan keputusan analisis regresi.
Kaedah analisis regresi terus menjadi kawasan penyelidikan aktif. Dalam beberapa dekad kebelakangan ini, kaedah baru telah dibangunkan untuk regresi yang boleh dipercayai; regresi yang melibatkan respons berkorelasi; kaedah regresi menampung pelbagai jenis data yang hilang; regresi nonparametrik; Kaedah regresi Bayesian; regresi di mana pemboleh ubah ramalan diukur dengan ralat; regresi dengan lebih banyak ramalan daripada pemerhatian, serta kesimpulan penyebab dengan regresi.
Model regresi
Model analisis regresi termasuk pembolehubah berikut:
- Parameter yang tidak diketahui, yang ditetapkan sebagai beta, yang mungkin skalar atau vektor.
- Pembolehubah Bebas, X.
- Pembolehubah Bergantung, Y.
Dalam pelbagai bidang sains di mana analisis regresi digunakan, pelbagai istilah digunakan bukannya pembolehubah yang bergantung dan bebas, tetapi dalam semua kes model regresi mengaitkan Y kepada fungsi X dan β.
Penganggaran biasanya mengambil bentuk E (Y | X) = F (X, β). Untuk menjalankan analisis regresi, jenis fungsi f mesti ditentukan. Kurang biasa, ia berdasarkan pengetahuan tentang hubungan antara Y dan X yang tidak bergantung kepada data. Jika pengetahuan tersebut tidak tersedia, maka bentuk F yang fleksibel atau mudah dipilih.
Variabel Bergantung Y
Sekarang anggap bahawa vektor parameter tidak diketahui β mempunyai panjang k. Untuk melakukan analisis regresi, pengguna mesti memberikan maklumat mengenai pembolehubah bergantung Y:
- Sekiranya terdapat titik data N (Y, X), di mana N
- Jika tepat N = K diperhatikan, dan fungsi F adalah linear, maka persamaan Y = F (X, β) dapat diselesaikan dengan tepat, dan tidak kira-kira. Ini mengurangkan untuk menyelesaikan satu set persamaan N dengan N-unknowns (unsur-unsur β), yang mempunyai penyelesaian unik selagi X secara linear bebas. Sekiranya F adalah bukan linear, penyelesaiannya mungkin tidak wujud, atau banyak penyelesaian mungkin wujud.
- Yang paling biasa adalah situasi di mana N> menunjuk kepada data yang diperhatikan. Dalam kes ini, terdapat maklumat yang mencukupi dalam data untuk menilai nilai unik untuk β yang paling sesuai dengan data, dan model regresi, apabila digunakan pada data boleh dianggap sebagai sistem overdetermined dalam β.
Dalam kes kedua, analisis regresi menyediakan alat untuk:
- Mencari penyelesaian untuk parameter yang tidak diketahui β, yang, sebagai contohnya, dapat mengurangkan jarak antara nilai diukur dan diramalkan Y.
- Di bawah anggapan statistik tertentu, analisis regresi menggunakan maklumat yang berlebihan untuk memberikan maklumat statistik mengenai parameter yang tidak diketahui β dan nilai-nilai yang diramalkan pembolehubah bergantung Y.
Bilangan pengukuran bebas diperlukan
Pertimbangkan model regresi yang mempunyai tiga parameter yang tidak diketahui: β0, β1 dan β2. Katakan penguji melakukan 10 pengukuran dalam nilai yang sama pembolehubah bebas vektor X.Dalam kes ini, analisis regresi tidak memberikan set nilai yang unik. Perkara terbaik yang boleh anda lakukan adalah menilai sisihan min dan standard pembolehubah bergantung Y. Dengan mengukur dua nilai X yang berbeza dengan cara yang sama, anda boleh mendapatkan data yang cukup untuk regresi dengan dua tidak diketahui, tetapi tidak untuk tiga atau lebih tidak diketahui.
Sekiranya pengukuran percubaan dijalankan pada tiga nilai berbeza pembolehubah bebas vektor X, maka analisis regresi akan memberikan set anggaran yang unik untuk tiga parameter yang tidak diketahui dalam β.
Dalam kes regresi linear umum, pernyataan di atas bersamaan dengan keperluan bahawa matriks XTX boleh diterbalikkan.
Andaian Statistik
Apabila bilangan pengukuran N lebih besar daripada bilangan parameter yang tidak diketahui k dan ralat pengukuran εi, maka, sebagai peraturan, lebihan maklumat yang terkandung dalam pengukuran kemudiannya diedarkan dan digunakan untuk ramalan statistik mengenai parameter tidak diketahui. Lebihan maklumat ini dipanggil tahap kebebasan regresi.
Andaian asas
Andaian klasik untuk analisis regresi termasuk:
- Sampel itu mewakili ramalan inferensi.
- Kesalahan ialah pemboleh ubah rawak dengan nilai purata sifar, yang bersyarat pada pemboleh ubah penjelasan.
- Pembolehubah bebas diukur tanpa ralat.
- Sebagai pembolehubah bebas (prediktor), mereka secara linear bebas, iaitu, tidak mungkin untuk menyatakan apa-apa ramalan dalam bentuk gabungan linear yang lain.
- Kesilapan tidak ketara, iaitu matriks kovarians kesilapan pepenjuru dan setiap elemen bukan sifar adalah varians ralat.
- Varians kesilapan adalah berterusan mengikut pemerhatian (homoskedasticity). Sekiranya tidak, anda boleh menggunakan kaedah sekurang-kurangnya tertimbang atau kaedah lain.
Syarat-syarat yang mencukupi bagi anggaran sekurang-sekurang-kurangnya memiliki sifat-sifat yang diperlukan, khususnya, andaian ini bermakna anggaran parameter akan objektif, konsisten dan berkesan, terutamanya apabila diambil kira dalam kelas anggaran linear. Adalah penting untuk ambil perhatian bahawa bukti jarang memenuhi syarat. Iaitu, kaedah itu digunakan walaupun andaian tidak benar. Satu variasi anggapan kadang-kadang boleh digunakan sebagai ukuran betapa bergunanya model ini. Ramai daripada andaian ini boleh dikurangkan dengan kaedah yang lebih maju. Laporan analisis statistik biasanya termasuk analisis ujian berdasarkan data sampel dan metodologi untuk utiliti model.
Di samping itu, pembolehubah dalam sesetengah kes merujuk kepada nilai yang diukur di lokasi titik. Mungkin terdapat trend ruang dan autokorelasi spatial dalam pembolehubah yang melanggar anggapan statistik. Regresi tertimbang geografi adalah satu-satunya kaedah yang menangani data sedemikian.
Analisis Regresi Linier
Dalam regresi linier, satu ciri ialah pembolehubah bergantung, iaitu Yiadalah gabungan parameter linier. Sebagai contoh, dalam regresi linear yang sederhana, satu pemboleh ubah bebas, x, digunakan untuk model n-pointsi, dan dua parameter, β0 dan β1.
Dengan regresi linear berganda, terdapat beberapa pembolehubah bebas atau fungsi mereka.
Dengan persampelan rawak dari populasi, parameternya memungkinkan untuk mendapatkan contoh model regresi linear.
Dalam aspek ini, kaedah kuadrat-kurangnya adalah yang paling popular. Menggunakannya, anggaran parameter diperolehi yang meminimumkan jumlah sisa kuasa dua. Pengurangan ini (yang merupakan ciri regresi linear) fungsi ini membawa kepada satu set persamaan normal dan satu set persamaan linear dengan parameter yang diselesaikan untuk memperoleh anggaran parameter.
Di bawah anggapan lanjut bahawa kesilapan populasi biasanya merebak, penyelidik boleh menggunakan anggaran ralat standard ini untuk membuat selang keyakinan dan hipotesis ujian tentang parameternya.
Analisis Regresi Tidak Linear
Satu contoh di mana fungsi tidak linier berkenaan dengan parameter menunjukkan bahawa jumlah kotak perlu dikurangkan menggunakan prosedur berulang. Ini memperkenalkan banyak komplikasi yang menentukan perbezaan antara kaedah kuadrat paling kurang linear dan bukan linear. Oleh itu, hasil analisis regresi menggunakan kaedah bukan linear kadang-kadang tidak dapat diramalkan.
Pengiraan kuasa dan saiz sampel
Di sini, sebagai peraturan, tidak terdapat kaedah yang konsisten mengenai bilangan pemerhatian berbanding dengan bilangan pembolehubah bebas dalam model. Peraturan pertama dicadangkan oleh Good and Hardin dan kelihatan seperti N = t ^ n, di mana N ialah saiz sampel, n adalah bilangan pembolehubah bebas dan t adalah bilangan pemerhatian yang diperlukan untuk mencapai ketepatan yang dikehendaki jika model hanya mempunyai satu pemboleh ubah bebas. Sebagai contoh, seorang penyelidik membina model regresi linear menggunakan dataset yang mengandungi 1000 pesakit (N). Sekiranya penyelidik memutuskan bahawa lima pemerhatian diperlukan untuk menentukan secara tepat garisan (m), maka bilangan maksimum pembolehubah bebas yang dapat menyokong model adalah 4.
Kaedah lain
Walaupun parameter-parameter model regresi biasanya dianggarkan dengan menggunakan kaedah sekurang-kurangnya dataran, ada kaedah lain yang digunakan kurang kerap. Sebagai contoh, ini adalah kaedah berikut:
- Kaedah Bayesian (mis. Kaedah regresi linear Bayesian).
- Regresi peratus, digunakan untuk situasi di mana pengurangan dalam kesilapan peratus dianggap lebih sesuai.
- Penyimpangan mutlak terkecil, yang lebih stabil dengan adanya kelebihan yang menyebabkan regresi kuantitatif.
- Regresi nonparametrik, memerlukan sejumlah besar pemerhatian dan pengiraan.
- Jarak metrik pembelajaran, yang dikaji untuk mencari jarak metrik yang penting dalam ruang input yang diberikan.
Perisian
Semua pakej perisian statistik dilakukan dengan menggunakan analisis regresi sekurang-kurangnya. Regresi linier sederhana dan analisis regresi berganda boleh digunakan dalam beberapa aplikasi spreadsheet, serta pada beberapa kalkulator. Walaupun banyak pakej perisian statistik boleh melakukan pelbagai jenis regresi nonparametrik dan boleh dipercayai, kaedah-kaedah ini kurang diselaraskan; pakej perisian yang berbeza melaksanakan kaedah yang berbeza. Perisian regresi khusus telah dibangunkan untuk digunakan dalam bidang seperti analisis peperiksaan dan neuroimaging.