Antraštės
...

Regresinė analizė yra statistinis metodas atsitiktinio kintamojo priklausomybei nuo kintamųjų tirti

Statistinio modeliavimo metu regresinė analizė yra tyrimas, naudojamas įvertinti ryšį tarp kintamųjų. Šis matematinis metodas apima daugybę kitų kelių kintamųjų modeliavimo ir analizės metodų, kai pagrindinis dėmesys skiriamas priklausomo kintamojo ir vieno ar daugiau nepriklausomų kintamųjų ryšiui. Tiksliau, regresinė analizė padeda suprasti, kaip keičiasi tipinė priklausomo kintamojo vertė, jei keičiasi vienas iš nepriklausomų kintamųjų, o kiti nepriklausomi kintamieji išlieka fiksuoti.

Regresinė analizė

Visais atvejais tikslinis įvertinimas yra nepriklausomų kintamųjų funkcija ir yra vadinamas regresijos funkcija. Atliekant regresijos analizę, taip pat įdomu apibūdinti priklausomo kintamojo pokytį kaip regresijos funkciją, kurią galima apibūdinti naudojant tikimybės pasiskirstymą.

Regresinės analizės užduotys

Šis statistinių tyrimų metodas yra plačiai naudojamas prognozuojant, kai jo naudojimas turi reikšmingą pranašumą, tačiau kartais jis gali sukelti iliuzijų ar klaidingų ryšių, todėl rekomenduojama jį atsargiai naudoti šiame numeryje, nes, pavyzdžiui, koreliacija nereiškia priežastinio ryšio.

Regresijos analizei atlikti buvo sukurta daugybė metodų, tokių kaip parametrinė tiesinė ir paprastųjų mažiausiųjų kvadratų regresija. Jų esmė ta, kad regresijos funkcija yra apibrėžta pagal baigtinį skaičių nežinomų parametrų, kurie įvertinami pagal duomenis. Neparametrinė regresija leidžia jos funkcijoms slypi tam tikroje funkcijų rinkinyje, kuris gali būti begalinis.

Kaip statistinio tyrimo metodas, regresinė analizė praktikoje priklauso nuo duomenų generavimo proceso formos ir nuo to, kaip jis susijęs su regresijos metodu. Kadangi tikroji duomenų proceso forma, kaip taisyklė, generuoja nežinomą skaičių, regresinė duomenų analizė dažnai tam tikru mastu priklauso nuo prielaidų apie šį procesą. Šios prielaidos kartais patikrinamos, jei yra pakankamai duomenų. Regresijos modeliai dažnai yra naudingi, net jei prielaidos yra vidutiniškai pažeidžiamos, nors jie negali veikti maksimaliai efektyviai.

Siaurąja prasme regresija gali būti konkrečiai susijusi su nuolatinių atsako kintamųjų vertinimu, priešingai nei klasifikacijoje naudojami diskretiniai atsako kintamieji. Ištisinio išėjimo kintamojo atvejis taip pat vadinamas metrine regresija, siekiant atskirti jį nuo susijusių problemų.

Pasakojimas

Ankstyviausia regresijos forma yra gerai žinomas mažiausių kvadratų metodas. Jį paskelbė Legendre 1805 m., O Gauss 1809 m. Legendre ir Gauss šį metodą pritaikė uždaviniui iš astronominių stebėjimų nustatyti aplink Saulę esančių kūnų (daugiausia kometų, bet vėliau naujai atrastų nedidelių planetų) orbitas. 1821 m. Gauss paskelbė tolesnį mažiausių kvadratų teorijos vystymą, įskaitant Gauso-Markovo teoremos versiją.

Statistinių tyrimų metodas

Terminą „regresija“ XIX amžiuje sukūrė Pranciškus Galtonas, norėdamas apibūdinti biologinį reiškinį. Esmė buvo ta, kad palikuonių augimas iš protėvių augimo paprastai sumažėja iki normalaus vidurkio.Galtonui regresija turėjo tik šią biologinę prasmę, tačiau vėliau jo darbus tęsė Udney Yule ir Karlas Pearsonas ir pateko į bendresnį statistinį kontekstą. Yule ir Pearson darbe bendras atsakų kintamųjų ir aiškinamųjų kintamųjų pasiskirstymas laikomas Gausso. Šią prielaidą Fišeris atmetė 1922 ir 1925 m. Fišeris pasiūlė, kad sąlyginis atsako kintamojo pasiskirstymas yra Gausso, tačiau jungtinis pasiskirstymas neturėtų būti. Šiuo atžvilgiu Fišerio prielaida yra artimesnė 1821 m. Gauso formulavimui. Iki 1970 m. Regresinės analizės rezultatams gauti prireikė net 24 valandų.

Regresijos duomenų analizė

Regresinės analizės metodai tebėra aktyvių tyrimų sritis. Pastaraisiais dešimtmečiais buvo sukurti nauji patikimo regresijos metodai; regresija, susijusi su koreliuojančiomis reakcijomis; regresijos metodai, pritaikantys įvairius trūkstamų duomenų tipus; neparametrinė regresija; Bajeso regresijos metodai; regresijos, kai prognozuojamieji kintamieji išmatuojami su paklaida; regresijos su daugiau prognozių nei stebėjimai, taip pat priežastiniai regresijos padariniai.

Regresiniai modeliai

Regresinės analizės modeliai apima šiuos kintamuosius:

  • Nežinomi parametrai, žymimi kaip beta, kurie gali būti skaliariniai arba vektoriniai.
  • Nepriklausomi kintamieji, X.
  • Priklausomi kintamieji, Y.

Įvairiose mokslo srityse, kur taikoma regresinė analizė, vietoj priklausomų ir nepriklausomų kintamųjų vartojami įvairūs terminai, tačiau visais atvejais regresijos modelis Y yra susijęs su X ir β funkcijomis.

Aproksimacija paprastai būna tokia forma: E (Y | X) = F (X, β). Norint atlikti regresinę analizę, reikia nustatyti funkcijos f tipą. Rečiau jis grindžiamas žiniomis apie Y ir X santykį, kuris nėra pagrįstas duomenimis. Jei tokių žinių nėra, pasirenkama lanksti arba patogi F forma.

Priklausomas kintamasis Y

Dabar tarkime, kad nežinomų parametrų vektoriaus β ilgis yra k. Norėdami atlikti regresinę analizę, vartotojas turi pateikti informaciją apie priklausomą kintamąjį Y:

  • Jei yra N formos duomenų taškų (Y, X), kur N
  • Jei tiksliai stebimas N = K, o funkcija F yra tiesinė, lygtį Y = F (X, β) galima išspręsti tiksliai, o ne apytiksliai. Tai reiškia, kad reikia išspręsti N lygčių rinkinį su N nežinomaisiais (β elementais), kuris turi unikalų sprendimą tol, kol X yra tiesiškai nepriklausomas. Jei F yra netiesinė, sprendimo gali nebūti arba gali būti daugybė sprendimų.
  • Dažniausiai pasitaiko atvejų, kai stebimi N> duomenys. Tokiu atveju duomenyse yra pakankamai informacijos, kad būtų galima įvertinti unikalią β vertę, kuri geriausiai atitinka duomenis, o regresijos modelis, pritaikytas duomenims, gali būti laikomas per daug nulemta β sistema.

Pastaruoju atveju regresinė analizė suteikia įrankius:

  • Ieškoma nežinomų β parametrų sprendimų, kurie, pavyzdžiui, sumažins atstumą tarp išmatuotų ir numatytų Y verčių.
  • Remiantis tam tikromis statistinėmis prielaidomis, regresinė analizė naudoja perteklinę informaciją, kad gautų statistinę informaciją apie nežinomus parametrus β ir numatomas priklausomo kintamojo Y vertes.

Būtinas nepriklausomų matavimų skaičius

Apsvarstykite regresijos modelį, kuris turi tris nežinomus parametrus: β0, β1 ir β2. Tarkime, kad eksperimentatorius atlieka 10 matavimų pagal tą pačią vektoriaus X nepriklausomo kintamojo vertę.Šiuo atveju regresinė analizė nepateikia unikalaus verčių rinkinio. Geriausias dalykas, kurį galite padaryti, yra įvertinti priklausomo kintamojo Y vidurkį ir standartinį nuokrypį. Išmatuodami dvi skirtingas X reikšmes tuo pačiu būdu, galite gauti pakankamai duomenų regresijai su dviem nežinomaisiais, bet ne su trimis ar daugiau nežinomų.

Regresinės analizės pavyzdys

Jei eksperimentatoriaus matavimai buvo atlikti trimis skirtingomis vektoriaus X nepriklausomo kintamojo reikšmėmis, tada regresinė analizė pateiks unikalų trijų nežinomų β parametrų įverčių rinkinį.

Bendrosios tiesinės regresijos atveju aukščiau pateiktas teiginys yra lygus reikalavimui, kad matrica XTX yra grįžtamasis.

Statistinės prielaidos

Kai N matavimų skaičius yra didesnis nei nežinomų parametrų k skaičius ir matavimo paklaida εi, tada paprastai matavimuose esančios informacijos perteklius paskirstomas ir naudojamas statistinėms prognozėms dėl nežinomų parametrų. Šis informacijos perteklius vadinamas regresijos laisvės laipsniu.

Pagrindinės prielaidos

Klasikinės prielaidos regresinei analizei apima:

  • Imtis atspindi išvadų numatymą.
  • Klaida yra atsitiktinis kintamasis, kurio vidutinė vertė yra lygi nuliui, o tai priklauso nuo aiškinamųjų kintamųjų.
  • Nepriklausomi kintamieji matuojami be klaidų.
  • Kaip nepriklausomi kintamieji (numatytojai), jie yra tiesiškai nepriklausomi, tai yra, neįmanoma išreikšti jokio numatytojo kito linijinio derinio pavidalu.
  • Klaidos yra nesusijusios, t. Y. Įstrižainių paklaidų kovariacijos matrica ir kiekvienas nenulinis elementas yra paklaidos dispersija.
  • Remiantis stebėjimais, paklaidos dispersija yra pastovi (homoskedasticiškumas). Jei ne, galite naudoti mažiausių kvadratų svertinį metodą arba kitus metodus.

Šios pakankamos mažiausių kvadratų įvertinimo sąlygos turi reikiamas savybes, visų pirma, šios prielaidos reiškia, kad parametrų įverčiai bus objektyvūs, nuoseklūs ir veiksmingi, ypač kai į juos atsižvelgiama tiesinių įverčių klasėje. Svarbu pažymėti, kad įrodymai retai atitinka sąlygas. Tai yra, metodas naudojamas net jei prielaidos nėra teisingos. Prielaidų variantai kartais gali būti naudojami kaip šio modelio naudingumo matas. Daugelį šių prielaidų galima sušvelninti naudojant sudėtingesnius metodus. Į statistinės analizės ataskaitas paprastai įeina testų analizė, pagrįsta imties duomenimis ir modelio naudingumo metodika.

Be to, kai kuriais atvejais kintamieji nurodo reikšmes, išmatuotas taško vietose. Gali būti kintamųjų, kurie pažeidžia statistines prielaidas, erdvinės tendencijos ir erdvinė autokoreliacija. Vienintelis metodas, naudojamas tokiems duomenims, yra geografinė svertinė regresija.

Tiesinės regresijos analizė

Tiesinės regresijos metu bruožas yra tas, kad priklausomas kintamasis, kuris yra Yiyra linijinis parametrų derinys. Pavyzdžiui, paprastoje tiesinėje regresijoje n-taškams modeliuoti naudojamas vienas nepriklausomas kintamasis xiir du parametrai β0 ir β1.

Tiesinės regresijos analizė

Esant daugybinei tiesinei regresijai, yra keli nepriklausomi kintamieji arba jų funkcijos.

Atsitiktinai imant populiaciją, jos parametrai leidžia gauti linijinės regresijos modelio pavyzdį.

Šiuo aspektu populiariausias yra mažiausių kvadratų metodas. Jį naudojant gaunami parametrų įverčiai, iki minimumo sumažinantys kvadratinių liekanų sumą. Toks šios funkcijos minimizavimas (būdingas tiesinei regresijai) lemia normaliųjų lygčių rinkinį ir linijinių lygčių rinkinį su parametrais, kurie išsprendžiami norint gauti parametrų įverčius.

Remdamasi dar viena prielaida, kad populiacijos paklaida paprastai plinta, tyrėjas gali naudoti šiuos standartinių klaidų įverčius, kad sudarytų pasikliautinus intervalus ir patikrintų hipotezes apie jo parametrus.

Netiesinė regresinė analizė

Pavyzdys, kai funkcija nėra tiesinė parametrų atžvilgiu, rodo, kad kvadratų suma turėtų būti sumažinta naudojant iteracinę procedūrą. Tai pateikia daugybę komplikacijų, lemiančių tiesinių ir netiesinių mažiausiųjų kvadratų metodų skirtumus. Todėl regresinės analizės, naudojant netiesinį metodą, rezultatai kartais būna nenuspėjami.

Regresinės analizės rezultatai

Galios ir mėginio dydžio apskaičiavimas

Paprastai nėra nuoseklių metodų, susijusių su stebėjimų skaičiumi, palyginti su modelyje esančių nepriklausomų kintamųjų skaičiumi. Pirmąją taisyklę pasiūlė „Good“ ir „Hardin“ ir atrodo, kad N = t ^ n, kur N yra imties dydis, n yra nepriklausomų kintamųjų skaičius, o t yra stebėjimų, reikalingų norint pasiekti norimą tikslumą, skaičius, jei modelis turėjo tik vieną nepriklausomą kintamąjį. Pavyzdžiui, tyrėjas sukuria tiesinės regresijos modelį, naudodamas duomenų rinkinį, kuriame yra 1000 pacientų (N). Jei tyrėjas nusprendžia, kad norint tiksliai nustatyti liniją (m), reikia atlikti penkis stebėjimus, tada maksimalus nepriklausomų kintamųjų skaičius, kurį modelis gali palaikyti, yra 4.

Kiti metodai

Nepaisant to, kad regresijos modelio parametrai paprastai įvertinami mažiausių kvadratų metodu, yra ir kitų metodų, kurie naudojami daug rečiau. Pavyzdžiui, tai yra šie metodai:

  • Bajeso metodai (pvz., Bajeso tiesinės regresijos metodas).
  • Procentinė regresija, naudojama tais atvejais, kai tikslinga sumažinti klaidų procentą.
  • Mažiausi absoliutiniai nuokrypiai, kurie yra stabilesni esant pašalinėms vertėms, lemiančioms kvantilinę regresiją.
  • Neparametrinė regresija, reikalaujanti daugybės stebėjimų ir skaičiavimų.
  • Mokymosi metrikos atstumas, kuris tiriamas ieškant reikšmingo metrinio atstumo tam tikroje įvesties erdvėje.

Regresinės analizės modeliai

Programinė įranga

Visi pagrindiniai statistinės programinės įrangos paketai yra atliekami naudojant mažiausių kvadratų regresinę analizę. Kai kuriose skaičiuoklės programose, taip pat kai kuriuose skaičiuotuvuose galima naudoti paprastą tiesinę regresiją ir daugialypę regresijos analizę. Nors daugelis statistinės programinės įrangos paketų gali atlikti įvairių tipų neparametrinę ir patikimą regresiją, šie metodai yra mažiau standartizuoti; skirtingi programinės įrangos paketai įgyvendina skirtingus metodus. Buvo sukurta specializuota regresijos programinė įranga, naudojama tokiose srityse kaip tyrimų analizė ir neurovaizdis.


Pridėti komentarą
×
×
Ar tikrai norite ištrinti komentarą?
Ištrinti
×
Skundo priežastis

Verslas

Sėkmės istorijos

Įranga