Virsraksti
...

Regresijas analīze ir statistiska metode izlases lieluma atkarības no mainīgajiem lielumiem izpētei

Statistiskajā modelēšanā regresijas analīze ir pētījums, ko izmanto, lai novērtētu attiecības starp mainīgajiem. Šī matemātiskā metode ietver daudzas citas vairāku mainīgo lielumu modelēšanas un analīzes metodes, kad galvenā uzmanība tiek pievērsta attiecībām starp atkarīgo mainīgo un vienu vai vairākiem neatkarīgiem. Precīzāk, regresijas analīze palīdz saprast, kā mainās atkarīgā mainīgā tipiskā vērtība, ja mainās viens no neatkarīgajiem mainīgajiem, bet citi neatkarīgie mainīgie paliek nemainīgi.

Regresijas analīze

Visos gadījumos mērķa novērtējums ir neatkarīgu mainīgo funkcija, un to sauc par regresijas funkciju. Regresijas analīzē interesē arī raksturot atkarīgā mainīgā izmaiņas kā regresijas funkciju, ko var aprakstīt, izmantojot varbūtības sadalījumu.

Regresijas analīzes uzdevumi

Šī statistiskās izpētes metode tiek plaši izmantota prognozēšanai, kur tās izmantošanai ir ievērojamas priekšrocības, taču dažreiz tā var radīt ilūzijas vai nepatiesas attiecības, tāpēc ieteicams to rūpīgi izmantot šajā jautājumā, jo, piemēram, korelācija nenozīmē cēloņsakarību.

Regresijas analīzes veikšanai ir izstrādāts liels skaits metožu, piemēram, parametriskā lineārā un parastā mazāko kvadrātu regresija. To būtība ir tāda, ka regresijas funkcija ir noteikta ar ierobežotu skaitu nezināmu parametru, kas tiek aprēķināti no datiem. Neparametriskā regresija ļauj tās funkcijām atrasties noteiktā funkciju kopā, kuras var būt bezgalīgas dimensijas.

Kā statistiskās izpētes metode regresijas analīze praksē ir atkarīga no datu ģenerēšanas procesa formas un no tā, kā tā ir saistīta ar regresijas pieeju. Tā kā patiesā datu procesa forma parasti rada nezināmu skaitli, datu regresijas analīze bieži zināmā mērā ir atkarīga no pieņēmumiem par šo procesu. Šos pieņēmumus dažreiz pārbauda, ​​ja ir pieejams pietiekami daudz datu. Regresijas modeļi bieži ir noderīgi pat tad, ja mēreni tiek pārkāpti pieņēmumi, lai gan tie nevar darboties ar maksimālu efektivitāti.

Šaurākā nozīmē regresija var īpaši attiekties uz nepārtrauktu reakcijas mainīgo lielumu novērtējumu pretstatā diskrētajiem reakcijas mainīgajiem lielumiem, ko izmanto klasifikācijā. Nepārtraukta izvades mainīgā gadījumu sauc arī par metrisko regresiju, lai to atšķirtu no saistītajām problēmām.

Stāsts

Agrākā regresijas forma ir labi zināmā mazāko kvadrātu metode. To publicēja Legendre 1805. gadā un Gauss 1809. gadā. Legendre un Gauss metodi izmantoja uzdevumam no astronomijas novērojumiem noteikt ķermeņu orbītas ap Sauli (galvenokārt komētas, bet vēlāk jaunatklātas mazākas planētas). Gauss 1821. gadā publicēja mazāko kvadrātu teorijas turpmāku attīstību, iekļaujot Gausa-Markova teorēmas versiju.

Statistiskās izpētes metode

Terminu “regresija” 19. gadsimtā izgudroja Fransisko Galtons, lai aprakstītu bioloģisko parādību. Rezultāts bija tāds, ka pēcteču pieaugums no senču izaugsmes, kā likums, regresē līdz normālajam vidējam līmenim.Galtonam regresijai bija tikai šī bioloģiskā nozīme, bet vēlāk viņa darbu turpināja Udnijs Jule un Kārlis Pīrsons, un viņi nonāca vispārīgā statistikas kontekstā. Yule un Pearson darbā kopējais reakcijas mainīgo un skaidrojošo mainīgo sadalījums tiek uzskatīts par Gausa raksturu. Šo pieņēmumu Fišers noraidīja 1922. un 1925. gada darbos. Fišers ierosināja, ka atbildes mainīgā nosacītais sadalījums ir Gausa, bet kopējam sadalījumam nevajadzētu būt. Šajā sakarā Fišera pieņēmums ir tuvāks 1821. gada Gausa formulējumam. Līdz 1970. gadam dažreiz bija vajadzīgas 24 stundas, lai iegūtu regresijas analīzes rezultātu.

Regresijas datu analīze

Regresijas analīzes metodes joprojām ir aktīvu pētījumu joma. Pēdējās desmitgadēs ticamai regresijai ir izstrādātas jaunas metodes; regresija, kas saistīta ar korelētām atbildēm; regresijas metodes dažāda veida trūkstošo datu pielāgošanai; neparametriska regresija; Bajesijas regresijas metodes; regresijas, kurās prognozētāja mainīgos lielumus mēra ar kļūdu; regresijas ar vairāk prognozētājiem nekā novērojumiem, kā arī cēloņsakarības ar regresiju.

Regresijas modeļi

Regresijas analīzes modeļi ietver šādus mainīgos:

  • Nezināmi parametri, kas apzīmēti kā beta, kas var būt skalārs vai vektors.
  • Neatkarīgi mainīgie, X.
  • Atkarīgie mainīgie, Y.

Dažādās zinātnes jomās, kurās tiek piemērota regresijas analīze, atkarīgo un neatkarīgo mainīgo vietā tiek izmantoti dažādi termini, taču visos gadījumos regresijas modelis Y ir saistīts ar funkcijām X un β.

Aproksimācija parasti ir šāda: E (Y | X) = F (X, β). Lai veiktu regresijas analīzi, ir jānosaka funkcijas f tips. Retāk tas ir balstīts uz zināšanām par Y un X attiecībām, kas nav balstītas uz datiem. Ja šādas zināšanas nav pieejamas, tad tiek izvēlēta elastīga vai ērta F forma.

Atkarīgais mainīgais Y

Tagad pieņemsim, ka nezināmu parametru vektora β garums ir k. Lai veiktu regresijas analīzi, lietotājam jāsniedz informācija par atkarīgo mainīgo Y:

  • Ja ir N formas punkti (Y, X), kur N
  • Ja precīzi tiek novērots N = K un funkcija F ir lineāra, tad vienādojumu Y = F (X, β) var atrisināt precīzi, nevis aptuveni. Tas reducējas līdz N vienādojumu kopuma atrisināšanai ar N nezināmiem (β elementiem), kam ir unikāls risinājums, ja vien X ir lineāri neatkarīgs. Ja F ir nelineāra, risinājums var nebūt vai pastāv daudzi risinājumi.
  • Visizplatītākā ir situācija, kad tiek novēroti N> norāda uz datiem. Šajā gadījumā datos ir pietiekami daudz informācijas, lai novērtētu β unikālo vērtību, kas vislabāk atbilst datiem, un regresijas modeli, ja to piemēro datiem, var uzskatīt par pārāk noteiktu sistēmu β.

Pēdējā gadījumā regresijas analīze nodrošina rīkus:

  • Risinājumu meklēšana nezināmiem parametriem β, kas, piemēram, samazina attālumu starp izmērītajām un prognozētajām Y vērtībām.
  • Saskaņā ar noteiktiem statistikas pieņēmumiem regresijas analīzē tiek izmantota papildu informācija, lai sniegtu statistisko informāciju par nezināmiem parametriem β un atkarīgā mainīgā Y prognozētajām vērtībām.

Nepieciešamais neatkarīgo mērījumu skaits

Apsveriet regresijas modeli, kam ir trīs nezināmi parametri: β0, β1 un β2. Pieņemsim, ka eksperimentētājs veic 10 mērījumus vienā un tajā pašā vektora X neatkarīgā mainīgā vērtībā.Šajā gadījumā regresijas analīze nenodrošina unikālu vērtību kopu. Vislabākais, ko varat darīt, ir novērtēt atkarīgā mainīgā Y vidējo un standartnovirzi. Vienādi izmērot divas dažādas X vērtības, jūs varat iegūt pietiekami daudz datu regresijai ar diviem nezināmiem, bet ne par trim vai vairāk nezināmiem.

Regresijas analīzes piemērs

Ja eksperimenta veicēja mērījumus veica ar trim dažādām vektora X neatkarīgā mainīgā vērtībām, tad regresijas analīze sniegs unikālu novērtējumu kopumu trim nezināmiem parametriem β.

Vispārējas lineāras regresijas gadījumā iepriekšminētais apgalvojums ir līdzvērtīgs prasībai, ka matrica XTX ir atgriezenisks.

Statistikas pieņēmumi

Ja mērījumu skaits N ir lielāks par nezināmo parametru k un mērījumu kļūdas ε skaitui, tad parasti mērījumos ietvertās informācijas pārpalikums tiek izplatīts un izmantots statistiskām prognozēm attiecībā uz nezināmiem parametriem. Šo informācijas pārpalikumu sauc par regresijas brīvības pakāpi.

Pamatpieņēmumi

Klasiskie pieņēmumi regresijas analīzei ietver:

  • Paraugs ir raksturīgs secinājumu prognozēšanai.
  • Kļūda ir nejaušs mainīgais ar vidējo vērtību nulle, kas ir atkarīga no skaidrojošajiem mainīgajiem.
  • Neatkarīgos mainīgos lielumus mēra bez kļūdām.
  • Kā neatkarīgi mainīgie (prognozētāji) tie ir lineāri neatkarīgi, tas ir, nav iespējams izteikt nevienu prognozētāju citu lineāru kombināciju veidā.
  • Kļūdas nav savstarpēji saistītas, t.i., diagonālo kļūdu kovariācijas matrica un katrs elements, kas nav nulle, ir kļūdas dispersija.
  • Kļūdas dispersija ir nemainīga saskaņā ar novērojumiem (homoskedasticitāte). Ja nē, varat izmantot mazāko kvadrātu svērto metodi vai citas metodes.

Šiem pietiekamajiem nosacījumiem mazāko kvadrātu novērtēšanai ir vajadzīgās īpašības, jo īpaši šie pieņēmumi nozīmē, ka parametru aprēķini būs objektīvi, konsekventi un efektīvi, īpaši, ja tos ņem vērā lineāro aplēšu klasē. Ir svarīgi atzīmēt, ka pierādījumi reti atbilst nosacījumiem. Tas ir, metodi izmanto pat tad, ja pieņēmumi nav patiesi. Pieņēmumu variācijas dažreiz var izmantot, lai izmērītu, cik noderīgs ir šis modelis. Daudzus no šiem pieņēmumiem var mazināt, izmantojot modernākas metodes. Statistiskās analīzes ziņojumos parasti ietilpst testu analīze, pamatojoties uz izlases datiem un modeļa lietderības metodoloģiju.

Turklāt mainīgie dažos gadījumos attiecas uz vērtībām, kas izmērītas punktu vietās. Var būt telpiskas tendences un telpiska autokorelācija mainīgajos, kas pārkāpj statistiskos pieņēmumus. Ģeogrāfiskā svērtā regresija ir vienīgā metode, kas apstrādā šādus datus.

Lineārās regresijas analīze

Lineārajā regresijā iezīme ir atkarīgais mainīgais, kas ir Yiir lineāra parametru kombinācija. Piemēram, vienkāršā lineārā regresijā n-punktu modelēšanai tiek izmantots viens neatkarīgs mainīgais xi, un divi parametri, β0 un β1.

Lineārās regresijas analīze

Ar vairāku lineāru regresiju ir vairāki neatkarīgi mainīgie vai to funkcijas.

Izmantojot izlases veida paraugu ņemšanu no populācijas, tās parametri ļauj iegūt lineārās regresijas modeļa piemēru.

Šajā aspektā vispopulārākā ir mazāko kvadrātu metode. Izmantojot to, tiek iegūti parametru novērtējumi, kas samazina kvadrātā atlikumu summu. Šāda šīs funkcijas samazināšana (kas raksturīga lineārajai regresijai) noved pie normālu vienādojumu kopas un lineāru vienādojumu kopas ar parametriem, kas tiek atrisināti, lai iegūtu parametru novērtējumus.

Pieņemot turpmāku pieņēmumu, ka populācijas kļūda parasti izplatās, pētnieks var izmantot šos standarta kļūdu aprēķinus, lai izveidotu ticamības intervālus un pārbaudītu hipotēzes par tā parametriem.

Nelineārā regresijas analīze

Piemērs, kad funkcija nav lineāra attiecībā uz parametriem, norāda, ka kvadrātu summa jāsamazina, izmantojot atkārtojošu procedūru. Tas ievieš daudzus sarežģījumus, kas nosaka atšķirības starp lineāro un nelineāro mazāko kvadrātu metodēm. Līdz ar to regresijas analīzes rezultāti, izmantojot nelineāro metodi, dažreiz ir neparedzami.

Regresijas analīzes rezultāti

Jaudas un parauga lieluma aprēķins

Šeit, kā likums, nav konsekventu metožu attiecībā uz novērojumu skaitu, salīdzinot ar modeļa neatkarīgo mainīgo skaitu. Pirmo noteikumu ierosināja Labs un Hardins, un tas izskatās šādi: N = t ^ n, kur N ir izlases lielums, n ir neatkarīgo mainīgo skaits un t ir vērojumu skaits, kas vajadzīgs, lai sasniegtu vēlamo precizitāti, ja modelim bija tikai viens neatkarīgs mainīgais. Piemēram, pētnieks izveido lineārās regresijas modeli, izmantojot datu kopu, kas satur 1000 pacientus (N). Ja pētnieks nolemj, ka, lai precīzi noteiktu līniju (m), nepieciešami pieci novērojumi, maksimālais neatkarīgo mainīgo skaits, ko modelis var atbalstīt, ir 4.

Citas metodes

Neskatoties uz to, ka regresijas modeļa parametrus parasti novērtē, izmantojot vismazāko kvadrātu metodi, ir arī citas metodes, kuras tiek izmantotas daudz retāk. Piemēram, šīs ir šādas metodes:

  • Baijas metodes (piemēram, Baijas lineārās regresijas metode).
  • Procentuālā regresija, ko izmanto situācijās, kad kļūdu procentu samazināšana tiek uzskatīta par piemērotāku.
  • Mazākās absolūtās novirzes, kas ir stabilākas noviržu klātbūtnē, kas noved pie kvantilās regresijas.
  • Neparametriska regresija, kurai nepieciešams liels skaits novērojumu un aprēķinu.
  • Mācīšanās metrikas attālums, kas tiek pētīts, meklējot ievērojamu metrisko attālumu dotajā ievades telpā.

Regresijas analīzes modeļi

Programmatūra

Visas galvenās statistikas programmatūras paketes tiek veiktas, izmantojot mazāko kvadrātu regresijas analīzi. Dažās izklājlapu lietojumprogrammās, kā arī dažos kalkulatoros var izmantot vienkāršu lineāru regresiju un vairāku regresiju analīzi. Lai arī daudzas statistikas programmatūras paketes var veikt dažāda veida neparametriskus un uzticamus regresijas veidus, šīs metodes ir mazāk standartizētas; dažādas programmatūras paketes ievieš dažādas metodes. Speciāla regresijas programmatūra ir izstrādāta izmantošanai tādās jomās kā eksāmenu analīze un neuroattēlu veidošana.


Pievienojiet komentāru
×
×
Vai tiešām vēlaties dzēst komentāru?
Dzēst
×
Sūdzības iemesls

Bizness

Veiksmes stāsti

Iekārtas