Mga heading
...

Ang pagsusuri ng pagkadismaya ay isang pamamaraan ng istatistika para sa pag-aaral ng pag-asa sa isang random variable sa variable

Sa modelo ng istatistika, ang pagsusuri ng regresyon ay isang pag-aaral na ginamit upang masuri ang ugnayan sa pagitan ng mga variable. Ang pamamaraang matematikal na ito ay nagsasama ng maraming iba pang mga pamamaraan para sa pagmomolde at pagsusuri ng ilang mga variable, kapag ang pokus ay nasa relasyon sa pagitan ng nakasalalay na variable at isa o higit pang mga independiyenteng. Mas partikular, ang pagsusuri ng regression ay tumutulong upang maunawaan kung paano ang isang pangkaraniwang halaga ng isang umaasa na variable na pagbabago kung ang isa sa mga independiyenteng variable ay nagbabago, habang ang iba pang mga independiyenteng variable ay nananatiling maayos.

Ang pagsusuri ng pagkadismaya

Sa lahat ng mga kaso, ang pagtatantya ng target ay isang function ng mga independiyenteng variable at tinatawag na pag-andar ng regression. Sa pagsusuri ng regresyon, interesado din na kilalanin ang pagbabago sa umaasa sa variable bilang isang function ng regression, na maaaring inilarawan gamit ang isang pamamahagi ng posibilidad.

Mga Gawain sa Pagtatasa ng Regression

Ang pamamaraang pang-estadistika ng pananaliksik na ito ay malawakang ginagamit para sa pagtataya, kung saan ang paggamit nito ay may isang makabuluhang kalamangan, ngunit kung minsan maaari itong humantong sa mga ilusyon o maling relasyon, samakatuwid inirerekumenda na maingat na gamitin ito sa isyung ito, sapagkat, halimbawa, ang ugnayan ay hindi nangangahulugang isang sanhi ng relasyon.

Ang isang malaking bilang ng mga pamamaraan ay binuo para sa pagsasagawa ng pagsusuri ng regression, tulad ng linear at ordinaryong hindi bababa sa mga parisukat na regression, na kung saan ay parametric. Ang kanilang kakanyahan ay ang pag-andar ng regression ay tinukoy sa mga tuntunin ng isang may hangganan na bilang ng mga hindi kilalang mga parameter na tinatantya mula sa data. Ang nonparametric regression ay nagbibigay-daan sa mga pag-andar nito upang magsinungaling sa isang tiyak na hanay ng mga pag-andar, na maaaring walang katapusan-dimensional.

Bilang isang istatistika na pamamaraan ng pagsasaliksik, ang pagsusuri ng regresyon sa kasanayan ay nakasalalay sa anyo ng proseso ng proseso ng henerasyon at kung paano ito nauugnay sa diskarte sa regression. Dahil ang tunay na anyo ng proseso ng data ay bumubuo, bilang isang panuntunan, isang hindi kilalang numero, ang pagsusuri ng regresyon ng data ay madalas na nakasalalay sa ilang mga pagpapalagay tungkol sa prosesong ito. Ang mga pagpapalagay na ito ay minsan napatunayan kung mayroong sapat na data. Ang mga modelo ng pagkadismaya ay madalas na kapaki-pakinabang kahit na ang mga pagpapalagay ay moderately paglabag, kahit na hindi sila maaaring gumana nang pinakamataas na kahusayan.

Sa isang mas makitid na kahulugan, ang regression ay maaaring nauugnay na partikular sa pagtatasa ng patuloy na mga variable na tugon, kaibahan sa mga variable na diskarte sa pagtugon na ginamit sa pag-uuri. Ang kaso ng isang tuloy-tuloy na variable na output ay tinatawag ding metric regression upang makilala ito mula sa mga kaugnay na problema.

Ang kwento

Ang pinakaunang form ng regression ay ang kilalang hindi bababa sa parisukat na pamamaraan. Inilathala ito ng Legendre noong 1805 at Gauss noong 1809. Inilapat ni Legendre at Gaus ang pamamaraan sa gawain ng pagtukoy mula sa mga obserbasyong pang-astronomiya ang mga orbits ng mga katawan sa paligid ng Araw (pangunahin na mga kometa, ngunit kalaunan ay natuklasan ang mga bagong menor de edad na planeta). Inilathala ni Gauss ang karagdagang pag-unlad ng teorya ng hindi bababa sa mga parisukat sa 1821, kasama ang isang bersyon ng teorema ng Gauss-Markov.

Paraan ng Pananaliksik sa Statistical

Ang salitang "regression" ay pinahusay ni Francis Galton noong ika-19 na siglo upang ilarawan ang isang biological na kababalaghan. Ang pinakamababang linya ay ang paglaki ng mga inapo mula sa paglaki ng mga ninuno, bilang panuntunan, ay nagbabalik hanggang sa normal na average.Para sa Galton, ang regression ay mayroon lamang biological na kahulugan na ito, ngunit kalaunan ang kanyang gawain ay ipinagpatuloy nina Udney Yule at Karl Pearson at dinala sa isang mas pangkalahatang istatistika ng istatistika. Sa gawain ni Yule at Pearson, ang magkasanib na pamamahagi ng mga variable na tugon at mga variable na paliwanag ay itinuturing na Gaussian. Ang palagay na ito ay tinanggihan ng Fisher sa mga gawa ng 1922 at 1925. Iminungkahi ni Fisher na ang kondisyong pamamahagi ng variable variable ay ang Gaussian, ngunit hindi dapat magkasama. Kaugnay nito, ang palagay ni Fischer ay mas malapit sa pagbuo ng 1821 Gauss. Hanggang sa 1970, kung minsan ay tumagal ng hanggang 24 oras upang makuha ang resulta ng isang pagsusuri ng regresyon.

Pag-aaral ng data ng kapighatian

Ang mga pamamaraan ng pagsusuri ng pagkadismaya ay patuloy na maging isang lugar ng aktibong pananaliksik. Sa mga nagdaang mga dekada, ang mga bagong pamamaraan ay binuo para sa maaasahang pagbabalik; pagbabalik na kinasasangkutan ng correlated na mga tugon; mga paraan ng pagbabalik na akomodasyon sa iba't ibang uri ng nawawalang data; nonparametric regression; Mga pamamaraan ng regresyon sa Bayesian; ang mga regresyon kung saan ang mga variable ng prediktor ay sinusukat na may isang error; mga regresyon na may higit pang mga prediksyon kaysa sa mga obserbasyon, pati na rin ang mga kaukulang pag-uusap na may regression.

Mga modelo ng pagkadismaya

Kasama sa mga modelo ng pagsusuri ng pagkadismaya ang mga sumusunod na variable:

  • Ang mga hindi kilalang mga parameter, na itinalaga bilang beta, na maaaring isang scalar o vector.
  • Independent variable, X.
  • Mga variable ng Dependent, Y.

Sa iba't ibang larangan ng agham kung saan inilalapat ang pagsusuri ng regresyon, ang iba't ibang mga termino ay ginagamit sa halip na mga dependant at independiyenteng variable, ngunit sa lahat ng mga kaso ang modelo ng regression ay nauugnay ang Y sa mga function X at β.

Ang pagtatantya ay karaniwang kumukuha ng form E (Y | X) = F (X, β). Upang magsagawa ng pagsusuri ng regresyon, dapat na matukoy ang uri ng pag-andar f. Hindi gaanong karaniwan, batay ito sa kaalaman sa kaugnayan sa pagitan ng Y at X na hindi umaasa sa data. Kung ang ganoong kaalaman ay hindi magagamit, kung gayon ang isang nababaluktot o maginhawang form F ay pinili.

Nag-iiba-iba Ang Y

Ipagpalagay na ang vector ng hindi kilalang mga parameter β ay may haba k. Upang maisagawa ang pagsusuri ng regresyon, dapat magbigay ang gumagamit ng impormasyon tungkol sa umaasang variable Y:

  • Kung mayroong mga punto ng data ng N ng form (Y, X), kung saan ang N
  • Kung eksaktong N = K ay sinusunod, at ang pagpapaandar ng F ay magkakatulad, kung gayon ang equation Y = F (X, β) ay maaaring malutas nang eksakto, at hindi tinatayang. Binabawasan nito ang paglutas ng isang hanay ng mga N-equation na may mga N-hindi kilala (mga elemento ng β), na may isang natatanging solusyon hangga't ang X ay magkakasunod na independyente. Kung ang F ay hindi linya, ang solusyon ay maaaring hindi umiiral, o maraming mga solusyon ay maaaring umiiral.
  • Ang pinaka-karaniwang ay ang sitwasyon kung saan ang mga N> puntos sa data ay sinusunod. Sa kasong ito, mayroong sapat na impormasyon sa data upang suriin ang natatanging halaga para sa best na pinakamahusay na tumutugma sa data, at ang modelo ng regression, kapag inilalapat sa data ay maaaring isaalang-alang bilang isang overdetermined system sa β.

Sa huling kaso, ang pagsusuri ng regresyon ay nagbibigay ng mga tool para sa:

  • Ang paghahanap ng mga solusyon para sa hindi kilalang mga parameter β, na, halimbawa, ay mabawasan ang distansya sa pagitan ng mga sinusukat at hinulaang mga halaga ng Y.
  • Sa ilalim ng ilang mga pagpapalagay sa istatistika, ang pagsusuri ng regresyon ay gumagamit ng labis na impormasyon upang magbigay ng impormasyon sa istatistika tungkol sa mga hindi kilalang mga parameter β at ang hinulaang mga halaga ng umaasang variable Y.

Kinakailangan na bilang ng mga malayang pagsukat

Isaalang-alang ang isang modelo ng regression na may tatlong hindi kilalang mga parameter: β0, β1 at β2. Ipagpalagay na ang eksperimento ay nagsasagawa ng 10 mga sukat sa parehong halaga ng independyenteng variable ng vector X.Sa kasong ito, ang pagsusuri ng regresyon ay hindi nagbibigay ng isang natatanging hanay ng mga halaga. Ang pinakamagandang bagay na maaari mong gawin ay suriin ang ibig sabihin at karaniwang paglihis ng umaasang variable Y. Sa pamamagitan ng pagsukat ng dalawang magkakaibang mga halaga ng X sa parehong paraan, makakakuha ka ng sapat na data para sa isang regression na may dalawang hindi alam, ngunit hindi para sa tatlo o higit pang mga hindi alam.

Halimbawa ng pagsusuri ng pagkadismaya

Kung ang mga sukat ng eksperimento ay isinasagawa sa tatlong magkakaibang mga halaga ng independyenteng variable ng vector X, kung gayon ang pagsusuri ng regresyon ay magbibigay ng isang natatanging hanay ng mga pagtatantya para sa tatlong hindi kilalang mga parameter sa β.

Sa kaso ng pangkalahatang pagreresulta sa linear, ang pahayag sa itaas ay katumbas ng kahilingan na ang matrix XTBaligtad ang X.

Mga Assign sa Statistics

Kapag ang bilang ng mga sukat N ay mas malaki kaysa sa bilang ng mga hindi kilalang mga parameter k at ang pagsukat error εako, pagkatapos, bilang isang panuntunan, ang labis na impormasyon na nilalaman sa mga sukat ay pagkatapos ay ipinamamahagi at ginagamit para sa mga istatistikong pagtataya tungkol sa hindi kilalang mga parameter. Ang labis na impormasyon na ito ay tinatawag na antas ng kalayaan ng pagreregresyon.

Pangunahing mga pagpapalagay

Ang mga klasikong pagpapalagay para sa pagtatasa ng regression ay kasama ang:

  • Ang halimbawang ito ay kinatawan ng paghuhula ng pagkilala.
  • Ang error ay isang random variable na may isang average na halaga ng zero, na kondisyon sa mga variable na paliwanag.
  • Ang mga independyenteng variable ay sinusukat nang walang error.
  • Bilang independiyenteng mga variable (prediktor), sila ay magkakatulad na independiyenteng, iyon ay, hindi posible na ipahayag ang anumang prediktor sa anyo ng isang guhit na kumbinasyon ng iba.
  • Ang mga pagkakamali ay walang pasubali, i.e., ang covariance matrix ng mga error sa dayagonal at bawat elemento ng nonzero ay ang pagkakaiba-iba ng error.
  • Ang pagkakaiba-iba ng error ay pare-pareho ayon sa mga obserbasyon (homoskedasticity). Kung hindi, maaari mong gamitin ang bigat na hindi bababa sa parisukat na pamamaraan o iba pang mga pamamaraan.

Ang mga sapat na kundisyon para sa hindi bababa sa mga parisukat na pagtantya ay nagtataglay ng mga kinakailangang katangian, lalo na, ang mga pagpapalagay na ito ay nangangahulugang ang mga pagtatantya ng parameter ay magiging layunin, pare-pareho at epektibo, lalo na kung isinasaalang-alang sa klase ng mga linear na mga pagtatantya. Mahalagang tandaan na ang katibayan ay bihirang nakakatugon sa mga kondisyon. Iyon ay, ang pamamaraan ay ginagamit kahit na ang mga pagpapalagay ay hindi totoo. Ang isang pagkakaiba-iba ng mga pagpapalagay ay maaaring magamit bilang isang sukatan kung gaano kapaki-pakinabang ang modelong ito. Marami sa mga pagpapalagay na ito ay maaaring mapagaan ng mas advanced na pamamaraan. Ang mga ulat sa pagtatasa ng istatistika ay karaniwang kasama ang pagsusuri ng mga pagsubok batay sa sample na data at pamamaraan para sa utility ng modelo.

Bilang karagdagan, ang mga variable sa ilang mga kaso ay tumutukoy sa mga halagang sinusukat sa mga lokasyon ng punto. Maaaring may mga spatial na mga uso at spatial autocorrelation sa mga variable na lumalabag sa mga statistical assumptions. Ang geographic weighted regression ay ang tanging pamamaraan na tumatalakay sa naturang data.

Pagtatasa ng Pagkabagbag-galang na Linya

Sa linear regression, ang isang tampok ay ang dependant variable, na Yakoay isang linear na kumbinasyon ng mga parameter. Halimbawa, sa isang simpleng linear regression, ang isang independiyenteng variable, x, ay ginagamit upang modelo ng mga n-pointako, at dalawang mga parameter, β0 at β1.

Pagtatasa ng Pagkabagbag-galang na Linya

Sa maraming linear regression, mayroong maraming mga independiyenteng variable o ang kanilang mga pag-andar.

Sa pamamagitan ng isang random na sampling mula sa isang populasyon, ginagawang posible ang mga parameter nito upang makakuha ng isang halimbawa ng isang modelo ng linear regression.

Sa aspetong ito, ang pamamaraan na hindi bababa sa mga parisukat ang pinakapopular. Gamit ito, ang mga pagtatantya ng parameter ay nakuha na mabawasan ang kabuuan ng mga parisukat na natitira. Ang ganitong uri ng pag-minimize (na kung saan ay katangian ng isang linear regression) ng pagpapaandar na ito ay humahantong sa isang hanay ng mga normal na equation at isang hanay ng mga linear equation na may mga parameter na nalulutas upang makakuha ng mga pagtatantya ng parameter.

Sa ilalim ng karagdagang palagay na ang pagkakamali ng populasyon ay karaniwang kumakalat, maaaring gamitin ng mananaliksik ang mga pagtatantya na ito ng mga karaniwang error upang lumikha ng mga agwat ng kumpiyansa at pagsubok ng mga hypotheses tungkol sa mga parameter nito.

Nonlinear Regression Pagsusuri

Ang isang halimbawa kung saan ang pag-andar ay hindi magkakasunod na may paggalang sa mga parameter ay nagpapahiwatig na ang kabuuan ng mga parisukat ay dapat na mabawasan gamit ang isang pamamaraan ng iterative. Ipinakikilala nito ang maraming mga komplikasyon na natutukoy ang mga pagkakaiba sa pagitan ng mga linear at non-linear na hindi gaanong parisukat na mga pamamaraan. Dahil dito, ang mga resulta ng pagsusuri ng regression gamit ang nonlinear na paraan ay hindi nahuhulaan.

Mga Resulta ng Pagtatasa ng Regression

Pagkalkula ng lakas at laki ng sample

Dito, bilang isang patakaran, walang mga pare-pareho na pamamaraan tungkol sa bilang ng mga obserbasyon kumpara sa bilang ng mga independiyenteng variable sa modelo. Ang unang panuntunan ay iminungkahi ni Good at Hardin at mukhang N = t ^ n, kung saan ang N ay ang laki ng sample, n ay ang bilang ng mga independiyenteng variable, at t ay ang bilang ng mga obserbasyon na kinakailangan upang makamit ang ninanais na katumpakan kung ang modelo ay may isang independyenteng variable. Halimbawa, ang isang mananaliksik ay nagtatayo ng isang linear regression model gamit ang isang dataset na naglalaman ng 1000 mga pasyente (N). Kung nagpasya ang mananaliksik na limang mga obserbasyon ang kinakailangan upang tumpak na matukoy ang linya (m), kung gayon ang maximum na bilang ng mga independyenteng variable na maaaring suportahan ng modelo ay 4.

Iba pang mga pamamaraan

Sa kabila ng katotohanan na ang mga parameter ng modelo ng regression ay karaniwang tinantya gamit ang hindi bababa sa mga parisukat na pamamaraan, mayroong iba pang mga pamamaraan na ginagamit nang mas madalas. Halimbawa, ito ang mga sumusunod na pamamaraan:

  • Mga pamamaraan ng Bayesian (hal. Bayesian linear regression method).
  • Ang regression ng porsyento, na ginagamit para sa mga sitwasyon kung saan ang isang pagbawas sa mga porsyento na mga error ay itinuturing na mas naaangkop.
  • Ang pinakamaliit na ganap na paglihis, na kung saan ay mas matatag sa pagkakaroon ng mga outliers na humahantong sa dami ng regression.
  • Ang nonparametric regression, na nangangailangan ng isang malaking bilang ng mga obserbasyon at kalkulasyon.
  • Ang distansya ng sukatan ng pagkatuto, na pinag-aralan sa paghahanap ng isang makabuluhang distansya ng sukatan sa isang naibigay na puwang sa pag-input.

Mga Modelo ng Pagsusuri ng Paghinang

Software

Ang lahat ng mga pangunahing pakete ng istatistika ng software ay isinasagawa gamit ang hindi bababa sa pagsusuri ng regresyon ng mga parisukat. Ang simpleng linear regression at maraming pagsusuri ng regresyon ay maaaring magamit sa ilang mga application ng spreadsheet, pati na rin sa ilang mga calculator. Bagaman maraming mga statistical software packages ay maaaring magsagawa ng iba't ibang uri ng nonparametric at maaasahang regression, ang mga pamamaraan na ito ay hindi ginawang standard; iba't ibang mga software packages ay nagpapatupad ng iba't ibang mga pamamaraan. Ang dalubhasang regression software ay binuo para magamit sa mga lugar tulad ng pagsusuri sa pagsusuri at neuroimaging.


Magdagdag ng isang puna
×
×
Sigurado ka bang gusto mong tanggalin ang komento?
Tanggalin
×
Dahilan para sa reklamo

Negosyo

Mga kwentong tagumpay

Kagamitan