I statistisk modellering er regresjonsanalyse en studie som brukes til å vurdere forholdet mellom variabler. Denne matematiske metoden inkluderer mange andre metoder for modellering og analyse av flere variabler, når fokuset er på forholdet mellom den avhengige variabelen og en eller flere uavhengige. Mer spesifikt hjelper regresjonsanalyse til å forstå hvordan en typisk verdi av en avhengig variabel endres hvis en av de uavhengige variablene endres, mens de andre uavhengige variablene forblir faste.
I alle tilfeller er målestimatet en funksjon av uavhengige variabler og kalles regresjonsfunksjonen. I regresjonsanalyse er det også av interesse å karakterisere endringen i den avhengige variabelen som en funksjon av regresjon, som kan beskrives ved bruk av en sannsynlighetsfordeling.
Oppgaver med regresjonsanalyse
Denne statistiske forskningsmetoden er mye brukt for prognoser, der bruken har en betydelig fordel, men noen ganger kan den føre til illusjoner eller falske forhold, derfor anbefales det å bruke den nøye i dette nummeret, fordi for eksempel korrelasjon ikke betyr en årsakssammenheng.
Et stort antall metoder er utviklet for å utføre regresjonsanalyse, slik som lineær og vanlig minste kvadraters regresjon, som er parametrisk. Deres essens er at regresjonsfunksjonen er definert i form av et begrenset antall ukjente parametere som er estimert fra dataene. Ikke-parametrisk regresjon lar sine funksjoner ligge i et visst sett med funksjoner, som kan være uendelig dimensjonalt.
Som en statistisk forskningsmetode avhenger regresjonsanalysen i praksis av formen for datagenereringsprosessen og hvordan den forholder seg til regresjonsmetoden. Siden den sanne formen for dataprosessen genererer som et ukjent tall, avhenger ofte regresjonsanalysen av dataene til en viss grad av forutsetningene om denne prosessen. Disse forutsetningene blir noen ganger bekreftet hvis det er nok tilgjengelige data. Regresjonsmodeller er ofte nyttige selv om antagelser er moderat krenket, selv om de ikke kan fungere med maksimal effektivitet.
I en smalere forstand kan regresjon relatere spesifikt til vurderingen av kontinuerlige responsvariabler, i motsetning til de diskrete responsvariablene som ble brukt i klassifiseringen. Tilfellet med en kontinuerlig utgangsvariabel kalles også metrisk regresjon for å skille den fra relaterte problemer.
Historien
Den tidligste formen for regresjon er den velkjente minste kvadratmetoden. Den ble utgitt av Legendre i 1805 og Gauss i 1809. Legendre og Gauss brukte metoden til oppgaven å fra astronomiske observasjoner bestemme banene til kropper rundt sola (hovedsakelig kometer, men senere nyoppdagede mindre planeter). Gauss publiserte en videreutvikling av teorien om minste firkanter i 1821, inkludert en versjon av Gauss-Markov-teoremet.
Begrepet "regresjon" ble myntet av Francis Galton på 1800-tallet for å beskrive et biologisk fenomen. Hovedpoenget var at veksten av etterkommere fra forfedres vekst, som regel, regreserer tilbake til normalt gjennomsnitt.For Galton hadde regresjon bare denne biologiske betydningen, men senere ble arbeidet hans videreført av Udney Yule og Karl Pearson og brakt til en mer generell statistisk kontekst. I arbeidet med Yule og Pearson regnes fellesfordelingen av responsvariabler og forklaringsvariabler som Gauss. Denne antagelsen ble avvist av Fisher i verkene 1922 og 1925. Fisher antydet at den betingede fordelingen av responsvariabelen er gaussisk, men leddfordelingen skulle ikke være. I denne forbindelse er Fischer antakelse nærmere Gauss-formuleringen fra 1821. Fram til 1970 tok det noen ganger opptil 24 timer å få resultatet av en regresjonsanalyse.
Metoder for regresjonsanalyse er fortsatt et område av aktiv forskning. I løpet av de siste tiårene har nye metoder blitt utviklet for pålitelig regresjon; regresjon som involverer korrelerte svar; regresjonsmetoder som rommer forskjellige typer manglende data; ikke-parametrisk regresjon; Bayesiske regresjonsmetoder; regresjoner der prediktorvariabler måles med en feil; regresjoner med flere prediktorer enn observasjoner, samt årsakssammenhenger med regresjon.
Regresjonsmodeller
Regresjonsanalysemodeller inkluderer følgende variabler:
- Ukjente parametere, betegnet som beta, som kan være en skalar eller vektor.
- Independent Variables, X.
- Avhengige variabler, Y.
I forskjellige vitenskapsfelt der regresjonsanalyse brukes, brukes forskjellige betegnelser i stedet for avhengige og uavhengige variabler, men i alle tilfeller relaterer regresjonsmodellen Y seg til funksjonene X og β.
Tilnærmingen har vanligvis formen E (Y | X) = F (X, β). For å utføre en regresjonsanalyse, må type funksjon f bestemmes. Mindre vanlig er det basert på kunnskap om forholdet mellom Y og X som ikke er avhengig av data. Hvis slik kunnskap ikke er tilgjengelig, velges en fleksibel eller praktisk form F.
Avhengig variabel Y
Anta nå at vektoren med ukjente parametere β har lengde k. For å utføre en regresjonsanalyse, må brukeren gi informasjon om den avhengige variabelen Y:
- Hvis det er N datapunkter av formen (Y, X), hvor N
- Hvis nøyaktig N = K er observert, og funksjonen F er lineær, kan likningen Y = F (X, β) løses nøyaktig, og ikke ca. Dette reduserer til å løse et sett med N-ligninger med N-ukjente (elementer av β), som har en unik løsning så lenge X er lineært uavhengig. Hvis F er ikke-lineær, kan det hende at løsningen ikke eksisterer, eller mange løsninger kan eksistere.
- Den vanligste er situasjonen der N> peker på dataene blir observert. I dette tilfellet er det nok informasjon i dataene til å evaluere den unike verdien for β som best samsvarer med dataene, og regresjonsmodellen, når den brukes på dataene, kan betraktes som et overbestemt system i β.
I det siste tilfellet gir regresjonsanalyse verktøy for:
- Å finne løsninger for ukjente parametere β, som for eksempel vil minimere avstanden mellom de målte og forutsagte verdiene til Y.
- Under visse statistiske forutsetninger bruker regresjonsanalyse overflødig informasjon for å gi statistisk informasjon om ukjente parametere β og de forutsagte verdiene til den avhengige variabelen Y.
Nødvendig antall uavhengige målinger
Vurder en regresjonsmodell som har tre ukjente parametere: β0, β1 og β2. Anta at eksperimentøren utfører 10 målinger i den samme verdien av den uavhengige variabelen til vektoren X.I dette tilfellet gir ikke regresjonsanalyse et unikt sett med verdier. Det beste du kan gjøre er å evaluere gjennomsnitt og standardavvik for den avhengige variabelen Y. Ved å måle to forskjellige X-verdier på samme måte, kan du få nok data for en regresjon med to ukjente, men ikke for tre eller flere ukjente.
Hvis eksperimentatorens målinger ble utført ved tre forskjellige verdier av den uavhengige variabelen til vektoren X, vil regresjonsanalysen gi et unikt sett med estimater for tre ukjente parametere i β.
Ved generell lineær regresjon tilsvarer utsagnet ovenfor kravet om at matrisen XTX er reversibel.
Statistiske forutsetninger
Når antall målinger N er større enn antallet ukjente parametere k og målefeilen εjeg, så, som regel, blir overskuddet av informasjonen i målingene deretter distribuert og brukt til statistiske prognoser angående ukjente parametere. Dette overskuddet av informasjon kalles graden av regresjonsfrihet.
Grunnleggende forutsetninger
Klassiske forutsetninger for regresjonsanalyse inkluderer:
- Prøven er representativ for inferens prediksjon.
- Feilen er en tilfeldig variabel med en gjennomsnittsverdi på null, som er betinget av de forklarende variablene.
- Uavhengige variabler måles uten feil.
- Som uavhengige variabler (prediktorer) er de lineært uavhengige, det vil si at det ikke er mulig å uttrykke noen prediktor i form av en lineær kombinasjon av de andre.
- Feil er ukorrelerte, dvs. samvariasjonsmatrisen for diagonale feil og hvert element som ikke er noe, er variansen til feilen.
- Variansen til feilen er konstant i henhold til observasjonene (homoskedasticity). Hvis ikke, kan du bruke den vektede minste kvadratmetoden eller andre metoder.
Disse tilstrekkelige betingelsene for estimering av de minste kvadratene har de nødvendige egenskapene, spesielt antar disse forutsetningene at parameterestimatene vil være objektive, konsistente og effektive, spesielt når de tas i betraktning i klassen av lineære estimater. Det er viktig å merke seg at bevis sjelden oppfyller forholdene. Det vil si at metoden brukes selv om forutsetningene ikke er sanne. En variasjon av forutsetninger kan noen ganger brukes som et mål på hvor nyttig denne modellen er. Mange av disse forutsetningene kan dempes ved mer avanserte metoder. Statistiske analyserapporter inkluderer vanligvis analyse av tester basert på eksempeldata og metodikk for modellverktøy.
I tillegg refererer variabler i noen tilfeller til verdier målt på punktsteder. Det kan være romlige trender og romlig autokorrelasjon i variabler som bryter statistiske forutsetninger. Geografisk vektet regresjon er den eneste metoden som omhandler slike data.
Lineær regresjonsanalyse
Ved lineær regresjon er et trekk at den avhengige variabelen, som er Yjeger en lineær kombinasjon av parametere. I en enkel lineær regresjon brukes for eksempel en uavhengig variabel, x, for å modellere n-punkterjeg, og to parametere, β0 og β1.
Med flere lineære regresjoner er det flere uavhengige variabler eller deres funksjoner.
Med tilfeldig prøvetaking fra en populasjon, gjør dens parametere det mulig å få en modell av en lineær regresjonsmodell.
I dette aspektet er metoden med minst kvadrater den mest populære. Ved å bruke den oppnås parameterestimater som minimerer summen av kvadratiske rester. Denne typen minimering (som er karakteristisk for en lineær regresjon) av denne funksjonen fører til et sett med normale ligninger og et sett med lineære ligninger med parametere som er løst for å oppnå parameterestimater.
Under den videre antagelsen at feilen i befolkningen vanligvis sprer seg, kan forskeren bruke disse estimatene av standardfeil for å skape konfidensintervaller og teste hypoteser om dens parametere.
Ikke-lineær regresjonsanalyse
Et eksempel der funksjonen ikke er lineær med hensyn til parametrene indikerer at summen av rutene skal minimeres ved bruk av en iterativ prosedyre. Dette introduserer mange komplikasjoner som bestemmer forskjellene mellom lineære og ikke-lineære minste kvadratmetoder. Følgelig er resultatene av regresjonsanalyse ved bruk av den ikke-lineære metoden noen ganger uforutsigbare.
Beregning av effekt og prøve størrelse
Her er det som regel ingen konsistente metoder angående antall observasjoner sammenlignet med antall uavhengige variabler i modellen. Den første regelen ble foreslått av Good og Hardin og ser ut som N = t ^ n, der N er prøvestørrelsen, n er antall uavhengige variabler, og t er antall observasjoner som er nødvendige for å oppnå ønsket nøyaktighet hvis modellen bare hadde en uavhengig variabel. For eksempel bygger en forsker en lineær regresjonsmodell ved bruk av et datasett som inneholder 1000 pasienter (N). Hvis forskeren bestemmer at det er nødvendig med fem observasjoner for å bestemme linjen (m) nøyaktig, er det maksimale antallet uavhengige variabler som modellen kan støtte på 4.
Andre metoder
Til tross for at parametrene til regresjonsmodellen vanligvis estimeres ved bruk av metoden med minst kvadrater, er det andre metoder som brukes mye sjeldnere. Dette er for eksempel følgende metoder:
- Bayesiske metoder (f.eks. Bayesiansk lineær regresjonsmetode).
- Prosentvis regresjon, brukt i situasjoner der en reduksjon i prosentfeil anses som mer passende.
- De minste absolutte avvikene, som er mer stabile i nærvær av utøvere som fører til kvantregresjon.
- Ikke-parametrisk regresjon, som krever et stort antall observasjoner og beregninger.
- Avstanden til læringsmetrikken, som studeres på jakt etter en betydelig metrisk avstand i et gitt inngangsrom.
programvare
Alle hovedstatistiske programvarepakker utføres ved bruk av minste kvadraters regresjons analyse. Enkel lineær regresjon og flere regresjonsanalyser kan brukes i noen regnearkapplikasjoner, så vel som på noen kalkulatorer. Selv om mange statistiske programvarepakker kan utføre forskjellige typer ikke-parametrisk og pålitelig regresjon, er disse metodene mindre standardiserte; forskjellige programvarepakker implementerer forskjellige metoder. Spesialisert regresjonsprogramvare er utviklet for bruk i områder som undersøkelsesanalyse og nevroimaging.