I statistisk modellering er regressionsanalyse en undersøgelse, der bruges til at vurdere forholdet mellem variabler. Denne matematiske metode inkluderer mange andre metoder til modellering og analyse af flere variabler, når fokus er på forholdet mellem den afhængige variabel og en eller flere uafhængige. Mere specifikt hjælper regressionsanalyse til at forstå, hvordan en typisk værdi af en afhængig variabel ændres, hvis en af de uafhængige variabler ændres, mens de andre uafhængige variabler forbliver faste.
I alle tilfælde er målestimatet en funktion af uafhængige variabler og kaldes regressionsfunktionen. I regressionsanalyse er det også af interesse at karakterisere ændringen i den afhængige variabel som en funktion af regression, som kan beskrives ved hjælp af en sandsynlighedsfordeling.
Opgaver med regressionsanalyse
Denne statistiske forskningsmetode er vidt brugt til prognoser, hvor dens anvendelse har en betydelig fordel, men nogle gange kan den føre til illusioner eller forkerte forhold, derfor anbefales det at bruge den omhyggeligt i dette nummer, fordi for eksempel korrelation ikke betyder en årsagsforhold.
Der er udviklet et stort antal metoder til udførelse af regressionsanalyse, såsom lineær og almindelig mindste kvadraters regression, som er parametrisk. Deres essens er, at regressionsfunktionen er defineret i form af et endeligt antal ukendte parametre, der estimeres ud fra dataene. Ikke-parametrisk regression tillader dets funktioner at ligge i et vist sæt funktioner, der kan være uendelig-dimensionelt.
Som en statistisk forskningsmetode afhænger regressionsanalysen i praksis af formen for datagenereringsprocessen og hvordan den relaterer til regressionsmetoden. Da den sande form for dataprocessen som regel genererer et ukendt antal, afhænger regressionsanalysen af data ofte i nogen grad af antagelserne om denne proces. Disse antagelser verificeres undertiden, hvis der er nok tilgængelige data. Regressionsmodeller er ofte nyttige, selv når antagelser er moderat krænket, selvom de ikke kan arbejde med maksimal effektivitet.
I en snævrere forstand kan regression specifikt vedrøre vurderingen af kontinuerlige responsvariabler i modsætning til de diskrete responsvariabler, der er anvendt i klassificeringen. Tilfældet med en kontinuerlig outputvariabel kaldes også metrisk regression for at skelne den fra relaterede problemer.
Historien
Den tidligste form for regression er den velkendte metode med mindst kvadrater. Den blev udgivet af Legendre i 1805 og Gauss i 1809. Legendre og Gauss anvendte metoden til opgaven at fra astronomiske observationer bestemme baner af kroppe omkring solen (hovedsageligt kometer, men senere nyopdagede mindre planeter). Gauss offentliggjorde en yderligere udvikling af teorien om mindstekvadrater i 1821, herunder en version af Gauss-Markov-sætningen.
Udtrykket "regression" blev myntet af Francis Galton i det 19. århundrede for at beskrive et biologisk fænomen. Hovedpunkterne var, at væksten af efterkommere fra forfædres vækst som regel regresserer ned til det normale gennemsnit.For Galton havde regression kun denne biologiske betydning, men senere blev hans arbejde videreført af Udney Yule og Karl Pearson og bragt til en mere generel statistisk kontekst. I arbejdet med Yule og Pearson betragtes den fælles fordeling af responsvariabler og forklaringsvariabler som gaussisk. Denne antagelse blev afvist af Fisher i værkerne 1922 og 1925. Fisher foreslog, at den betingede fordeling af responsvariablen er gaussisk, men fællesfordelingen skulle ikke være. I denne henseende ligger Fischer's antagelse tættere på Gauss-formuleringen fra 1821. Indtil 1970 tog det undertiden op til 24 timer at få resultatet af en regressionsanalyse.
Regressionsanalysemetoder er fortsat et område med aktiv forskning. I de senere årtier er der udviklet nye metoder til pålidelig regression; regression, der involverer korrelerede svar; regressionsmetoder, der imødekommer forskellige typer manglende data; ikke-parametrisk regression; Bayesiske regressionsmetoder; regressioner, hvor prediktorvariabler måles med en fejl; regressioner med flere forudsigere end observationer, samt årsagssammenhænge med regression.
Regressionsmodeller
Regressionsanalysemodeller inkluderer følgende variabler:
- Ukendte parametre, betegnet som beta, som kan være en skalar eller vektor.
- Independent Variables, X.
- Afhængige variabler, Y.
I forskellige videnskabelige områder, hvor regressionsanalyse anvendes, anvendes forskellige udtryk i stedet for afhængige og uafhængige variabler, men i alle tilfælde relaterer regressionsmodellen Y til funktionerne X og β.
Tilnærmelsen har normalt form E (Y | X) = F (X, β). For at udføre en regressionsanalyse skal typen af funktion f bestemmes. Mindre almindeligt er det baseret på viden om forholdet mellem Y og X, der ikke er afhængige af data. Hvis sådan viden ikke er tilgængelig, vælges en fleksibel eller praktisk form F.
Afhængig variabel Y
Antag nu, at vektoren med ukendte parametre β har længde k. For at udføre en regressionsanalyse skal brugeren give oplysninger om den afhængige variabel Y:
- Hvis der er N datapunkter af formen (Y, X), hvor N
- Hvis man ser nøjagtigt N = K, og funktionen F er lineær, kan ligningen Y = F (X, β) løses nøjagtigt og ikke ca. Dette reducerer til at løse et sæt N-ligninger med N-ukendte (elementer af β), som har en unik løsning, så længe X er lineært uafhængig. Hvis F er ikke-lineær, findes løsningen muligvis ikke, eller der findes mange løsninger.
- Den mest almindelige er situationen, hvor N> peger på dataene observeres. I dette tilfælde er der tilstrækkelig information i dataene til at evaluere den unikke værdi for β, der bedst matcher dataene, og regressionsmodellen, når den anvendes til dataene, kan betragtes som et overbestemt system i β.
I sidstnævnte tilfælde giver regressionsanalyse værktøjer til:
- At finde løsninger til ukendte parametre β, som for eksempel minimerer afstanden mellem de målte og forudsagte værdier af Y.
- Under visse statistiske antagelser bruger regressionsanalyse overskydende information til at tilvejebringe statistisk information om ukendte parametre β og de forudsagte værdier for den afhængige variabel Y.
Nødvendigt antal uafhængige målinger
Overvej en regressionsmodel, der har tre ukendte parametre: β0, β1 og ß2. Antag, at eksperimentatoren udfører 10 målinger i den samme værdi af den uafhængige variabel af vektoren X.I dette tilfælde giver regressionsanalyse ikke et unikt sæt værdier. Den bedste ting du kan gøre er at evaluere middel- og standardafvigelsen for den afhængige variabel Y. Ved at måle to forskellige X-værdier på samme måde kan du få nok data til en regression med to ukendte, men ikke for tre eller flere ukendte.
Hvis eksperimentatorens målinger blev udført ved tre forskellige værdier af den uafhængige variabel af vektoren X, vil regressionsanalysen give et unikt sæt estimater for tre ukendte parametre i ß.
I tilfælde af generel lineær regression svarer ovenstående udsagn til kravet om, at matrix XTX er reversibel.
Statistiske antagelser
Når antallet af målinger N er større end antallet af ukendte parametre k og målefejlen εjegderefter fordeles overskydet af information indeholdt i målingerne derefter og bruges til statistiske prognoser vedrørende ukendte parametre. Dette overskud af information kaldes graden af regressionsfrihed.
Grundlæggende antagelser
Klassiske antagelser til regressionsanalyse inkluderer:
- Prøven er repræsentativ for inferensforudsigelse.
- Fejlen er en tilfældig variabel med en gennemsnitlig værdi på nul, som er betinget af de forklarende variabler.
- Uafhængige variabler måles uden fejl.
- Som uafhængige variabler (prediktorer) er de lineært uafhængige, dvs. det er ikke muligt at udtrykke nogen prediktor i form af en lineær kombination af de andre.
- Fejl er ukorrelerede, det vil sige kovariansmatrixen af diagonale fejl, og hvert ikke-nulpunktelement er fejlens varians.
- Afvigelsen af fejlen er konstant i henhold til observationer (homoskedasticitet). Hvis ikke, kan du bruge metoden med vægtede mindste firkanter eller andre metoder.
Disse tilstrækkelige betingelser for estimering af mindste kvadrater besidder de krævede egenskaber, især disse antagelser betyder, at parameterestimaterne vil være objektive, konsistente og effektive, især når de tages i betragtning i klassen af lineære estimater. Det er vigtigt at bemærke, at bevis sjældent opfylder betingelserne. Det vil sige, metoden bruges, selv hvis antagelserne ikke er rigtige. En variation af antagelser kan undertiden bruges som et mål for, hvor nyttig denne model er. Mange af disse antagelser kan mindskes ved mere avancerede metoder. Statistiske analyserapporter inkluderer typisk analyse af test baseret på eksempeldata og metodologi til modelværktøj.
Derudover henviser variabler i nogle tilfælde til værdier målt på punktplaceringer. Der kan være rumlige tendenser og rumlig autokorrelation i variabler, der krænker statistiske antagelser. Geografisk vægtet regression er den eneste metode, der beskæftiger sig med sådanne data.
Lineær regressionsanalyse
Ved lineær regression er en funktion, at den afhængige variabel, som er Yjeger en lineær kombination af parametre. I en simpel lineær regression bruges for eksempel en uafhængig variabel, x, til at modellere n-punkterjegog to parametre, ß0 og ß1.
Med multiple lineær regression er der flere uafhængige variabler eller deres funktioner.
Med tilfældig sampling fra en population gør dens parametre det muligt at opnå en model af en lineær regressionsmodel.
I dette aspekt er metoden med mindste firkanter den mest populære. Ved hjælp af det opnås parameterestimater, der minimerer summen af kvadratiske rester. Denne form for minimering (som er karakteristisk for en lineær regression) af denne funktion fører til et sæt normale ligninger og et sæt lineære ligninger med parametre, der er løst for at opnå parameterestimater.
Under den yderligere antagelse af, at fejlen i befolkningen normalt spreder sig, kan forskeren bruge disse estimater af standardfejl til at skabe tillidsintervaller og teste hypoteser om dens parametre.
Ikke-lineær regressionsanalyse
Et eksempel, hvor funktionen ikke er lineær med hensyn til parametrene indikerer, at summen af firkanterne skal minimeres ved hjælp af en iterativ procedure. Dette introducerer mange komplikationer, der bestemmer forskellene mellem lineære og ikke-lineære mindstekvadrater. Følgelig er resultaterne af regressionsanalyse ved anvendelse af den ikke-lineære metode undertiden uforudsigelige.
Beregning af effekt og prøve størrelse
Her er der som regel ingen konsistente metoder med hensyn til antallet af observationer sammenlignet med antallet af uafhængige variabler i modellen. Den første regel blev foreslået af Good og Hardin og ligner N = t ^ n, hvor N er prøvestørrelsen, n er antallet af uafhængige variabler, og t er antallet af observationer, der er nødvendige for at opnå den ønskede nøjagtighed, hvis modellen kun havde en uafhængig variabel. For eksempel bygger en forsker en lineær regressionsmodel ved hjælp af et datasæt, der indeholder 1000 patienter (N). Hvis forskeren beslutter, at der er behov for fem observationer for nøjagtigt at bestemme linjen (m), er det maksimale antal uafhængige variabler, som modellen kan understøtte, 4.
Andre metoder
På trods af det faktum, at parametrene i regressionsmodellen normalt estimeres ved hjælp af metoden med mindste firkanter, er der andre metoder, der bruges meget sjældnere. For eksempel er disse følgende metoder:
- Bayesiske metoder (f.eks. Bayesiansk lineær regressionsmetode).
- Procent regression, brugt til situationer, hvor en reduktion i procent fejl anses for mere passende.
- De mindste absolutte afvigelser, som er mere stabile i nærvær af outliers, der fører til kvantregression.
- Ikke-parametrisk regression, der kræver et stort antal observationer og beregninger.
- Afstanden til indlæringsmetrikken, der studeres i søgning efter en betydelig metrisk afstand i et givet inputrum.
software
Alle større statistiske softwarepakker udføres ved hjælp af regressionsanalyse med mindst kvadrater. Simpel lineær regression og multiple regressionsanalyser kan bruges i nogle regnearksapplikationer såvel som på nogle regnemaskiner. Selvom mange statistiske softwarepakker kan udføre forskellige typer af ikke-parametrisk og pålidelig regression, er disse metoder mindre standardiserede; forskellige softwarepakker implementerer forskellige metoder. Specialiseret regressionssoftware er udviklet til brug inden for områder som undersøgelsesanalyse og neuroimaging.