Наслови
...

Регресијска анализа је статистичка метода за проучавање зависности случајне променљиве од променљивих

У статистичком моделирању, регресијска анализа је студија која се користи за процену односа између променљивих. Ова математичка метода укључује многе друге методе за моделирање и анализу неколико променљивих, када је фокус на односу између зависне променљиве и једне или више независних. Специфичније, регресијска анализа помаже да се схвати како се типична вредност зависне променљиве мења ако се једна од независних променљивих промени, док остале независне променљиве остану фиксне.

Регресијска анализа

У свим случајевима, циљна процена је функција независних променљивих и назива се регресијска функција. У регресијској анализи је такође интересантно карактеризирати промену зависне променљиве као функцију регресије, која се може описати коришћењем дистрибуције вероватноће.

Задаци регресијске анализе

Ова метода статистичког истраживања се широко користи за предвиђање, где њена употреба има значајну предност, али понекад може довести до илузија или лажних односа, па се препоручује пажљиво користити у овом броју, јер, на пример, корелација не значи узрочно-посљедичну везу.

Развијен је велики број метода за спровођење регресијске анализе, као што су линеарна и обична регресија најмањих квадрата, које су параметричне. Њихова суштина је да се регресијска функција дефинише кроз ограничени број непознатих параметара који се процењују на основу података. Непараметрична регресија омогућава својим функцијама да леже у одређеном сету функција, које може бити бесконачно димензионално.

Као метода статистичког истраживања, регресијска анализа у пракси зависи од облика процеса генерисања података и од тога како је повезана са регресијским приступом. Будући да прави облик процеса података генерише, по правилу, непознати број, регресијска анализа података често у одређеној мери зависи од претпоставки о овом процесу. Те се претпоставке понекад провере ако је на располагању довољно података. Регресијски модели су често корисни чак и када се претпоставке умерено крше, иако не могу радити на максималној ефикасности.

У ужем смислу, регресија се може посебно односити на процену варијабли непрекидног одзива, за разлику од варијабли дискретних одговора које се користе у класификацији. Случај непрекидне излазне променљиве назива се и метричка регресија како би се разликовао од повезаних проблема.

Прича

Најранији облик регресије је позната метода најмањих квадрата. Објавили су га Легендре 1805. и Гаусс 1809. Легендре и Гаусс примијенили су методу на задатак да из астрономских посматрања утврде орбите тијела око Сунца (углавном комета, али касније и новооткривених мањих планета). Гаусс је 1821. објавио даљњи развој теорије најмање квадрата, укључујући верзију Гаусс-Марков теореме.

Метода статистичког истраживања

Израз "регресија" сковао је Францис Галтон у 19. веку да би описао биолошки феномен. Суштина је била да се пораст потомака од раста предака, по правилу, смањује на нормалан просек.За Галтона, регресија је имала само ово биолошко значење, али су касније његов рад наставили Уднеи Иуле и Карл Пеарсон и довели је до општег статистичког контекста. У раду Иуле-а и Пеарсона, заједничка дистрибуција варијабли одговора и објашњавајућих варијабли сматра се Гауссовом. Фисхер је ову претпоставку одбацио у делима из 1922. и 1925. Фисхер је сугерирао да је увјетна расподјела варијабле одговора Гауссова, али заједничка дистрибуција не би требала бити. У том погледу, Фисцхерова претпоставка ближа је Гауссовој формулацији из 1821. године. До 1970. године понекад је било потребно и до 24 сата да би се добио резултат регресијске анализе.

Регресијска анализа података

Методе регресијске анализе и даље су подручје активног истраживања. Последњих деценија развијене су нове методе за поуздану регресију; регресија која укључује корелиране одговоре; регресијске методе које садрже различите врсте недостајућих података; непараметрична регресија; Баиесове регресијске методе; регресије у којима се променљиве предиктора мере грешком; регресије са више предиктора него опажања, као и каузални закључци са регресијом.

Регресијски модели

Модели регресијске анализе укључују следеће променљиве:

  • Непознати параметри, означени као бета, који могу бити скаларни или векторски.
  • Независне променљиве, Кс.
  • Зависне променљиве, И.

У разним областима науке где се примењује регресијска анализа, уместо зависних и независних променљивих користе се различити изрази, али у свим случајевима се регресијски модел односи И на функције Кс и β.

Апроксимација обично има облик Е (И | Кс) = Ф (Кс, β). За провођење регресијске анализе мора се одредити тип функције ф. Ређе се заснива на знању о односу између И и Кс који се не ослањају на податке. Ако такво знање није доступно, одабире се флексибилан или прикладан облик Ф.

Зависна променљива И

Сада претпоставимо да вектор непознатих параметара β има дужину к. Да би извршио регресијску анализу, корисник мора дати информације о зависној варијабли И:

  • Ако постоји Н тачака података облика (И, Кс), где је Н <к, већина класичних приступа регресијској анализи се не може извести, јер систем једнаџби који регресијски модел дефинише као недовољно одређен нема довољно података да се опорави β.
  • Ако се посматра тачно Н = К, а функција Ф је линеарна, једнаџба И = Ф (Кс, β) се може тачно решити, а не приближно. Ово се своди на решавање скупа Н-једначина са Н-непознаницама (елементи β), који има јединствено решење све док је Кс линеарно независан. Ако је Ф нелинеарно, решење можда не постоји или може да постоји много решења.
  • Најчешћа је ситуација када се Н> указује на податке. У овом случају, постоји довољно података у подацима да се процени јединствена вредност за β која најбоље одговара подацима, а регресијски модел, када се примењује на податке, може се сматрати претежно одређеним системом у β.

У овом другом случају, регресијска анализа пружа алате за:

  • Проналажење решења за непознате параметре β, који ће, на пример, умањити удаљеност измерених и предвиђених вредности И.
  • Под одређеним статистичким претпоставкама, регресијска анализа користи вишак информација за пружање статистичких информација о непознатим параметрима β и предвиђеним вредностима зависне променљиве И.

Потребан број независних мерења

Размотримо регресијски модел који има три непозната параметра: β0, β1 и β2. Претпоставимо да експериментатор изврши 10 мерења у истој вредности независне променљиве вектора Кс.У овом случају, регресијска анализа не даје јединствен скуп вредности. Најбоље што можете учинити је да процените средње и стандардно одступање зависне променљиве И. Мерејући две различите Кс вредности на исти начин, можете добити довољно података за регресију са две непознанице, али не и за три или више непознаница.

Пример регресијске анализе

Ако су мерења експериментатора изведена на три различите вредности независне променљиве вектора Кс, тада ће регресијска анализа пружити јединствен скуп процена за три непозната параметра у β.

У случају опште линеарне регресије, горња изјава је еквивалентна захтеву да матрица КсТКс је реверзибилан.

Статистичке претпоставке

Када је број мерења Н већи од броја непознатих параметара к и грешке мерења εја, тада се по правилу вишак информација садржаних у мерењима дистрибуира и користи за статистичке прогнозе у вези са непознатим параметрима. Тај вишак информација назива се степеном слободе регресије.

Темељне претпоставке

Класичне претпоставке за регресијску анализу укључују:

  • Узорак је репрезентативан за предвиђање закључака.
  • Грешка је случајна варијабла са просечном вредностом нула, што је условљено променљивим варијаблама.
  • Независне променљиве се мере без грешке.
  • Као независне променљиве (предиктори) су линеарно независне, то јест, није могуће изразити ниједан предиктор у облику линеарне комбинације осталих.
  • Грешке су неусклађене, то јест, коваријантна матрица дијагоналних грешака и сваки не-нуро елемент су варијанта грешке.
  • Варијација грешке је константна у складу са опажањима (хомоскедастичност). Ако не, можете користити метод најмањих пондерисаних квадрата или друге методе.

Ови довољни услови за процену најмање квадрата поседују тражена својства, посебно ове претпоставке значе да ће процене параметара бити објективне, доследне и ефикасне, посебно ако се узму у обзир у класи линеарних процена. Важно је напоменути да докази ретко испуњавају услове. Односно, метода се користи чак и ако претпоставке нису тачне. Варијација претпоставки понекад се може користити као мерило колико је овај модел користан. Многе од ових претпоставки могу се ублажити напреднијим методама. Извештаји о статистичкој анализи обично укључују анализу тестова заснованих на узорцима и методологији корисности модела.

Поред тога, променљиве се у неким случајевима односе на вредности мерене на точкама. Могу постојати просторни трендови и просторна аутокорелација у варијаблама које крше статистичке претпоставке. Географска пондерисана регресија је једина метода која се бави таквим подацима.

Линеарна регресијска анализа

У линеарној регресији карактеристика је да зависна варијабла, која је Ијаје линеарна комбинација параметара. На пример, у једноставној линеарној регресији једна независна променљива, к, користи се за моделирање н-тачакајаи два параметра, β0 и β1.

Линеарна регресијска анализа

Са вишеструком линеарном регресијом, постоји неколико независних променљивих или њихових функција.

Са насумичним узорковањем из неке популације, њени параметри омогућавају добијање примера линеарног регресијског модела.

У овом аспекту, метода најмањих квадрата је најпопуларнија. Помоћу ње се добијају процене параметара које умањују суму резидуа у квадрату. Ова врста минимизације (која је карактеристична за линеарну регресију) ове функције доводи до скупа нормалних једначина и скупа линеарних једначина са параметрима који су решени да добију процену параметара.

Под даљом претпоставком да се грешка популације обично шири, истраживач може да користи ове процене стандардних грешака да креира интервале поузданости и тестира хипотезе о својим параметрима.

Нелинеарна регресијска анализа

Примјер у којем функција није линеарна у односу на параметре указује да зброј квадрата треба минимизирати кориштењем итеративног поступка. Ово уводи много компликација које одређују разлике између метода линеарних и нелинеарних најмањих квадрата. Сходно томе, резултати регресијске анализе применом нелинеарне методе понекад су непредвидиви.

Резултати регресијске анализе

Прорачун снаге и величине узорка

Овде по правилу не постоје конзистентне методе у погледу броја опажања у поређењу са бројем независних променљивих у моделу. Прво правило су предложили Гоод и Хардин и изгледа као Н = т ^ н, где је Н величина узорка, н је број независних променљивих, а т је број опажања потребних за постизање жељене тачности ако би модел имао само једну независну променљиву. На пример, истраживач гради модел линеарне регресије користећи скуп података који садржи 1000 пацијената (Н). Ако истраживач одлучи да је потребно пет опсервација да би се тачно одредила линија (м), тада је максимални број независних варијабли које модел може подржати 4.

Остале методе

Упркос чињеници да се параметри регресијског модела обично процењују методом најмање квадрата, постоје и друге методе које се користе много ређе. На пример, то су следеће методе:

  • Баиесове методе (нпр. Баиесова метода линеарне регресије).
  • Процентуална регресија која се користи у ситуацијама када се смањење процената грешака сматра погоднијим.
  • Најмања апсолутна одступања, која су стабилнија у присуству оутлиерса који доводе до кванттилне регресије.
  • Непараметрична регресија, која захтева велики број запажања и израчунавања.
  • Удаљеност метрике учења која се проучава у потрази за значајном метричком растојањем у датом улазном простору.

Модели регресијске анализе

Софтвер

Сви главни статистички софтверски пакети се изводе помоћу регресијске анализе најмање квадрата. Једноставна линеарна регресија и анализа вишеструке регресије могу се користити у неким апликацијама за прорачунске таблице, као и на неким калкулаторима. Иако многи статистички софтверски пакети могу изводити различите врсте непараметријске и поуздане регресије, ове су методе мање стандардизоване; различити софтверски пакети имплементирају различите методе. Специјализовани регресијски софтвер развијен је за употребу у областима као што су анализа прегледа и неуроимагинг.


Додајте коментар
×
×
Јесте ли сигурни да желите да избришете коментар?
Избриши
×
Разлог за жалбу

Посао

Приче о успеху

Опрема