การวิเคราะห์การถดถอยเป็นวิธีทางสถิติสำหรับการศึกษาการพึ่งพาของตัวแปรสุ่มกับตัวแปร

ในการสร้างแบบจำลองทางสถิติการวิเคราะห์การถดถอยเป็นการศึกษาที่ใช้ในการประเมินความสัมพันธ์ระหว่างตัวแปร วิธีการทางคณิตศาสตร์นี้รวมถึงวิธีการอื่น ๆ อีกมากมายสำหรับการสร้างแบบจำลองและการวิเคราะห์ตัวแปรหลายตัวเมื่อมุ่งเน้นไปที่ความสัมพันธ์ระหว่างตัวแปรตามและหนึ่งหรือมากกว่าหนึ่งอิสระ โดยเฉพาะอย่างยิ่งการวิเคราะห์การถดถอยจะช่วยให้เข้าใจว่าค่าทั่วไปของการเปลี่ยนแปลงตัวแปรตามถ้าหนึ่งในตัวแปรอิสระเปลี่ยนแปลงในขณะที่ตัวแปรอิสระอื่น ๆ ยังคงอยู่

การวิเคราะห์การถดถอย

ในทุกกรณีการประมาณการเป้าหมายเป็นฟังก์ชันของตัวแปรอิสระและเรียกว่าฟังก์ชันการถดถอย ในการวิเคราะห์การถดถอยมันเป็นเรื่องที่น่าสนใจที่จะอธิบายลักษณะการเปลี่ยนแปลงของตัวแปรตามเป็นฟังก์ชันของการถดถอยซึ่งสามารถอธิบายได้โดยใช้การแจกแจงความน่าจะเป็น

งานวิเคราะห์การถดถอย

วิธีการวิจัยเชิงสถิตินี้ใช้กันอย่างแพร่หลายสำหรับการคาดการณ์ซึ่งการใช้งานนั้นมีข้อได้เปรียบที่สำคัญ แต่บางครั้งก็สามารถนำไปสู่ภาพลวงตาหรือความสัมพันธ์ที่ผิดพลาดได้ดังนั้นจึงแนะนำให้ใช้อย่างระมัดระวังในเรื่องนี้

วิธีการจำนวนมากได้รับการพัฒนาสำหรับการดำเนินการวิเคราะห์การถดถอยเช่นการถดถอยเชิงเส้นและแบบธรรมดากำลังสองน้อยที่สุดซึ่งเป็นพารามิเตอร์ สาระสำคัญของพวกเขาคือฟังก์ชั่นการถดถอยถูกกำหนดในแง่ของจำนวนพารามิเตอร์ที่ไม่รู้จักที่ประมาณจากข้อมูล การถดถอยแบบไม่อิงพารามิเตอร์อนุญาตให้ฟังก์ชั่นของมันอยู่ในฟังก์ชันบางชุดซึ่งอาจเป็นมิติไม่สิ้นสุด

ในฐานะวิธีการวิจัยเชิงสถิติการวิเคราะห์การถดถอยในทางปฏิบัติขึ้นอยู่กับรูปแบบของกระบวนการสร้างข้อมูลและความเกี่ยวข้องกับวิธีการถดถอย เนื่องจากรูปแบบที่แท้จริงของกระบวนการข้อมูลกำลังสร้างขึ้นตามกฎจำนวนที่ไม่รู้จักการวิเคราะห์การถดถอยของข้อมูลมักขึ้นอยู่กับขอบเขตของสมมติฐานเกี่ยวกับกระบวนการนี้ สมมติฐานเหล่านี้บางครั้งอาจมีการตรวจสอบหากมีข้อมูลเพียงพอ แบบจำลองการถดถอยมักมีประโยชน์แม้ในกรณีที่สมมติฐานถูกละเมิดปานกลางแม้ว่าจะไม่สามารถทำงานได้อย่างเต็มประสิทธิภาพก็ตาม

ในความหมายที่แคบลงการถดถอยอาจเกี่ยวข้องกับการประเมินตัวแปรตอบสนองแบบต่อเนื่องโดยเฉพาะซึ่งแตกต่างจากตัวแปรตอบกลับแบบไม่ต่อเนื่องที่ใช้ในการจำแนกประเภท กรณีของตัวแปรเอาต์พุตต่อเนื่องเรียกอีกอย่างหนึ่งว่าการถดถอยแบบเมตริกเพื่อแยกความแตกต่างจากปัญหาที่เกี่ยวข้อง

เรื่องราว

รูปแบบการถดถอยที่เก่าที่สุดคือวิธีกำลังสองน้อยที่สุดที่รู้จักกันดี มันถูกตีพิมพ์โดย Legendre ในปี 1805 และ Gauss ในปี 1809 Legendre และ Gauss ได้ใช้วิธีนี้ในการพิจารณาจากการสำรวจทางดาราศาสตร์เกี่ยวกับวงโคจรรอบดวงอาทิตย์ (ส่วนใหญ่เป็นดาวหาง Gauss เผยแพร่การพัฒนาเพิ่มเติมของทฤษฎีอย่างน้อยกำลังสองใน 1,821 รวมถึงรุ่นของทฤษฎีบท Gauss-Markov.

วิธีการวิจัยเชิงสถิติ

คำว่า "การถดถอย" ถูกประกาศเกียรติคุณโดยฟรานซิสกัลตันในศตวรรษที่ 19 เพื่ออธิบายปรากฏการณ์ทางชีวภาพ บรรทัดล่างคือการเจริญเติบโตของลูกหลานจากการเจริญเติบโตของบรรพบุรุษตามกฎแล้วถอยหลังลงไปที่ค่าเฉลี่ยปกติสำหรับ Galton การถดถอยมีความหมายทางชีววิทยาเพียงอย่างเดียว แต่ต่อมางานของเขายังคงดำเนินต่อไปโดย Udney Yule และ Karl Pearson และนำไปสู่บริบททางสถิติที่กว้างขึ้น ในการทำงานของเทศกาลคริสต์มาสและเพียร์สันการกระจายการตอบสนองของตัวแปรตอบสนองและตัวแปรอธิบายถือเป็นเกาส์ สมมติฐานนี้ถูกปฏิเสธโดยฟิชเชอร์ในผลงานของปี 1922 และ 1925 ฟิชเชอร์แนะนำว่าการแจกแจงแบบมีเงื่อนไขของตัวแปรตอบกลับคือเกาส์เซียน แต่การกระจายข้อต่อไม่ควรเป็น ในเรื่องนี้สมมติฐานของ Fischer นั้นใกล้เคียงกับสูตร Gauss 1821 จนถึงปี 1970 บางครั้งอาจใช้เวลาถึง 24 ชั่วโมงเพื่อให้ได้ผลลัพธ์ของการวิเคราะห์การถดถอย

การวิเคราะห์ข้อมูลการถดถอย

วิธีการวิเคราะห์การถดถอยยังคงเป็นพื้นที่ของการวิจัยเชิงรุก ในทศวรรษที่ผ่านมามีการพัฒนาวิธีการใหม่เพื่อการถดถอยที่เชื่อถือได้ การถดถอยที่เกี่ยวข้องกับการตอบสนองที่สัมพันธ์กัน วิธีการถดถอยที่รองรับข้อมูลประเภทต่าง ๆ ที่ขาดหายไป การถดถอยแบบไม่มีพารามิเตอร์ วิธีการถดถอยแบบเบย์ การถดถอยที่ตัวแปรทำนายถูกวัดด้วยข้อผิดพลาด การถดถอยด้วยตัวทำนายมากกว่าการสังเกตเช่นเดียวกับการอนุมานเชิงสาเหตุด้วยการถดถอย

ตัวแบบการถดถอย

แบบจำลองการวิเคราะห์การถดถอยประกอบด้วยตัวแปรต่อไปนี้:

พารามิเตอร์ที่ไม่รู้จักซึ่งถูกกำหนดให้เป็นเบต้าซึ่งอาจเป็นเซนต์คิตส์และเนวิส
ตัวแปรอิสระ, X.
ตัวแปรที่ขึ้นกับ Y

ในสาขาวิทยาศาสตร์ต่าง ๆ ที่ใช้การวิเคราะห์การถดถอยคำต่าง ๆ จะถูกใช้แทนตัวแปรตามและตัวแปรอิสระ แต่ในทุกกรณีโมเดลการถดถอยจะเชื่อมโยง Y กับฟังก์ชัน X และβ

การประมาณมักใช้รูปแบบ E (Y | X) = F (X, β) ในการวิเคราะห์การถดถอยจะต้องกำหนดประเภทของฟังก์ชัน f โดยทั่วไปแล้วจะขึ้นอยู่กับความรู้เกี่ยวกับความสัมพันธ์ระหว่าง Y และ X ที่ไม่ต้องพึ่งพาข้อมูล หากไม่มีความรู้ดังกล่าวจะมีการเลือกแบบฟอร์ม F ที่ยืดหยุ่นหรือสะดวกสบาย

ตัวแปรที่ขึ้นอยู่กับ Y

ทีนี้สมมติว่าเวกเตอร์ของพารามิเตอร์ที่ไม่รู้จักβมีความยาว k ในการวิเคราะห์การถดถอยผู้ใช้จะต้องให้ข้อมูลเกี่ยวกับตัวแปรที่ขึ้นต่อกัน Y:

หากมีจุดข้อมูล N ของรูปแบบ (Y, X) โดยที่ N

หากสังเกตว่า N = K นั้นแน่นอนและฟังก์ชัน F เป็นเส้นตรงสมการ Y = F (X, β) สามารถแก้ไขได้อย่างแน่นอนและไม่ใช่ประมาณ สิ่งนี้จะช่วยลดการแก้ชุดสมการ N ด้วย N-unknowns (องค์ประกอบของβ) ซึ่งมีวิธีการแก้ปัญหาที่ไม่ซ้ำกันตราบใดที่ X เป็นอิสระเชิงเส้น หาก F ไม่ใช่แบบเชิงเส้นโซลูชันอาจไม่มีอยู่หรืออาจมีวิธีแก้ไขปัญหามากมาย
ที่พบบ่อยที่สุดคือสถานการณ์ที่สังเกต N> ชี้ไปที่ข้อมูล ในกรณีนี้มีข้อมูลเพียงพอในข้อมูลเพื่อประเมินค่าเฉพาะสำหรับ for ที่ตรงกับข้อมูลมากที่สุดและแบบจำลองการถดถอยเมื่อนำไปใช้กับข้อมูลถือได้ว่าเป็นระบบที่บึกบึนในβ

ในกรณีหลังการวิเคราะห์การถดถอยมีเครื่องมือสำหรับ:

การค้นหาโซลูชันสำหรับพารามิเตอร์ที่ไม่รู้จักβซึ่งจะช่วยลดระยะห่างระหว่างค่าที่วัดได้กับค่าที่ทำนายไว้ของ Y
ภายใต้สมมติฐานทางสถิติที่แน่นอนการวิเคราะห์การถดถอยใช้ข้อมูลส่วนเกินเพื่อให้ข้อมูลทางสถิติเกี่ยวกับพารามิเตอร์ที่ไม่รู้จักβและค่าที่คาดการณ์ของตัวแปรตาม Y

จำนวนการวัดอิสระที่จำเป็น

พิจารณาโมเดลการถดถอยที่มีพารามิเตอร์ที่ไม่รู้จักสามตัว: β₀, β₁และβ₂. สมมติว่าผู้ทดลองทำการวัด 10 ครั้งในค่าเดียวกันของตัวแปรอิสระของเวกเตอร์ Xในกรณีนี้การวิเคราะห์การถดถอยไม่ได้ให้ค่าที่ไม่ซ้ำกัน สิ่งที่ดีที่สุดที่คุณสามารถทำได้คือประเมินค่าเฉลี่ยและส่วนเบี่ยงเบนมาตรฐานของตัวแปร Y ที่ขึ้นต้นด้วยการวัดค่า X ที่แตกต่างกันสองค่าด้วยวิธีเดียวกันคุณสามารถได้รับข้อมูลเพียงพอสำหรับการถดถอยที่มีสองนิรนาม

ตัวอย่างการวิเคราะห์การถดถอย

หากการวัดของผู้ทดลองถูกหาค่าที่แตกต่างกันสามค่าของตัวแปรอิสระของเวกเตอร์ X การวิเคราะห์การถดถอยจะให้ชุดการประมาณค่าที่ไม่ซ้ำกันสำหรับพารามิเตอร์ที่ไม่รู้จักสามตัวในβ

ในกรณีของการถดถอยเชิงเส้นทั่วไปข้อความข้างต้นจะเทียบเท่ากับข้อกำหนดที่เมทริกซ์ X^TX สามารถย้อนกลับได้

สมมติฐานทางสถิติ

เมื่อจำนวนการวัด N มีค่ามากกว่าจำนวนพารามิเตอร์ที่ไม่รู้จัก k และข้อผิดพลาดการวัดε_ผมจากนั้นตามกฎแล้วข้อมูลส่วนเกินที่มีอยู่ในการวัดจะถูกแจกจ่ายและใช้สำหรับการพยากรณ์ทางสถิติเกี่ยวกับพารามิเตอร์ที่ไม่รู้จัก ข้อมูลส่วนเกินนี้เรียกว่าระดับความเป็นอิสระของการถดถอย

สมมติฐานพื้นฐาน

สมมติฐานดั้งเดิมสำหรับการวิเคราะห์การถดถอยประกอบด้วย:

ตัวอย่างนี้เป็นตัวแทนของการคาดคะเนการอนุมาน
ข้อผิดพลาดเป็นตัวแปรสุ่มที่มีค่าเฉลี่ยเป็นศูนย์ซึ่งเป็นเงื่อนไขในตัวแปรอธิบาย
ตัวแปรอิสระถูกวัดโดยไม่มีข้อผิดพลาด
ในฐานะที่เป็นตัวแปรอิสระ (ตัวทำนาย) พวกมันมีความเป็นอิสระเชิงเส้นตรงนั่นคือมันเป็นไปไม่ได้ที่จะแสดงตัวทำนายใด ๆ ในรูปแบบของการรวมกันเชิงเส้นของคนอื่น ๆ
ข้อผิดพลาดจะไม่เกี่ยวข้องกันนั่นคือเมทริกซ์ความแปรปรวนร่วมของข้อผิดพลาดในแนวทแยงและองค์ประกอบที่ไม่ใช่ศูนย์แต่ละตัวนั้นเป็นความแปรปรวนของข้อผิดพลาด
ความแปรปรวนของข้อผิดพลาดเป็นค่าคงที่ตามการสังเกต (homoskedasticity) หากไม่เป็นเช่นนั้นคุณสามารถใช้วิธีกำลังสองน้อยที่สุดแบบถ่วงน้ำหนักหรือวิธีอื่นได้

เงื่อนไขที่เพียงพอเหล่านี้สำหรับการประมาณกำลังสองน้อยที่สุดมีคุณสมบัติที่ต้องการโดยเฉพาะอย่างยิ่งสมมติฐานเหล่านี้หมายความว่าการประมาณค่าพารามิเตอร์จะเป็นวัตถุประสงค์ที่สอดคล้องและมีประสิทธิภาพโดยเฉพาะอย่างยิ่งเมื่อนำมาพิจารณาในชั้นของการประมาณเชิงเส้น มันเป็นสิ่งสำคัญที่จะต้องทราบว่าหลักฐานไม่ค่อยตรงตามเงื่อนไข นั่นคือวิธีการที่ใช้แม้ว่าสมมติฐานจะไม่เป็นความจริง การเปลี่ยนแปลงของสมมติฐานบางครั้งสามารถใช้เป็นเครื่องวัดว่าโมเดลนี้มีประโยชน์อย่างไร สมมติฐานเหล่านี้จำนวนมากสามารถบรรเทาได้ด้วยวิธีการขั้นสูง รายงานการวิเคราะห์ทางสถิติมักจะรวมถึงการวิเคราะห์การทดสอบตามข้อมูลตัวอย่างและวิธีการสำหรับอรรถประโยชน์แบบจำลอง

นอกจากนี้ตัวแปรในบางกรณีหมายถึงค่าที่วัดที่ตำแหน่งจุด อาจมีแนวโน้มเชิงพื้นที่และความสัมพันธ์เชิงพื้นที่ในตัวแปรที่ละเมิดสมมติฐานทางสถิติ การถดถอยทางภูมิศาสตร์เป็นวิธีการเดียวที่จัดการกับข้อมูลดังกล่าว

การวิเคราะห์การถดถอยเชิงเส้น

ในการถดถอยเชิงเส้นคุณสมบัติคือตัวแปรตามซึ่งคือ Y_ผมเป็นการรวมกันเชิงเส้นของพารามิเตอร์ ตัวอย่างเช่นในการถดถอยเชิงเส้นอย่างง่ายตัวแปรอิสระหนึ่งตัว x ใช้เป็นแบบจำลอง n-points_ผมและสองพารามิเตอร์,₀และβ₁.

การวิเคราะห์การถดถอยเชิงเส้น

ด้วยการถดถอยเชิงเส้นหลายครั้งมีตัวแปรอิสระหลายอย่างหรือฟังก์ชั่นของพวกเขา

ด้วยการสุ่มตัวอย่างจากประชากรพารามิเตอร์ของมันทำให้เป็นไปได้ที่จะได้รับตัวอย่างของตัวแบบการถดถอยเชิงเส้น

ในแง่นี้วิธีการกำลังสองน้อยที่สุดเป็นที่นิยมมากที่สุด เมื่อใช้การประมาณพารามิเตอร์จะได้รับซึ่งจะลดผลรวมของส่วนที่เหลือกำลังสองน้อยที่สุด การย่อขนาดนี้ (ซึ่งเป็นลักษณะของการถดถอยเชิงเส้น) ของฟังก์ชันนี้นำไปสู่ชุดของสมการปกติและชุดของสมการเชิงเส้นที่มีพารามิเตอร์ที่แก้ไขเพื่อให้ได้การประมาณค่าพารามิเตอร์

ภายใต้สมมติฐานเพิ่มเติมที่ว่าข้อผิดพลาดของประชากรมักจะแพร่กระจายผู้วิจัยสามารถใช้การประมาณข้อผิดพลาดมาตรฐานเหล่านี้เพื่อสร้างช่วงความมั่นใจและทดสอบสมมติฐานเกี่ยวกับพารามิเตอร์ของมัน

การวิเคราะห์การถดถอยเชิงเส้น

ตัวอย่างที่ฟังก์ชั่นนั้นไม่เป็นเส้นตรงตามพารามิเตอร์ระบุว่าผลรวมของกำลังสองควรถูกย่อให้เล็กสุดโดยใช้กระบวนการวนซ้ำ สิ่งนี้นำเสนอภาวะแทรกซ้อนจำนวนมากที่กำหนดความแตกต่างระหว่างวิธีกำลังสองน้อยที่สุดและไม่ใช่เชิงเส้น ดังนั้นผลลัพธ์ของการวิเคราะห์การถดถอยโดยใช้วิธีการไม่เชิงเส้นบางครั้งอาจคาดเดาไม่ได้

ผลการวิเคราะห์การถดถอย

การคำนวณพลังงานและขนาดตัวอย่าง

ตามกฎแล้วไม่มีวิธีการที่สอดคล้องกันเกี่ยวกับจำนวนการสังเกตเมื่อเทียบกับจำนวนของตัวแปรอิสระในตัวแบบ กฎข้อแรกถูกเสนอโดยดีและฮาร์ดินและดูเหมือนว่า N = t ^ n โดยที่ N คือขนาดตัวอย่าง n คือจำนวนของตัวแปรอิสระและ t คือจำนวนการสังเกตที่จำเป็นเพื่อให้ได้ความแม่นยำที่ต้องการหากแบบจำลองมีตัวแปรอิสระเพียงตัวเดียว ตัวอย่างเช่นนักวิจัยสร้างแบบจำลองการถดถอยเชิงเส้นโดยใช้ชุดข้อมูลที่มีผู้ป่วย 1,000 ราย (N) หากผู้วิจัยตัดสินใจว่าต้องมีการสังเกตห้าครั้งเพื่อกำหนดเส้น (m) อย่างแม่นยำดังนั้นจำนวนสูงสุดของตัวแปรอิสระที่ตัวแบบสามารถรองรับได้คือ 4

วิธีอื่น ๆ

แม้ว่าความจริงที่ว่าพารามิเตอร์ของตัวแบบการถดถอยนั้นมักจะถูกประเมินโดยใช้วิธีกำลังสองน้อยที่สุด แต่ก็มีวิธีอื่น ๆ ที่ใช้บ่อยกว่ามาก ตัวอย่างเช่นเหล่านี้เป็นวิธีการดังต่อไปนี้:

วิธีการแบบเบย์ (เช่นวิธีการถดถอยเชิงเส้นแบบเบย์)
การถดถอยแบบร้อยละใช้สำหรับสถานการณ์ที่การลดความผิดพลาดแบบเปอร์เซ็นต์นั้นมีความเหมาะสมมากกว่า
ค่าเบี่ยงเบนสัมบูรณ์ที่เล็กที่สุดซึ่งมีความเสถียรมากกว่าเมื่อมีค่าผิดปกติที่นำไปสู่การถดถอยแบบเชิงปริมาณ
การถดถอยแบบไม่อิงพารามิเตอร์ซึ่งต้องใช้การสังเกตและการคำนวณเป็นจำนวนมาก
ระยะทางของตัวชี้วัดการเรียนรู้ซึ่งศึกษาในการค้นหาระยะทางตัวชี้วัดที่สำคัญในพื้นที่อินพุตที่กำหนด

แบบจำลองการวิเคราะห์การถดถอย

ซอฟต์แวร์

แพคเกจซอฟต์แวร์ทางสถิติที่สำคัญทั้งหมดดำเนินการโดยใช้การวิเคราะห์การถดถอยกำลังสองน้อยที่สุด การถดถอยเชิงเส้นอย่างง่ายและการวิเคราะห์การถดถอยแบบหลายจุดสามารถใช้ในแอปพลิเคชันสเปรดชีตบางตัวรวมถึงตัวคำนวณบางตัว แม้ว่าแพคเกจซอฟต์แวร์ทางสถิติจำนวนมากสามารถดำเนินการถดถอยแบบไม่มีพารามิเตอร์และเชื่อถือได้หลายวิธีวิธีเหล่านี้มีมาตรฐานน้อยกว่า ชุดซอฟต์แวร์ที่ต่างกันใช้วิธีการต่าง ๆ ซอฟต์แวร์ถดถอยพิเศษได้รับการพัฒนาเพื่อใช้ในด้านต่าง ๆ เช่นการวิเคราะห์การตรวจสอบและ neuroimaging