ในการสร้างแบบจำลองทางสถิติการวิเคราะห์การถดถอยเป็นการศึกษาที่ใช้ในการประเมินความสัมพันธ์ระหว่างตัวแปร วิธีการทางคณิตศาสตร์นี้รวมถึงวิธีการอื่น ๆ อีกมากมายสำหรับการสร้างแบบจำลองและการวิเคราะห์ตัวแปรหลายตัวเมื่อมุ่งเน้นไปที่ความสัมพันธ์ระหว่างตัวแปรตามและหนึ่งหรือมากกว่าหนึ่งอิสระ โดยเฉพาะอย่างยิ่งการวิเคราะห์การถดถอยจะช่วยให้เข้าใจว่าค่าทั่วไปของการเปลี่ยนแปลงตัวแปรตามถ้าหนึ่งในตัวแปรอิสระเปลี่ยนแปลงในขณะที่ตัวแปรอิสระอื่น ๆ ยังคงอยู่
ในทุกกรณีการประมาณการเป้าหมายเป็นฟังก์ชันของตัวแปรอิสระและเรียกว่าฟังก์ชันการถดถอย ในการวิเคราะห์การถดถอยมันเป็นเรื่องที่น่าสนใจที่จะอธิบายลักษณะการเปลี่ยนแปลงของตัวแปรตามเป็นฟังก์ชันของการถดถอยซึ่งสามารถอธิบายได้โดยใช้การแจกแจงความน่าจะเป็น
งานวิเคราะห์การถดถอย
วิธีการวิจัยเชิงสถิตินี้ใช้กันอย่างแพร่หลายสำหรับการคาดการณ์ซึ่งการใช้งานนั้นมีข้อได้เปรียบที่สำคัญ แต่บางครั้งก็สามารถนำไปสู่ภาพลวงตาหรือความสัมพันธ์ที่ผิดพลาดได้ดังนั้นจึงแนะนำให้ใช้อย่างระมัดระวังในเรื่องนี้
วิธีการจำนวนมากได้รับการพัฒนาสำหรับการดำเนินการวิเคราะห์การถดถอยเช่นการถดถอยเชิงเส้นและแบบธรรมดากำลังสองน้อยที่สุดซึ่งเป็นพารามิเตอร์ สาระสำคัญของพวกเขาคือฟังก์ชั่นการถดถอยถูกกำหนดในแง่ของจำนวนพารามิเตอร์ที่ไม่รู้จักที่ประมาณจากข้อมูล การถดถอยแบบไม่อิงพารามิเตอร์อนุญาตให้ฟังก์ชั่นของมันอยู่ในฟังก์ชันบางชุดซึ่งอาจเป็นมิติไม่สิ้นสุด
ในฐานะวิธีการวิจัยเชิงสถิติการวิเคราะห์การถดถอยในทางปฏิบัติขึ้นอยู่กับรูปแบบของกระบวนการสร้างข้อมูลและความเกี่ยวข้องกับวิธีการถดถอย เนื่องจากรูปแบบที่แท้จริงของกระบวนการข้อมูลกำลังสร้างขึ้นตามกฎจำนวนที่ไม่รู้จักการวิเคราะห์การถดถอยของข้อมูลมักขึ้นอยู่กับขอบเขตของสมมติฐานเกี่ยวกับกระบวนการนี้ สมมติฐานเหล่านี้บางครั้งอาจมีการตรวจสอบหากมีข้อมูลเพียงพอ แบบจำลองการถดถอยมักมีประโยชน์แม้ในกรณีที่สมมติฐานถูกละเมิดปานกลางแม้ว่าจะไม่สามารถทำงานได้อย่างเต็มประสิทธิภาพก็ตาม
ในความหมายที่แคบลงการถดถอยอาจเกี่ยวข้องกับการประเมินตัวแปรตอบสนองแบบต่อเนื่องโดยเฉพาะซึ่งแตกต่างจากตัวแปรตอบกลับแบบไม่ต่อเนื่องที่ใช้ในการจำแนกประเภท กรณีของตัวแปรเอาต์พุตต่อเนื่องเรียกอีกอย่างหนึ่งว่าการถดถอยแบบเมตริกเพื่อแยกความแตกต่างจากปัญหาที่เกี่ยวข้อง
เรื่องราว
รูปแบบการถดถอยที่เก่าที่สุดคือวิธีกำลังสองน้อยที่สุดที่รู้จักกันดี มันถูกตีพิมพ์โดย Legendre ในปี 1805 และ Gauss ในปี 1809 Legendre และ Gauss ได้ใช้วิธีนี้ในการพิจารณาจากการสำรวจทางดาราศาสตร์เกี่ยวกับวงโคจรรอบดวงอาทิตย์ (ส่วนใหญ่เป็นดาวหาง Gauss เผยแพร่การพัฒนาเพิ่มเติมของทฤษฎีอย่างน้อยกำลังสองใน 1,821 รวมถึงรุ่นของทฤษฎีบท Gauss-Markov.
คำว่า "การถดถอย" ถูกประกาศเกียรติคุณโดยฟรานซิสกัลตันในศตวรรษที่ 19 เพื่ออธิบายปรากฏการณ์ทางชีวภาพ บรรทัดล่างคือการเจริญเติบโตของลูกหลานจากการเจริญเติบโตของบรรพบุรุษตามกฎแล้วถอยหลังลงไปที่ค่าเฉลี่ยปกติสำหรับ Galton การถดถอยมีความหมายทางชีววิทยาเพียงอย่างเดียว แต่ต่อมางานของเขายังคงดำเนินต่อไปโดย Udney Yule และ Karl Pearson และนำไปสู่บริบททางสถิติที่กว้างขึ้น ในการทำงานของเทศกาลคริสต์มาสและเพียร์สันการกระจายการตอบสนองของตัวแปรตอบสนองและตัวแปรอธิบายถือเป็นเกาส์ สมมติฐานนี้ถูกปฏิเสธโดยฟิชเชอร์ในผลงานของปี 1922 และ 1925 ฟิชเชอร์แนะนำว่าการแจกแจงแบบมีเงื่อนไขของตัวแปรตอบกลับคือเกาส์เซียน แต่การกระจายข้อต่อไม่ควรเป็น ในเรื่องนี้สมมติฐานของ Fischer นั้นใกล้เคียงกับสูตร Gauss 1821 จนถึงปี 1970 บางครั้งอาจใช้เวลาถึง 24 ชั่วโมงเพื่อให้ได้ผลลัพธ์ของการวิเคราะห์การถดถอย
วิธีการวิเคราะห์การถดถอยยังคงเป็นพื้นที่ของการวิจัยเชิงรุก ในทศวรรษที่ผ่านมามีการพัฒนาวิธีการใหม่เพื่อการถดถอยที่เชื่อถือได้ การถดถอยที่เกี่ยวข้องกับการตอบสนองที่สัมพันธ์กัน วิธีการถดถอยที่รองรับข้อมูลประเภทต่าง ๆ ที่ขาดหายไป การถดถอยแบบไม่มีพารามิเตอร์ วิธีการถดถอยแบบเบย์ การถดถอยที่ตัวแปรทำนายถูกวัดด้วยข้อผิดพลาด การถดถอยด้วยตัวทำนายมากกว่าการสังเกตเช่นเดียวกับการอนุมานเชิงสาเหตุด้วยการถดถอย
ตัวแบบการถดถอย
แบบจำลองการวิเคราะห์การถดถอยประกอบด้วยตัวแปรต่อไปนี้:
- พารามิเตอร์ที่ไม่รู้จักซึ่งถูกกำหนดให้เป็นเบต้าซึ่งอาจเป็นเซนต์คิตส์และเนวิส
- ตัวแปรอิสระ, X.
- ตัวแปรที่ขึ้นกับ Y
ในสาขาวิทยาศาสตร์ต่าง ๆ ที่ใช้การวิเคราะห์การถดถอยคำต่าง ๆ จะถูกใช้แทนตัวแปรตามและตัวแปรอิสระ แต่ในทุกกรณีโมเดลการถดถอยจะเชื่อมโยง Y กับฟังก์ชัน X และβ
การประมาณมักใช้รูปแบบ E (Y | X) = F (X, β) ในการวิเคราะห์การถดถอยจะต้องกำหนดประเภทของฟังก์ชัน f โดยทั่วไปแล้วจะขึ้นอยู่กับความรู้เกี่ยวกับความสัมพันธ์ระหว่าง Y และ X ที่ไม่ต้องพึ่งพาข้อมูล หากไม่มีความรู้ดังกล่าวจะมีการเลือกแบบฟอร์ม F ที่ยืดหยุ่นหรือสะดวกสบาย
ตัวแปรที่ขึ้นอยู่กับ Y
ทีนี้สมมติว่าเวกเตอร์ของพารามิเตอร์ที่ไม่รู้จักβมีความยาว k ในการวิเคราะห์การถดถอยผู้ใช้จะต้องให้ข้อมูลเกี่ยวกับตัวแปรที่ขึ้นต่อกัน Y:
- หากมีจุดข้อมูล N ของรูปแบบ (Y, X) โดยที่ N
- หากสังเกตว่า N = K นั้นแน่นอนและฟังก์ชัน F เป็นเส้นตรงสมการ Y = F (X, β) สามารถแก้ไขได้อย่างแน่นอนและไม่ใช่ประมาณ สิ่งนี้จะช่วยลดการแก้ชุดสมการ N ด้วย N-unknowns (องค์ประกอบของβ) ซึ่งมีวิธีการแก้ปัญหาที่ไม่ซ้ำกันตราบใดที่ X เป็นอิสระเชิงเส้น หาก F ไม่ใช่แบบเชิงเส้นโซลูชันอาจไม่มีอยู่หรืออาจมีวิธีแก้ไขปัญหามากมาย
- ที่พบบ่อยที่สุดคือสถานการณ์ที่สังเกต N> ชี้ไปที่ข้อมูล ในกรณีนี้มีข้อมูลเพียงพอในข้อมูลเพื่อประเมินค่าเฉพาะสำหรับ for ที่ตรงกับข้อมูลมากที่สุดและแบบจำลองการถดถอยเมื่อนำไปใช้กับข้อมูลถือได้ว่าเป็นระบบที่บึกบึนในβ
ในกรณีหลังการวิเคราะห์การถดถอยมีเครื่องมือสำหรับ:
- การค้นหาโซลูชันสำหรับพารามิเตอร์ที่ไม่รู้จักβซึ่งจะช่วยลดระยะห่างระหว่างค่าที่วัดได้กับค่าที่ทำนายไว้ของ Y
- ภายใต้สมมติฐานทางสถิติที่แน่นอนการวิเคราะห์การถดถอยใช้ข้อมูลส่วนเกินเพื่อให้ข้อมูลทางสถิติเกี่ยวกับพารามิเตอร์ที่ไม่รู้จักβและค่าที่คาดการณ์ของตัวแปรตาม Y
จำนวนการวัดอิสระที่จำเป็น
พิจารณาโมเดลการถดถอยที่มีพารามิเตอร์ที่ไม่รู้จักสามตัว: β0, β1 และβ2. สมมติว่าผู้ทดลองทำการวัด 10 ครั้งในค่าเดียวกันของตัวแปรอิสระของเวกเตอร์ Xในกรณีนี้การวิเคราะห์การถดถอยไม่ได้ให้ค่าที่ไม่ซ้ำกัน สิ่งที่ดีที่สุดที่คุณสามารถทำได้คือประเมินค่าเฉลี่ยและส่วนเบี่ยงเบนมาตรฐานของตัวแปร Y ที่ขึ้นต้นด้วยการวัดค่า X ที่แตกต่างกันสองค่าด้วยวิธีเดียวกันคุณสามารถได้รับข้อมูลเพียงพอสำหรับการถดถอยที่มีสองนิรนาม
หากการวัดของผู้ทดลองถูกหาค่าที่แตกต่างกันสามค่าของตัวแปรอิสระของเวกเตอร์ X การวิเคราะห์การถดถอยจะให้ชุดการประมาณค่าที่ไม่ซ้ำกันสำหรับพารามิเตอร์ที่ไม่รู้จักสามตัวในβ
ในกรณีของการถดถอยเชิงเส้นทั่วไปข้อความข้างต้นจะเทียบเท่ากับข้อกำหนดที่เมทริกซ์ XTX สามารถย้อนกลับได้
สมมติฐานทางสถิติ
เมื่อจำนวนการวัด N มีค่ามากกว่าจำนวนพารามิเตอร์ที่ไม่รู้จัก k และข้อผิดพลาดการวัดεผมจากนั้นตามกฎแล้วข้อมูลส่วนเกินที่มีอยู่ในการวัดจะถูกแจกจ่ายและใช้สำหรับการพยากรณ์ทางสถิติเกี่ยวกับพารามิเตอร์ที่ไม่รู้จัก ข้อมูลส่วนเกินนี้เรียกว่าระดับความเป็นอิสระของการถดถอย
สมมติฐานพื้นฐาน
สมมติฐานดั้งเดิมสำหรับการวิเคราะห์การถดถอยประกอบด้วย:
- ตัวอย่างนี้เป็นตัวแทนของการคาดคะเนการอนุมาน
- ข้อผิดพลาดเป็นตัวแปรสุ่มที่มีค่าเฉลี่ยเป็นศูนย์ซึ่งเป็นเงื่อนไขในตัวแปรอธิบาย
- ตัวแปรอิสระถูกวัดโดยไม่มีข้อผิดพลาด
- ในฐานะที่เป็นตัวแปรอิสระ (ตัวทำนาย) พวกมันมีความเป็นอิสระเชิงเส้นตรงนั่นคือมันเป็นไปไม่ได้ที่จะแสดงตัวทำนายใด ๆ ในรูปแบบของการรวมกันเชิงเส้นของคนอื่น ๆ
- ข้อผิดพลาดจะไม่เกี่ยวข้องกันนั่นคือเมทริกซ์ความแปรปรวนร่วมของข้อผิดพลาดในแนวทแยงและองค์ประกอบที่ไม่ใช่ศูนย์แต่ละตัวนั้นเป็นความแปรปรวนของข้อผิดพลาด
- ความแปรปรวนของข้อผิดพลาดเป็นค่าคงที่ตามการสังเกต (homoskedasticity) หากไม่เป็นเช่นนั้นคุณสามารถใช้วิธีกำลังสองน้อยที่สุดแบบถ่วงน้ำหนักหรือวิธีอื่นได้
เงื่อนไขที่เพียงพอเหล่านี้สำหรับการประมาณกำลังสองน้อยที่สุดมีคุณสมบัติที่ต้องการโดยเฉพาะอย่างยิ่งสมมติฐานเหล่านี้หมายความว่าการประมาณค่าพารามิเตอร์จะเป็นวัตถุประสงค์ที่สอดคล้องและมีประสิทธิภาพโดยเฉพาะอย่างยิ่งเมื่อนำมาพิจารณาในชั้นของการประมาณเชิงเส้น มันเป็นสิ่งสำคัญที่จะต้องทราบว่าหลักฐานไม่ค่อยตรงตามเงื่อนไข นั่นคือวิธีการที่ใช้แม้ว่าสมมติฐานจะไม่เป็นความจริง การเปลี่ยนแปลงของสมมติฐานบางครั้งสามารถใช้เป็นเครื่องวัดว่าโมเดลนี้มีประโยชน์อย่างไร สมมติฐานเหล่านี้จำนวนมากสามารถบรรเทาได้ด้วยวิธีการขั้นสูง รายงานการวิเคราะห์ทางสถิติมักจะรวมถึงการวิเคราะห์การทดสอบตามข้อมูลตัวอย่างและวิธีการสำหรับอรรถประโยชน์แบบจำลอง
นอกจากนี้ตัวแปรในบางกรณีหมายถึงค่าที่วัดที่ตำแหน่งจุด อาจมีแนวโน้มเชิงพื้นที่และความสัมพันธ์เชิงพื้นที่ในตัวแปรที่ละเมิดสมมติฐานทางสถิติ การถดถอยทางภูมิศาสตร์เป็นวิธีการเดียวที่จัดการกับข้อมูลดังกล่าว
การวิเคราะห์การถดถอยเชิงเส้น
ในการถดถอยเชิงเส้นคุณสมบัติคือตัวแปรตามซึ่งคือ Yผมเป็นการรวมกันเชิงเส้นของพารามิเตอร์ ตัวอย่างเช่นในการถดถอยเชิงเส้นอย่างง่ายตัวแปรอิสระหนึ่งตัว x ใช้เป็นแบบจำลอง n-pointsผมและสองพารามิเตอร์,0 และβ1.
ด้วยการถดถอยเชิงเส้นหลายครั้งมีตัวแปรอิสระหลายอย่างหรือฟังก์ชั่นของพวกเขา
ด้วยการสุ่มตัวอย่างจากประชากรพารามิเตอร์ของมันทำให้เป็นไปได้ที่จะได้รับตัวอย่างของตัวแบบการถดถอยเชิงเส้น
ในแง่นี้วิธีการกำลังสองน้อยที่สุดเป็นที่นิยมมากที่สุด เมื่อใช้การประมาณพารามิเตอร์จะได้รับซึ่งจะลดผลรวมของส่วนที่เหลือกำลังสองน้อยที่สุด การย่อขนาดนี้ (ซึ่งเป็นลักษณะของการถดถอยเชิงเส้น) ของฟังก์ชันนี้นำไปสู่ชุดของสมการปกติและชุดของสมการเชิงเส้นที่มีพารามิเตอร์ที่แก้ไขเพื่อให้ได้การประมาณค่าพารามิเตอร์
ภายใต้สมมติฐานเพิ่มเติมที่ว่าข้อผิดพลาดของประชากรมักจะแพร่กระจายผู้วิจัยสามารถใช้การประมาณข้อผิดพลาดมาตรฐานเหล่านี้เพื่อสร้างช่วงความมั่นใจและทดสอบสมมติฐานเกี่ยวกับพารามิเตอร์ของมัน
การวิเคราะห์การถดถอยเชิงเส้น
ตัวอย่างที่ฟังก์ชั่นนั้นไม่เป็นเส้นตรงตามพารามิเตอร์ระบุว่าผลรวมของกำลังสองควรถูกย่อให้เล็กสุดโดยใช้กระบวนการวนซ้ำ สิ่งนี้นำเสนอภาวะแทรกซ้อนจำนวนมากที่กำหนดความแตกต่างระหว่างวิธีกำลังสองน้อยที่สุดและไม่ใช่เชิงเส้น ดังนั้นผลลัพธ์ของการวิเคราะห์การถดถอยโดยใช้วิธีการไม่เชิงเส้นบางครั้งอาจคาดเดาไม่ได้
การคำนวณพลังงานและขนาดตัวอย่าง
ตามกฎแล้วไม่มีวิธีการที่สอดคล้องกันเกี่ยวกับจำนวนการสังเกตเมื่อเทียบกับจำนวนของตัวแปรอิสระในตัวแบบ กฎข้อแรกถูกเสนอโดยดีและฮาร์ดินและดูเหมือนว่า N = t ^ n โดยที่ N คือขนาดตัวอย่าง n คือจำนวนของตัวแปรอิสระและ t คือจำนวนการสังเกตที่จำเป็นเพื่อให้ได้ความแม่นยำที่ต้องการหากแบบจำลองมีตัวแปรอิสระเพียงตัวเดียว ตัวอย่างเช่นนักวิจัยสร้างแบบจำลองการถดถอยเชิงเส้นโดยใช้ชุดข้อมูลที่มีผู้ป่วย 1,000 ราย (N) หากผู้วิจัยตัดสินใจว่าต้องมีการสังเกตห้าครั้งเพื่อกำหนดเส้น (m) อย่างแม่นยำดังนั้นจำนวนสูงสุดของตัวแปรอิสระที่ตัวแบบสามารถรองรับได้คือ 4
วิธีอื่น ๆ
แม้ว่าความจริงที่ว่าพารามิเตอร์ของตัวแบบการถดถอยนั้นมักจะถูกประเมินโดยใช้วิธีกำลังสองน้อยที่สุด แต่ก็มีวิธีอื่น ๆ ที่ใช้บ่อยกว่ามาก ตัวอย่างเช่นเหล่านี้เป็นวิธีการดังต่อไปนี้:
- วิธีการแบบเบย์ (เช่นวิธีการถดถอยเชิงเส้นแบบเบย์)
- การถดถอยแบบร้อยละใช้สำหรับสถานการณ์ที่การลดความผิดพลาดแบบเปอร์เซ็นต์นั้นมีความเหมาะสมมากกว่า
- ค่าเบี่ยงเบนสัมบูรณ์ที่เล็กที่สุดซึ่งมีความเสถียรมากกว่าเมื่อมีค่าผิดปกติที่นำไปสู่การถดถอยแบบเชิงปริมาณ
- การถดถอยแบบไม่อิงพารามิเตอร์ซึ่งต้องใช้การสังเกตและการคำนวณเป็นจำนวนมาก
- ระยะทางของตัวชี้วัดการเรียนรู้ซึ่งศึกษาในการค้นหาระยะทางตัวชี้วัดที่สำคัญในพื้นที่อินพุตที่กำหนด
ซอฟต์แวร์
แพคเกจซอฟต์แวร์ทางสถิติที่สำคัญทั้งหมดดำเนินการโดยใช้การวิเคราะห์การถดถอยกำลังสองน้อยที่สุด การถดถอยเชิงเส้นอย่างง่ายและการวิเคราะห์การถดถอยแบบหลายจุดสามารถใช้ในแอปพลิเคชันสเปรดชีตบางตัวรวมถึงตัวคำนวณบางตัว แม้ว่าแพคเกจซอฟต์แวร์ทางสถิติจำนวนมากสามารถดำเนินการถดถอยแบบไม่มีพารามิเตอร์และเชื่อถือได้หลายวิธีวิธีเหล่านี้มีมาตรฐานน้อยกว่า ชุดซอฟต์แวร์ที่ต่างกันใช้วิธีการต่าง ๆ ซอฟต์แวร์ถดถอยพิเศษได้รับการพัฒนาเพื่อใช้ในด้านต่าง ๆ เช่นการวิเคราะห์การตรวจสอบและ neuroimaging