Trong mô hình thống kê, phân tích hồi quy là một nghiên cứu được sử dụng để đánh giá mối quan hệ giữa các biến. Phương pháp toán học này bao gồm nhiều phương pháp khác để mô hình hóa và phân tích một số biến, khi trọng tâm là mối quan hệ giữa biến phụ thuộc và một hoặc nhiều biến độc lập. Cụ thể hơn, phân tích hồi quy giúp hiểu giá trị điển hình của biến phụ thuộc thay đổi như thế nào nếu một trong các biến độc lập thay đổi, trong khi các biến độc lập khác vẫn cố định.
Trong mọi trường hợp, ước tính đích là một hàm của các biến độc lập và được gọi là hàm hồi quy. Trong phân tích hồi quy, cũng rất đáng quan tâm để mô tả sự thay đổi của biến phụ thuộc là một hàm của hồi quy, có thể được mô tả bằng cách sử dụng phân phối xác suất.
Nhiệm vụ phân tích hồi quy
Phương pháp nghiên cứu thống kê này được sử dụng rộng rãi để dự báo, trong đó việc sử dụng nó có một lợi thế đáng kể, nhưng đôi khi nó có thể dẫn đến ảo tưởng hoặc mối quan hệ sai lầm, do đó, nên sử dụng cẩn thận trong vấn đề này, vì, ví dụ, tương quan không có nghĩa là mối quan hệ nhân quả.
Một số lượng lớn các phương pháp đã được phát triển để tiến hành phân tích hồi quy, chẳng hạn như hồi quy bình phương tuyến tính và bình phương nhỏ nhất, là tham số. Bản chất của chúng là hàm hồi quy được xác định theo số lượng hữu hạn các tham số chưa biết được ước tính từ dữ liệu. Hồi quy không đối xứng cho phép các hàm của nó nằm trong một tập hợp các hàm nhất định, có thể là chiều vô hạn.
Là một phương pháp nghiên cứu thống kê, phân tích hồi quy trong thực tế phụ thuộc vào hình thức của quá trình tạo dữ liệu và cách nó liên quan đến phương pháp hồi quy. Do hình thức thực sự của quá trình dữ liệu được tạo ra, theo quy tắc, một số chưa biết, phân tích hồi quy của dữ liệu thường phụ thuộc vào một mức độ nào đó vào các giả định về quy trình này. Những giả định này đôi khi được xác minh nếu có đủ dữ liệu. Các mô hình hồi quy thường hữu ích ngay cả khi các giả định bị vi phạm vừa phải, mặc dù chúng không thể hoạt động với hiệu quả tối đa.
Theo nghĩa hẹp hơn, hồi quy có thể liên quan cụ thể đến việc đánh giá các biến phản ứng liên tục, ngược lại với các biến phản ứng rời rạc được sử dụng trong phân loại. Trường hợp của một biến đầu ra liên tục cũng được gọi là hồi quy số liệu để phân biệt nó với các vấn đề liên quan.
Câu chuyện
Hình thức hồi quy sớm nhất là phương pháp bình phương nhỏ nhất được biết đến. Nó được xuất bản bởi Legendre vào năm 1805 và Gauss vào năm 1809. Legendre và Gauss đã áp dụng phương pháp này vào nhiệm vụ xác định từ các quan sát thiên văn về quỹ đạo của các vật thể xung quanh Mặt trời (chủ yếu là sao chổi, nhưng sau đó mới phát hiện ra các hành tinh nhỏ). Gauss đã công bố một sự phát triển hơn nữa về lý thuyết bình phương tối thiểu vào năm 1821, bao gồm cả một phiên bản của định lý Gauss-Markov.
Thuật ngữ hồi quy Hồi giáo được đặt ra bởi Francis Galton vào thế kỷ 19 để mô tả một hiện tượng sinh học. Điểm mấu chốt là sự tăng trưởng của con cháu từ sự tăng trưởng của tổ tiên, theo quy luật, thoái lui xuống mức trung bình bình thường.Đối với Galton, hồi quy chỉ có ý nghĩa sinh học này, nhưng sau đó công việc của ông được Udney Yule và Karl Pearson tiếp tục và đưa đến bối cảnh thống kê tổng quát hơn. Trong công việc của Yule và Pearson, phân phối chung của các biến trả lời và biến giải thích được coi là Gaussian. Giả định này đã bị Fisher bác bỏ trong các tác phẩm năm 1922 và 1925. Fisher cho rằng phân phối có điều kiện của biến trả lời là Gaussian, nhưng phân phối chung không nên. Về vấn đề này, giả định Fischer tốt gần với công thức Gauss năm 1821. Cho đến năm 1970, đôi khi phải mất tới 24 giờ để có kết quả phân tích hồi quy.
Phương pháp phân tích hồi quy tiếp tục là một lĩnh vực nghiên cứu tích cực. Trong những thập kỷ gần đây, các phương pháp mới đã được phát triển để hồi quy đáng tin cậy; hồi quy liên quan đến các phản ứng tương quan; phương pháp hồi quy chứa nhiều loại dữ liệu còn thiếu; hồi quy không đối xứng; Phương pháp hồi quy Bayes; hồi quy trong đó các biến dự đoán được đo bằng một lỗi; hồi quy với nhiều dự đoán hơn quan sát, cũng như suy luận nguyên nhân với hồi quy.
Mô hình hồi quy
Các mô hình phân tích hồi quy bao gồm các biến sau:
- Các tham số không xác định, được chỉ định là beta, có thể là vô hướng hoặc vectơ.
- Biến độc lập, X.
- Biến phụ thuộc, Y.
Trong các lĩnh vực khoa học khác nhau, nơi phân tích hồi quy được áp dụng, các thuật ngữ khác nhau được sử dụng thay cho các biến phụ thuộc và độc lập, nhưng trong mọi trường hợp, mô hình hồi quy liên quan đến Y với các hàm X và.
Phép tính gần đúng thường có dạng E (Y | X) = F (X,). Để tiến hành phân tích hồi quy, loại hàm f phải được xác định. Ít phổ biến hơn, nó dựa trên kiến thức về mối quan hệ giữa Y và X không dựa vào dữ liệu. Nếu kiến thức như vậy không có sẵn, thì mẫu F linh hoạt hoặc thuận tiện được chọn.
Biến phụ thuộc Y
Bây giờ giả sử rằng vectơ của các tham số chưa biết β có độ dài k. Để thực hiện phân tích hồi quy, người dùng phải cung cấp thông tin về biến phụ thuộc Y:
- Nếu có N điểm dữ liệu có dạng (Y, X), trong đó N
- Nếu quan sát chính xác N = K và hàm F là tuyến tính, thì phương trình Y = F (X,) có thể được giải chính xác và không xấp xỉ. Điều này làm giảm việc giải một tập hợp các phương trình N với ẩn số N (phần tử của), có một giải pháp duy nhất miễn là X độc lập tuyến tính. Nếu F không tuyến tính, giải pháp có thể không tồn tại hoặc nhiều giải pháp có thể tồn tại.
- Phổ biến nhất là tình huống N> trỏ đến dữ liệu được quan sát. Trong trường hợp này, có đủ thông tin trong dữ liệu để đánh giá giá trị duy nhất cho phù hợp nhất với dữ liệu và mô hình hồi quy, khi áp dụng cho dữ liệu có thể được coi là một hệ thống quá hạn trong.
Trong trường hợp sau, phân tích hồi quy cung cấp các công cụ cho:
- Tìm giải pháp cho các tham số chưa biết, ví dụ, sẽ giảm thiểu khoảng cách giữa các giá trị được đo và dự đoán của Y.
- Theo các giả định thống kê nhất định, phân tích hồi quy sử dụng thông tin dư thừa để cung cấp thông tin thống kê về các tham số chưa biết và các giá trị dự đoán của biến phụ thuộc Y.
Số lượng cần thiết của phép đo độc lập
Hãy xem xét một mô hình hồi quy có ba tham số chưa biết:0, β1 và2. Giả sử rằng người thí nghiệm thực hiện 10 phép đo trong cùng một giá trị của biến độc lập của vectơ X.Trong trường hợp này, phân tích hồi quy không cung cấp một bộ giá trị duy nhất. Điều tốt nhất bạn có thể làm là đánh giá giá trị trung bình và độ lệch chuẩn của biến phụ thuộc Y. Bằng cách đo hai giá trị X khác nhau theo cùng một cách, bạn có thể nhận đủ dữ liệu cho hồi quy với hai ẩn số, nhưng không phải cho ba hoặc nhiều ẩn số.
Nếu các phép đo của người thí nghiệm được thực hiện ở ba giá trị khác nhau của biến độc lập của vectơ X, thì phân tích hồi quy sẽ cung cấp một bộ ước tính duy nhất cho ba tham số chưa biết trong.
Trong trường hợp hồi quy tuyến tính tổng quát, câu lệnh trên tương đương với yêu cầu ma trận XTX có thể đảo ngược.
Giả định thống kê
Khi số lượng phép đo N lớn hơn số lượng tham số k chưa biết và sai số đotôi, sau đó, theo quy luật, phần dư thừa thông tin có trong các phép đo sau đó được phân phối và sử dụng cho các dự báo thống kê liên quan đến các tham số chưa biết. Sự dư thừa thông tin này được gọi là mức độ tự do hồi quy.
Giả định cơ bản
Các giả định cổ điển để phân tích hồi quy bao gồm:
- Các mẫu là đại diện của dự đoán suy luận.
- Lỗi là một biến ngẫu nhiên có giá trị trung bình bằng 0, có điều kiện trên các biến giải thích.
- Các biến độc lập được đo mà không có lỗi.
- Là các biến độc lập (yếu tố dự báo), chúng độc lập tuyến tính, nghĩa là không thể biểu thị bất kỳ yếu tố dự đoán nào dưới dạng kết hợp tuyến tính của các yếu tố khác.
- Các lỗi không được sửa chữa, tức là ma trận hiệp phương sai của các đường chéo và mỗi phần tử khác không là phương sai của lỗi.
- Phương sai của sai số là không đổi theo các quan sát (homoskedasticity). Nếu không, bạn có thể sử dụng phương pháp bình phương tối thiểu có trọng số hoặc các phương pháp khác.
Các điều kiện đủ cho ước lượng bình phương nhỏ nhất này có các thuộc tính cần thiết, đặc biệt, các giả định này có nghĩa là các ước tính tham số sẽ là khách quan, nhất quán và hiệu quả, đặc biệt khi được tính đến trong lớp ước tính tuyến tính. Điều quan trọng cần lưu ý là bằng chứng hiếm khi đáp ứng điều kiện. Đó là, phương pháp được sử dụng ngay cả khi các giả định không đúng. Một biến thể của các giả định đôi khi có thể được sử dụng như một thước đo mức độ hữu ích của mô hình này. Nhiều giả định trong số này có thể được giảm thiểu bằng các phương pháp tiên tiến hơn. Báo cáo phân tích thống kê thường bao gồm phân tích các thử nghiệm dựa trên dữ liệu mẫu và phương pháp luận cho tiện ích mô hình.
Ngoài ra, các biến trong một số trường hợp đề cập đến các giá trị được đo tại các vị trí điểm. Có thể có xu hướng không gian và tự động tương quan không gian trong các biến vi phạm các giả định thống kê. Hồi quy trọng số địa lý là phương pháp duy nhất xử lý dữ liệu đó.
Phân tích hồi quy tuyến tính
Trong hồi quy tuyến tính, một tính năng là biến phụ thuộc, là Ytôilà sự kết hợp tuyến tính của các tham số. Ví dụ, trong một hồi quy tuyến tính đơn giản, một biến độc lập, x, được sử dụng để mô hình hóa các điểm ntôivà hai tham số, β0 và1.
Với nhiều hồi quy tuyến tính, có một số biến độc lập hoặc chức năng của chúng.
Với một mẫu ngẫu nhiên từ dân số, các tham số của nó làm cho có thể lấy ví dụ về mô hình hồi quy tuyến tính.
Trong khía cạnh này, phương pháp bình phương nhỏ nhất là phổ biến nhất. Sử dụng nó, ước tính tham số thu được làm giảm thiểu tổng số dư bình phương. Loại tối thiểu hóa này (đặc trưng của hồi quy tuyến tính) của hàm này dẫn đến một tập hợp các phương trình bình thường và một tập hợp các phương trình tuyến tính với các tham số được giải để có được ước tính tham số.
Theo giả định thêm rằng lỗi của dân số thường lan truyền, nhà nghiên cứu có thể sử dụng các ước tính sai số chuẩn này để tạo khoảng tin cậy và kiểm tra các giả thuyết về các tham số của nó.
Phân tích hồi quy phi tuyến
Một ví dụ trong đó hàm không tuyến tính đối với các tham số chỉ ra rằng tổng các bình phương nên được giảm thiểu bằng cách sử dụng quy trình lặp. Điều này giới thiệu nhiều biến chứng xác định sự khác biệt giữa các phương pháp bình phương tối thiểu tuyến tính và phi tuyến tính. Do đó, kết quả phân tích hồi quy bằng phương pháp phi tuyến đôi khi không thể đoán trước được.
Tính toán công suất và cỡ mẫu
Ở đây, như một quy luật, không có phương pháp nhất quán nào liên quan đến số lượng quan sát so với số lượng biến độc lập trong mô hình. Quy tắc đầu tiên được đề xuất bởi Good và Hardin và trông giống như N = t ^ n, trong đó N là cỡ mẫu, n là số lượng biến độc lập và t là số lượng quan sát cần thiết để đạt được độ chính xác mong muốn nếu mô hình chỉ có một biến độc lập. Ví dụ, một nhà nghiên cứu xây dựng mô hình hồi quy tuyến tính bằng cách sử dụng bộ dữ liệu chứa 1000 bệnh nhân (N). Nếu nhà nghiên cứu quyết định rằng cần có 5 quan sát để xác định chính xác đường (m), thì số lượng biến độc lập tối đa mà mô hình có thể hỗ trợ là 4.
Phương pháp khác
Mặc dù thực tế là các tham số của mô hình hồi quy thường được ước tính bằng phương pháp bình phương nhỏ nhất, có những phương pháp khác được sử dụng ít thường xuyên hơn. Ví dụ, đây là các phương pháp sau:
- Phương pháp Bayes (ví dụ: phương pháp hồi quy tuyến tính Bayes).
- Hồi quy phần trăm, được sử dụng cho các tình huống giảm phần trăm lỗi được coi là phù hợp hơn.
- Độ lệch tuyệt đối nhỏ nhất, ổn định hơn khi có các ngoại lệ dẫn đến hồi quy lượng tử.
- Hồi quy không đối xứng, đòi hỏi một số lượng lớn các quan sát và tính toán.
- Khoảng cách của số liệu học tập, được nghiên cứu để tìm kiếm khoảng cách số liệu có ý nghĩa trong một không gian đầu vào nhất định.
Phần mềm
Tất cả các gói phần mềm thống kê chính được thực hiện bằng phân tích hồi quy bình phương tối thiểu. Hồi quy tuyến tính đơn giản và phân tích hồi quy bội có thể được sử dụng trong một số ứng dụng bảng tính, cũng như trên một số máy tính. Mặc dù nhiều gói phần mềm thống kê có thể thực hiện các loại hồi quy không theo tỷ lệ và độ tin cậy khác nhau, các phương pháp này ít được tiêu chuẩn hóa; các gói phần mềm khác nhau thực hiện các phương pháp khác nhau. Phần mềm hồi quy chuyên dụng đã được phát triển để sử dụng trong các lĩnh vực như phân tích kiểm tra và hình ảnh thần kinh.