Chi bình phương là gì

Trở lại với các bài viết của anhhung.mobi, bài viết lần này chúng ta sẽ tìm hiểu về kiểm định phi tham số cụ thể là kiểm định chi bình phương (Chi-square test). Trong series về phương pháp phân tích sống sót (Survival analysis) chúng tôi từng nhắc đến sự khác biệt giữa các mô hình tham số (parametric models) và phi tham số (non-parametric models). Đối với mô hình tham số, chúng ta phải đưa ra giả định ban đầu về bộ tham số được đưa vào mô hình, quy luật phân phối xác suất áp dụng cho các đối tượng nghiên cứu trong tập dữ liệu. Tuy nhiên nếu chưa thể đưa ra các giả định, đặc biệt trường hợp dữ liệu thu thập là dữ liệu định tính, thì mô hình phi tham số sẽ được ưu tiên sử dụng.

Bạn đang xem: Chi square test là gì

Tương tự trong lý thuyết thống kê, khi tiến hành kiểm định tham số cho các kết quả thu được từ những nghiên cứu, chúng ta cần xét điều kiện được quan tâm là tổng thể nghiên cứu có phân phối chuẩn. Tuy nhiên trường hợp, người làm phân tích theo kinh nghiệm của mình cho rằng tổng thể nghiên cứu thực tế không phải như vậy, họ có quyền không đưa ra giả định. Hay tổng thể nghiên cứu về bản chất đã không thỏa điều kiện này, thì các phương pháp kiểm định tham số không thể đưa vào sử dụng, thay vào đó là kiểm định phi tham số.



Kiểm định phi tham số hay non-parametric hypothesis tests hỗ trợ kiểm định giả thuyết liên quan đến tổng thể nghiên cứu mà ở đó không mang bất kỳ giả định nào về quy luật phân phối, hay có quy luật phân phối bất kỳ không theo phân phối chuẩn, và không cần bất kỳ tham số nào như trung bình, độ lệch chuẩn, tỷ lệ,…thường áp dụng cho dữ liệu định tính hơn là dữ liệu định lượng. Các phương pháp kiểm định phi tham số đã xuất hiện từ rất lâu từ cuối những năm 1940 và vẫn còn hữu dụng cho đến ngày hôm nay.

Trong 2 bài viết lần này về kiểm định phi tham số, chúng ta sẽ cùng tìm hiểu đến một vài phương pháp kiểm định phi tham số quan trọng như Sign – test, Wilcoxon – rank test, Mann – Whitney test, Kruskal – Wallis test, và đặc biệt là kiểm định Chi bình phương Chi – squared test được ứng dụng phổ biến hơn mà chúng ta thường nhắc đến ở các chủ đề bài viết trong Data mining mà gần nhất là Survival analysis. Chúng ta sẽ tìm hiểu Chi-squared test với các ví dụ đơn giản trong phần 1 bài viết lần này.

Các lý thuyết liên quan đến thống kê, cũng như quy luật phân phối, lý thuyết kiểm định tham số như kiểm định là gì, vì sao cần, … chúng tôi sẽ không đề cập lại chi tiết. Các bạn có thể xem lại các bài viết qua link dưới đây:

Tổng quan về Statistics: Khái niệm và ứng dụng của thống kê

Tổng quan về Statistics: Descriptive statistics (thống kê mô tả)

Tổng quan về Statistics: Inferential statistics (thống kê suy luận)

Tìm hiểu về phương pháp kiểm định tham số

Các dạng kiểm định tham số (trường hợp 1 mẫu)

Các dạng kiểm định tham số (trường hợp 2 mẫu)

Kiểm định chi bình phương (Chi-squared test)

Kiểm định chi bình phương áp dụng cho dạng dữ liệu thống kê theo dạng tần số. Mục đích ứng dụng phổ biến của kiểm định chi bình phương đầu tiên là kiểm tra xem có mối liên hệ, mối quan hệ giữa 2 biến, 2 yếu tố đang xét đến. Nhu cầu kiểm tra mối liên hệ giữa 2 biến xuất hiện nhiều trong các phương pháp phân tích như hồi quy Logistics, Survival analysis,… và trong thực tế khi chúng ta quan tâm đến sự khác biệt giữa 2 nhóm đối tượng nghiên cứu thuộc lĩnh vực xã hội, kinh tế.

Một ứng dụng khác của kiểm định chi bình phương đó là “Goodness of Fit” dùng để kiểm tra giả định về quy luật phân phối trong một tổng thể nghiên cứu có đúng không, có hợp lý hay không ví dụ kiểm tra giả định chi tiêu trung bình của khách hàng cho các sản phẩm của công ty mỗi tháng tuân theo phân phối chuẩn. Hay ví dụ cụ thể, một chuyên viên phân tích bán hàng của một công ty cho rằng tỷ lệ doanh thu của sản phẩm A, B, C tuân theo phân phối đa thức (Multinominal probability distribution) lần lượt là 40%, 25%, 35%.

Chúng ta sẽ sử dụng kiểm định chi bình phương để kiểm tra kết luận của chuyên gia phân tích có đúng không.

Xem thêm: Rèn Luyện Tính Tự Giác Là Gì Cho Chúng Ta Sau Này? Tự Giác Là Gì

Giả sử công ty sản xuất smartphone có 3 dòng sản phẩm A, B, C, có mức giá trung bình ngang nhau, không quá chênh lệch, dành cho phân khúc khách hàng tầm trung, được khách hàng chọn lựa dựa trên các yếu tố thiết kế, tính năng. Tỷ lệ doanh số phân khúc tầm trung trong năm 2019 lần lượt là 40%, 25%, 35%.

Trong năm 2020, dòng sản phẩm B được công ty thiết kế, sáng tạo thêm các tính năng mới như camera AI, nhận diện khuôn mặt. Công ty muốn tìm hiểu liệu việc sản phẩm B được cải tiến như vậy sẽ tác động lên doanh thu của sản phẩm A, C như thế nào.

Công ty tiến hành thu thập dữ liệu 300 khách hàng, mỗi khách hàng mua 1 trong 3 sản phẩm A, B, C. Chúng ta có phân phối đa thức với tỷ lệ doanh số cụ thể pA, pB, pC.

Nói một chút về phân phối đa thức (Multinominal probability distribution), đây là quy luật phân phối mở rộng từ phân phối nhị thức (Binominal probability distribution). Ví dụ trong phân phối nhị thức, chúng ta có xác suất khách hàng mua sản phẩm A: pA và xac suất không mua sản phẩm A sẽ là 1 – pA; và pA + (1 – pA) = 1. Đối với đa thức, chúng ta có thể xét nhiều hơn các kết quả đạt được, như ví dụ ở trên, nếu khách hàng không mua A, thì họ có thể mua B hoặc C; không mua B, thì có thể mua A hoặc C; không mua C, thì có thể mua A hoặc B. Chúng ta sẽ có pA – xác suất mua sản phẩm A, pB, pC lần lượt là xác suất mua sản phẩm B, xác suất mua sản phẩm C.

Với pA + pB + pC = 1

Quay trở lại với bài toán, chúng ta sẽ đặt giả thuyết:

H0: Doanh số của 3 sản phẩm A, B, C tuân theo phân phối đa thức với tỷ lệ doanh số hay xác suất khách hàng mua sản phẩm A, B hoặc C lần lượt là pA = 0.4 pB = 0.25 pC = 0.35

H1: Doanh số của 3 sản phẩm A, B, C không tuân theo phân phối đa thức với tỷ lệ doanh số hay xác suất khách hàng mua sản phẩm A, B hoặc C lần lượt là pA = 0.4 pB = 0.25 pC = 0.35

Hoặc đơn giản:

H0: pA = 0.4; pB = 0.25; pC = 0.35

H1: tỷ lệ doanh số ứng với 3 sản phẩm A, B, C sẽ không phải là pA = 0.4 pB = 0.25 pC = 0.35

Cách thực hiện

Kiểm định chi bình phương hoạt động dựa trên sự khác biệt giữa số quan sát thực tế (tần suất thực tế) – Observed, ký hiệu Oi; và số quan sát mong đợi hay dự kiến (tần suất mong đợi dự kiến) – Expected, ký hiệu Ei. Với i là nhóm đang xét.

Từ “mong đợi”, hay “dự kiến” được hiểu đơn giản như sau. Ví dụ nếu công ty không tiến hành cải tiến sản phẩm B, thì tỷ lệ doanh số của 3 sản phẩm A, B, C trong năm 2020 có thể được mong đợi sẽ tối thiểu bằng 2019. Hoặc nếu không có gì xảy ra trong năm 2020, tỷ lệ doanh số 3 sản phẩm A, B, C dự kiến sẽ bằng năm trước.

Công thức kiểm định Chi-squared quen thuộc mà chúng tôi từng đề cập ở các chủ đề bài viết trước:

  • Ngày đăng: 8/01/2020
  • |
  • Chuyên mục: AVS, SPSS

Bài viết được đăng tải duy nhất và thuộc bản quyền của Phạm Lộc Blog. Việc chia sẻ lại nội dung lên website khác vui lòng dẫn nguồn link bài viết gốc này. Xin cảm ơn!

Kiểm định Chi bình phương được sử dụng khi chúng ta muốn đánh giá xem liệu có mối quan hệ giữa hai biến định tính hay biến phân loại (categorical variables) trong một tập dữ liệu hay không. Ví dụ, chúng ta cần đánh giá xem độ tuổi và thâm niên của nhân viên trong công ty có quan hệ với nhau không, giới tính và tình trạng hôn nhân của khách hàng có sự liên kết nào hay không...

Để cụ thể hơn, chúng ta cùng đi vào một ví dụ thực tế với một tập dữ liệu mẫu gồm 350 quan sát nghiên cứu về sự hài lòng của nhân viên trong một công ty. Chúng ta sẽ đánh giá xem Thâm niên và Thu nhập của các nhân viên có sự liên kết nhau hay không.

Biến Thâm niên được chia làm các mức giá trị:

Dưới 1 năm

Từ 1 - 3 năm

Từ 3 - 5 năm

Trên 5 năm

Biến Thu nhập được chia làm các mức giá trị:

Dưới 10 triệu

Từ 10 – dưới 15 triệu

Từ 15 – dưới 20 triệu

Từ 20 triệu trở lên

Giả thuyết Ho: Thâm niên và Thu nhập không có mối quan hệ với nhau (độc lập nhau)

Thực hiện kiểm định Chi bình phương mối quan hệ giữa Thâm niên và Thu nhập trên SPSS 26. Chúng ta vào Analyze > Descriptives Statistics > Crosstabs.

Tại cửa sổ Crosstabs đưa biến Thâm niên vào ô Row(s) và biến Thu nhập vào ô Column(s), có thể đưa một trong hai biến vào bất kỳ mục Rows hay Column đều được, không ảnh hưởng đến kết quả kiểm định. Bạn có thể chọn vào Display clustered bar charts để hiển thị đồ thị mối quan hệ hai biến.

Nhấp vào tùy chọn Statistics, tích chọn vào Chi-square và Cramer’s V, sau đó nhấp vào Continue.

Nhấp vào tùy chọn Cells, trong mục Percentages tích chọn vào Rows, Columns. Tiếp tục nhấp vào Continue, sau đó chọn OK để tiến hành kiểm định.

Trong kết quả ở Output, bảng Crosstabulation cho chúng ta cái nhìn sơ bộ về mối quan hệ giữa hai biến này về mặt thống kê tần số.

Tiếp đến, chúng ta sẽ đọc bảng quan trọng nhất là Chi-Square Tests. Nếu giá trị Asymptotic Significance (2-sided) hàng Pearson Chi-Square nhỏ hơn 0.05. Chúng ta bác bỏ giả thuyết Ho, nghĩa là 2 biến Thâm niên và Thu nhập có mối quan hệ với nhau. Nếu giá trị Sig này lớn hơn 0.05, chúng ta chấp nhận giả thuyết Ho, tương đương rằng Thâm niên và Thu nhập không có mối quan hệ với nhau. 

Cuối bảng Chi-Square Tests luôn có một dòng thông báo dạng: X cells (Z%) have expected count less than 5. The minimum expected count is Y. Khi chạy không ra được kết quả kiểm định, các bạn cần để ý đến dòng này. Kiểm định Chi bình phương chỉ có ý nghĩa khi số quan sát đủ lớn, nếu có quá 20% số ô trong bảng Crosstabulation có tần số nhỏ hơn 5 thì Chi-Square không còn mang ý nghĩa chính xác hoặc có thể kết quả kiểm định không thực hiện được và báo lỗi. Khi xảy ra trường hợp này, các bạn cần tăng số lượng đáp viên ở các nhóm đáp án có dưới 5 người trả lời hoặc mã hóa lại biến để tăng số lượng người ở mỗi đáp án lên đủ lớn. Ví dụ nhóm Thâm niên chỉ có 3 người chọn vào Trên 5 năm, chúng ta phải khảo sát thêm để số lượng trên 5 người.

Nếu bạn đang gặp khó khăn trong tìm kiếm dữ liệu phù hợp cho phân tích SPSS nhằm đảm bảo các tiêu chí kiểm định. Bạn có thể tham khảo việc mua số liệu SPSS của Phạm Lộc Blog để có được kết quả tốt nhất và tối ưu về thời gian nhất.


Kết quả Sig từ Chi-Square Test chỉ nói lên được 2 biến có mối quan hệ hay không. Nếu 2 biến này có sự liên kết với nhau thì chúng ta sẽ cần đánh giá mức độ liên kết giữa 2 biến qua giá trị Value của kiểm định Phi và Cramer's V. Kiểm định Phi chỉ phù hợp khi xem xét mối quan hệ giữa 2 biến mà mỗi biến chỉ có 2 giá trị, nếu một trong hai biến có từ 3 giá trị trở lên chúng ta sẽ dùng kết quả của Cramer's V. Cụ thể trong bảng kết quả ở trên, chúng ta đọc chỉ số Value của Cramer' V, hệ số này là 0.429 = 42.9%, như vậy 2 biến này có sự tương quan khá cao.

Đồ thị cột biểu diễn tần số người trả lời (số đáp viên) của mỗi giá trị của biến này khi so với biến còn lại, đây là đồ thị biểu diễn kết quả bảng Crosstablulation. Ví dụ, thâm niên Dưới 1 năm, thì màu xanh dương và màu hồng có số lượng người trên 20 người, màu xanh lá có số lượng tầm dưới 10 người.

Trong luận văn, kiểm định Chi bình phương hay còn gọi là kiểm định Crosstab thường được ứng dụng nhiều khi chúng ta cần phân tích sâu hơn mối quan hệ giữa các đặc điểm nhân khẩu học của đáp viên hoặc phân tích sự liên kết các yếu tố trong thị trường... Đây là một công cụ mạnh hỗ trợ chúng ta đưa ra giải pháp cho bài nghiên cứu.

Video liên quan

Chủ đề