Tại sao trong thống kê, khi tính độ lệch chuẩn của tổng thể và mẫu lại phải chia lần lượt cho n và (n−1)

 


Tại sao trong thống kê, khi tính độ lệch chuẩn của tổng thể và mẫu lại phải chia lần lượt cho n và (n−1)?

Thông thường, người ta có thể hiểu được lý do tại sao độ lệch chuẩn của tổng thể lại chia cho n, vì đơn giản là có tổng cộng n dữ liệu.

Vậy tại sao khi tính độ lệch chuẩn của mẫu lại phải lấy mẫu số trừ đi 1, tức là chia cho (n−1)?

Biết rằng câu trả lời của mình chắc chắn không thể làm hài lòng tất cả mọi người, nhưng trước khi bạn đặt nghi vấn, hãy đọc hết bài viết này đã nhé!

Trước khi trả lời câu hỏi này,mọi người thử nghĩ xem:
Khi cùng một số được chia lần lượt cho n và (n−1), thì số nào lớn hơn?
→ Chắc chắn là chia cho (n−1) sẽ cho ra kết quả lớn hơn.

Lý do là vì độ lệch chuẩn của mẫu là một giá trị ước lượng cho độ lệch chuẩn của tổng thể (Bạn hỏi tại sao lại là “ước lượng”? → Vì là “lấy mẫu” mà!).
Ví dụ, một trường học có 500 học sinh, bạn lấy mẫu 50 người để đo chiều cao nhằm đại diện cho chiều cao toàn trường. Tức là dùng chiều cao của 50 người để ước lượng cho 500 người.
Mặc dù 50 người có thể phần nào đại diện, nhưng chắc chắn sẽ có sai số so với việc đo toàn bộ 500 người. Nói cách khác: chúng không thể hoàn toàn giống nhau.

Vì thế, độ lệch chuẩn tính từ mẫu không phải là giá trị thực sự của tổng thể, mà chỉ là một giá trị ước lượng, mang tính không chắc chắn.
Thông thường, các kỹ sư nghiêm túc khi làm ước lượng sẽ thiên về sự bảo thủ một chút – đặc biệt khi liên quan đến an toàn. Khi không thể tính toán chính xác, họ thà ước lượng cao hơn, để tránh rủi ro hay sai sót.
Do đó, chia cho mẫu số nhỏ hơn (n−1) sẽ làm giá trị lệch chuẩn lớn hơn, điều này giống như một cách để "phòng ngừa" rủi ro.
Độ lệch chuẩn càng lớn thì khả năng kiểm soát quy trình càng kém, nên chia cho (n−1) làm giá trị lớn hơn là có lý do.

Thật ra, khi kích thước mẫu càng lớn, thì sự khác biệt giữa chia cho n và chia cho (n−1) sẽ càng nhỏ.
Nói cách khác: sự khác biệt về “số lượng” không quá lớn, nhưng về bản chất (“chất”) thì khác nhau rất nhiều – đó là sự khác biệt giữa ước lượng có sai lệch (biased) và ước lượng không sai lệch (unbiased).

Vì vậy, khi tính độ lệch chuẩn mẫu, người ta thường yêu cầu kích thước mẫu phải ít nhất trên 25 hoặc 30, càng nhiều dữ liệu càng tốt.
Nhưng vì giới hạn thực tế và kinh tế, nên người ta lấy con số đề xuất là khoảng đó. Và chỉ khi chia cho (n−1) thì kết quả mới là ước lượng không sai lệch.

 

Những gì vừa nói ở trên chủ yếu là để giải thích theo cách đơn giản, dễ hiểu, cho những ai không muốn “nát óc” khi học thống kê.
Nhưng với những người học chuyên sâu về thống kê thì chắc chắn sẽ không đồng ý với cách giải thích trên, nên...

Đối với câu hỏi "tại sao phải chia cho (n−1) khi tính độ lệch chuẩn mẫu?" – cách giải thích chính quy hơn là phải dùng đến khái niệm "số bậc tự do" (Degrees of Freedom).
Nhưng vấn đề là khái niệm này khá trừu tượng, nhiều người đọc xong có thể vẫn thấy mù mờ,  đôi khi cũng không hiểu rõ lắm đâu!

Lý do là: trong tổng thể, mỗi dữ liệu đều là một giá trị độc lập và tự do thay đổi, nên số bậc tự do là n là chính xác.
Tuy nhiên, khi dùng mẫu để ước lượng cho tổng thể, thì phải tuân theo tính chất ước lượng không sai lệch.

Vì giá trị trung bình mẫu x̄ (X-bar) đã được tính ra từ n mẫu, nên chỉ cần biết (n−1) giá trị, giá trị cuối cùng hoàn toàn có thể suy ra từ trung bình và các giá trị trước đó, nên giá trị đó không còn “tự do” nữa, bị ràng buộc rồi → số bậc tự do = n−1.

 

Đăng nhận xét

0 Nhận xét