Tại sao trong thống kê khi tính độ lệch chuẩn tổng thể và độ lệch chuẩn mẫu lại phải chia cho n và (n-1)?

 Chắc hẳn đây cũng là thắc mắc của nhiều người, tại sao trong thống kê khi tính độ lệch chuẩn tổng thể và độ lệch chuẩn mẫu lại phải chia cho n và (n-1)?

Mọi người có thể hiểu được lý do tại sao độ lệch chuẩn tổng thể lại chia cho n, vì có tổng cộng n dữ liệu.

Vậy tại sao khi tính độ lệch chuẩn mẫu lại phải chia cho (n-1), tức là phải giảm đi 1 trong mẫu?

Mình biết rằng câu trả lời của mình không thể làm hài lòng tất cả mọi người, nhưng trước khi bạn phê phán Mình, hãy đọc hết bài viết này nhé!

Trước khi trả lời câu hỏi này, Mình muốn các bạn suy nghĩ thử, khi cùng một giá trị chia cho n và (n-1), thì kết quả chia cho (n-1) có lớn hơn không? Câu trả lời chắc chắn là có, vì độ lệch chuẩn mẫu là giá trị ước tính của độ lệch chuẩn tổng thể (nếu bạn hỏi Mình tại sao lại là "ước tính"…? Vì là do "lấy mẫu" mà ra. Ví dụ như trong một trường học có tổng cộng 500 học sinh, ta lấy mẫu ngẫu nhiên 50 học sinh và dùng chiều cao của họ để đại diện cho chiều cao của toàn bộ trường. Mặc dù 50 học sinh này có thể đại diện khá tốt cho toàn bộ trường, nhưng kết quả sẽ không giống hoàn toàn với việc tính chiều cao của 500 học sinh. Nói cách khác, kết quả từ mẫu sẽ không hoàn toàn giống với toàn bộ).

Độ lệch chuẩn tính từ mẫu thực sự không phải là độ lệch chuẩn thực tế của tổng thể, tức là độ lệch chuẩn mẫu là một giá trị không chắc chắn, một giá trị ước tính. Thông thường, một kỹ sư nghiêm túc khi ước tính một giá trị sẽ có xu hướng bảo thủ hơn, đặc biệt là khi liên quan đến an toàn. Khi không thể tính toán chính xác một giá trị, họ thường chọn cách làm cho giá trị đó nghiêng về phía thấp hơn, tức là cố tình ước tính độ lệch chuẩn mẫu cao hơn độ lệch chuẩn tổng thể để có sự bảo hiểm, tránh sai sót gây ra tổn thất. Vì vậy, chia cho một mẫu số nhỏ hơn (n-1) sẽ giúp ta làm được điều này. Độ lệch chuẩn càng lớn thì khả năng của quy trình càng kém, chia cho (n-1) sẽ làm cho giá trị này lớn hơn.

Thực tế, nếu số lượng mẫu càng lớn, sự khác biệt giữa việc chia cho n và (n-1) sẽ càng nhỏ dần. Nói cách khác, sự thay đổi do điều này sẽ không quá lớn, nhưng nó lại có sự khác biệt về "ước tính lệch" và "ước tính không lệch". Vì vậy, khi tính độ lệch chuẩn mẫu, người ta thường yêu cầu số lượng dữ liệu ít nhất phải lớn hơn 25 hoặc 30, dĩ nhiên, càng nhiều dữ liệu càng tốt, nhưng phải cân nhắc giữa tính thực dụng và sự cân đối kinh tế nên phải lấy một số lượng mẫu hợp lý. Do đó, trong công thức độ lệch chuẩn mẫu, người ta lấy mẫu số là (n-1), chỉ khi chia cho (n-1) thì kết quả thu được mới là "ước tính không lệch".

Những gì Mìnhnói ở trên, cơ bản là để giải thích cho những người không muốn suy nghĩ nhiều, vì cách giải thích này dễ hiểu tại sao độ lệch chuẩn mẫu lại phải chia cho (n-1). Tuy nhiên, những người học thống kê có thể không đồng ý với lý thuyết này, vì vậy…

Để giải thích chính thức tại sao độ lệch chuẩn mẫu lại chia cho (n-1), người ta sẽ dùng khái niệm "Độ tự do (Degree of Freedom)" để giải thích lý do tại sao phải chia cho (n-1), nhưng đây thực sự là một khái niệm khá trừu tượng, nhiều người có thể không hiểu, đôi khi Mình cũng không hiểu rõ lắm!

Vì mỗi dữ liệu trong tổng thể là một dữ liệu độc lập và có thể thay đổi tự do, nên độ tự do lấy là n là hợp lý. Tuy nhiên, khi sử dụng mẫu để ước tính tổng thể, phải đảm bảo "ước tính không lệch", vì giá trị trung bình mẫu x̄ (X-bar) cơ bản có thể được tính từ n dữ liệu lấy mẫu, do đó chỉ cần biết (n-1) dữ liệu mẫu, dữ liệu còn lại có thể được tính toán từ x̄ (X-bar), và do đó giá trị này bị "hạn chế", mất đi độ tự do. Vì vậy, độ tự do trở thành (n-1). Mình nghĩ là như vậy, nhưng thực sự Mình cũng không hiểu lắm!

 

Đăng nhận xét

0 Nhận xét