I. KHOẢNG BIẾN THIÊN. KHOẢNG TỨ PHÂN VỊ
1. Định nghĩa
HĐ1:
a. Trong mẫu số liệu (1), hiệu giữa số đo lớn nhất và số đo nhỏ nhất là:
$R = x_{max} – x_{min} = 16 – 14 = 2$
b. Sắp xếp các số liệu của mẫu (1) theo thứ tự tăng dần, ta được: $2, 5, 6, 7, 8, 9, 10, 11, 12, 14, 16$
Vậy $Q_1 = 6; Q_2 = 9; Q_3 = 12.$
Suy ra $∆_Q = Q_3 – Q_1 = 12 – 6 = 6.$
Kết luận:
+ Trong một mẫu số liệu, khoảng biến thiên là hiệu số giữa giá trị lớn nhất và giá trị nhỏ nhất của mẫu số liệu đó.
Ta có thể tính khoảng biến thiên R của mẫu số liệu theo công thức sau:
$R = x_{max} – x_{min}$, trong đó $x_{max}$ là giá trị lớn nhất, $x_{min}$ là giá trị nhỏ nhất của mẫu số liệu đó.
+ Giả sử $Q_1, Q_2, Q_3$ là tứ phân vị của mẫu số liệu. Ta gọi hiệu $∆_Q= Q_3-Q_1$ là khoảng tứ phân vị của mẫu số liệu đó.
Chú ý:
Khoảng tứ phân vị của mẫu số liệu còn gọi là khoảng trải giữa (tiếng Anh là InterQuartile Range – IQR) của mẫu số liệu đó.
Ví dụ 1 (SGK – tr36)
Ý nghĩa
a. Ý nghĩa của khoảng biến thiên: Khoảng biến thiên của mẫu số liệu phản ánh sự “dao động”, “sự dàn trải” của các số liệu trong mẫu đó.
b. Ý nghĩa của khoảng tứ phân vị: Khoảng tứ phân vị là một đại lượng cho biết mức độ phân tán của $50%$ số liệu chính giữa của mẫu số liệu đã sắp xếp và có thể giúp xác định các giá trị bất thường của mẫu số liệu đó.
II. PHƯƠNG SAI
1. Định nghĩa
HĐ2:
a. Ta có: $8 – 7 = 1; 6 – 7 = – 1; 7 – 7 = 0; 5 – 7 = – 2; 9 – 7 = 2.$
b. Bình phương các độ lệch là:
$(8 – 7)^2 = 1; (6 – 7)^2 = 1; (7 – 7)^2 = 0; (5 – 7)^2 = 4; (9 – 7)^2 = 4.$
Trung bình cộng của bình phương các độ lệch là:
$s^2 = \frac{(8-7)^2 + (6-7)^2 + (7-7)^2 + (5-7)^2 + (9-7)^2}{5} = 2$
Lưu ý: Mỗi hiệu giữa số liệu và số trung bình cộng gọi là độ lệch của số liệu đó đối với số trung bình cộng.
Kết luận:
Cho mẫu số liệu thống kê có $n$ giá trị $x_1, x_2, …, x_n$ và số trung bình cộng là $\overline{x}$
Ta gọi số:
$s^2 = \frac{(x_1 - \overline{x})^2 + (x_2 - \overline{x})^2 + … + (x_n - \overline{x})^2}{n}$ là phương sai của mẫu số liệu trên.
Nhận xét:
- Khi có các số liệu bằng nhau, ta có thể tính phương sai theo công thức sau:
+ Phương sai của mẫu số liệu thống kê trong bảng phân bố tần số là:
$s^2 = \frac{n_1(x_1 - \overline{x})^2 + n_2(x_2 - \overline{x})^2 + … + n_k(x_k - \overline{x})^2}{n}$
trong đó $n = n_1 + n_2 +…+ n_k$; $\overline{x}$ là số trung bình cộng của các số liệu đã cho.
+ Phương sai của mẫu số liệu thống kê trong bảng phân bố tần số tương đối là:
$s^2 = f_1(x_1 - \overline{x})^2 + f_2(x_2 - \overline{x})^2 + … + f_k(x_n - \overline{x})^2$
- Trong thực tế, người ta còn dùng công thức sau để tính phương sai của một mẫu số liệu:
$s^2 = \frac{(x_1 - \overline{x})^2 + (x_2 - \overline{x})^2 + … + (x_n - \overline{x})^2}{n - 1}$
Trong đó, $x_i$ là giá trị của quan sát thứ $i; \overline{x}$ là giá trị trung bình và $n$ là số quan sát trong mẫu số liệu đó.
Ví dụ 2 (SGK – tr36)
Luyện tập 1:
+ Ta có: $\overline{x}_5 = 57,96; \overline{x}_6 = 272,04$
+ Vậy phương sai của mẫu (5) và (6) là:
$s_(5)^2 = \frac{(55,2 - \overline{x}_5)^2 + (58,8 - \overline{x}_5)^2 + (62,4 - \overline{x}_5)^2 + (54 - \overline{x}_5)^2 + (59,4 - \overline{x}_5)^2}{5}= 9,16$
$s_(6)^2 = \frac{(217,2 - \overline{x}_6)^2 + (261 - \overline{x}_6)^2 + (276 - \overline{x}_6)^2 + (282 - \overline{x}_6)^2 + (270 - \overline{x}_6)^2}{5}= 48,33$
Vậy cự li chạy $500 m$ có kết quả đồng đều hơn.
2. Ý nghĩa:
Phương sai là số đặc trưng đo mức độ phân tán của mẫu số liệu. Mẫu số liệu nào có phương sai nhỏ hơn thì mức độ phân tán (so với số trung bình cộng) của các số liệu trong mẫu đó sẽ thấp hơn.
III. ĐỘ LỆCH CHUẨN
1. Định nghĩa
HĐ3:
$s_H = \sqrt{s_H^2} = \sqrt{0,4} ≈ 0,63$
Kết luận:
Căn bậc hai (số học) của phương sai gọi là độ lệch chuẩn của mẫu số liệu thống kê.
Nhận xét: Vì độ lệch chuẩn có cùng đơn vị đo với số liệu thống kê nên khi cần chú ý đến đơn vị đo thì ta sử dụng độ lệch chuẩn mà không sử dụng phương sai.
Ví dụ 3 (SGK – tr39)
Luyện tập 2:
+ Ta có bảng tần số:
Số áo bán ra |
410 |
430 |
450 |
525 |
550 |
Tần số |
1 |
2 |
2 |
1 |
1 |
Số áo bán ra |
560 |
635 |
700 |
800 |
900 |
Tần số |
1 |
1 |
1 |
1 |
1 |
+ Từ bảng tần số ta có số lượng áo trung bình bán ra trong 1 tháng là: $\overline{x} = 602$ (chiếc áo)
+ Phương sai của mẫu số liệu là:
$s^2 = [(410 - \overline{x})^2 + (430 - \overline{x})^2 + (450 - \overline{x})^2 + (525 - \overline{x})^2 + (550 - \overline{x})^2$
$+ (560 - \overline{x})^2 + (635 - \overline{x})^2 + (760 - \overline{x})^2 + (800 - \overline{x})^2 + (900 - \overline{x})^2] : 12 = 25 401.$
+ Độ lệch chuẩn của mẫu số liệu là: $s = \sqrt{s^2} = 159,4.$
2. Ý nghĩa
Cũng như phương sai, khi hai mẫu số liệu thống kê có cùng đơn vị đo và có số trung bình cộng bằng nhau (hoặc xấp xỉ nhau), mẫu số liệu nào có độ lệch chuẩn nhỏ hơn thì mức độ phân tán (so với số trung bình cộng) của các số liệu trong mẫu đó sẽ thấp hơn. Độ lệch chuẩn là số đặc trưng đo mức độ phân tán của mẫu số liệu thống kê có cùng đơn vị đo.
IV. TÍNH HỢP LÍ CỦA SỐ LIỆU THỐNG KÊ
Ta thường sử dụng khoảng tứ phân vị để xác định số liệu bất thường của mẫu số liệu. Cụ thể:
Giả sử $Q_1, Q_2, Q_3$ là tứ phân vị của mẫu số liệu và hiệu $∆_Q=Q_3-Q_1$ là khoảng tứ phân vị của mẫu số liệu đó. Một giá trị trong mẫu số liệu được coi là một giá trị bất thường nếu nó nhỏ hơn $Q_1 - \frac{3}{2}.∆_Q$ hoặc lớn hơn $Q_3 + \frac{3}{2}.∆_Q$
Ví dụ 4 (SGK – tr40)
Chú ý:
Ta cũng có thể xác định số liệu bất thường của mẫu số liệu bằng số trung bình cộng và độ lệch chuẩn. Cụ thể như sau:
Giả sử $\overline{x}, s$ lần lượt là số trung bình cộng và độ lêch chuẩn của mẫu số liệu. Một giá trị trong mẫu số liệu cũng được coi là một giá trị bất thường nếu nó nhỏ hơn
$\overline{x} - 3s$ hoặc lớn hơn $\overline{x} + 3s$. Như vậy, số trung bình cộng và độ lệch chuẩn cho ta cách nhận ra giá trị bất thường của mẫu số liệu.
Bài tập:
Ta có: $Q_1 = 56; Q_3 = 84$
$∆_Q = Q_3 - Q_1 = 84 - 56 = 28$
$Q_1 - \frac{3}{2}∆_Q = 56 - \frac{3}{2}.28 = 14$
$Q_3 + \frac{3}{2}∆_Q = 84 + \frac{3}{2}.28 = 126$
Ta thấy $10 < 14$ nên $10$ là giá trị bất thường.
$14 < 100 < 126$ nên $100$ không là giá trị bất thường.