Xác suất nào \m/ nhớ thầy Bình quá :">
8.1. Khoảng cách giữa tư bản hút máu và xã hội chủ nghĩa
Tiếp theo
bài trước, hãy nói về con gà của bác nông dân. Bác nông dân và địa chủ ăn hết một con gà, nhưng địa chủ ăn sạch cả con, bao gồm xương, lông, cánh, và phao câu. Tí và Tèo cũng ăn hết một con gà. Mỗi đứa làm đúng một nửa. Trung bình mỗi người cũng là nửa con. Hai vec-tơ phân phối thịt gà

và

đều có trị trung bình là

, nhưng một đằng là tư bản hút máu, một đằng là xã hội chủ nghĩa. Thế thì giá trị trung bình không cung cấp đủ thông tin để phân biệt giữa TBHM và XHCN. Cần thêm thông tin.
Để phân biệt giữa hai thái cực thì ta định nghĩa một hàm khoảng cách. Cặp XHCN (Tí, Tèo)

là một điểm trên mặt phẳng. Cặp TBHM (Địa chủ, Nông Dân)

là điểm khác. Hàm khoảng cách tự nhiên nhất là khoảng cách Euclid. Dễ thấy rằng phân phối thịt gà

có khoảng cách Euclid đến XHCN càng nhỏ thì

và

càng gần bằng nhau, xã hội càng gần công bằng, dân chủ, văn minh, mỗi người ăn càng gần nửa con gà bất kể kích thước bao tử. (Để đo mức độ tư bản hút máu, dĩ nhiên khoảng cách Euclid không phải là chọn lựa duy nhất. Có thể dùng
chỉ số GINI hay
một trăm tỉ các
hệ số khác do bọn tư bản rỗi hơi nghĩ ra.)
Ông Chebyshev
bảo rằng, nếu cho ông ấy biết thêm khoảng cách đến XHCN thì ông ấy sẽ cho mình ước lượng tốt hơn số trọc phú, số vô sản, hoặc số trung lưu. Khoảng cách đến CNXH được đo bằng độ lệch chuẩn (
standard deviation)

, có giá trị bằng căn bậc hai của phương sai (
variance)

. Độ lệch chuẩn trong ví dụ trên là chiều dài (Euclid) của con đường quá độ lên CNXH chia cho căn của tổng dân số. (Sở dĩ ta chia cho căn của tổng dân số là để cho số đo này ít bị ảnh hưởng bởi số dân, chi tiết này không quan trọng lắm trong ngữ cảnh của chúng ta.) Cụ thể hơn, gọi

là một biến ngẫu nhiên trên một phân bố bất kỳ (không nhất thiết là phân bố đều) với trị kỳ vọng
![{\mu = E[X]} {\mu = E[X]}](https://lh3.googleusercontent.com/blogger_img_proxy/AEn0k_tBF2JCdzjM_Net75jSxfToTdftGO7ULohklafMOFIyb4mK-frjatiZlaWeSHvpFOle7zC_-nPAIESLUE7UeUm_49lM5T9iVj2MdgbD32vK6qW-UG8GnF4EhOoPwq9wTv8BKFZXEemI6IYGDoai2ud5PBYkgupFeCQ-=s0-d)
, phương sai
![{\sigma^2 = E[(X - \mu)^2]} {\sigma^2 = E[(X - \mu)^2]}](https://lh3.googleusercontent.com/blogger_img_proxy/AEn0k_uMIq1ZHw_yI56RktI0bkrTDK-9kFD99zQysRaKEhUhJE-MkvMlKgXtgYbCmfWtwHUm1foIVMeuaKWal3ydzgM9ORs1MKaD2QwX5F4zx-e8DWZVHwV1yleXHePfP_j2Yttj7Gkfaby_AZEuN-7X6Cz7Go5hotxowJNrpu0pXBk5-aRehxtdFTb_VnN6DEQD=s0-d)
thì với mọi

,
- Ta có thể chặn trên số trọc phú:
- Ta có thể chặn trên số vô sản:
- Ta có thể chặn trên tổng số vô sản và trọc phú: Nói cách khác, ta có thể chặn dưới đám trung lưu bằng:
8.2. Ứng dụng trong một bài toán lấy mẫu
Một vấn đề cơ bản ta gặp thường xuyên trong thiết kế các thuật toán cho dòng dữ liệu là: ta phải ước lượng trị kỳ vọng
![{\mu = E[X]} {\mu = E[X]}](https://lh3.googleusercontent.com/blogger_img_proxy/AEn0k_tBF2JCdzjM_Net75jSxfToTdftGO7ULohklafMOFIyb4mK-frjatiZlaWeSHvpFOle7zC_-nPAIESLUE7UeUm_49lM5T9iVj2MdgbD32vK6qW-UG8GnF4EhOoPwq9wTv8BKFZXEemI6IYGDoai2ud5PBYkgupFeCQ-=s0-d)
của một biến ngẫu nhiên

.
Luật số lớn đại khái cho ta biết rằng nếu ta lấy

mẫu và dùng trị trung bình

của các mẫu để ước lượng

thì

Nghĩa là lấy càng nhiều mẫu (độc lập) thì ước lượng càng chính xác.
Bài toán lấy mẫu: cho trước
, cần lấy ít nhất bao nhiêu mẫu để cho
Trong đó
gọi là độ sai lệch, và
là độ tin cậy.
Nếu ta biết (hoặc chặn trên được) phương sai của

thì có thể trả lời tương đối tốt câu hỏi trên. Giả sử ta lấy

mẫu độc lập

, và gọi

là tổng của

mẫu này. Do
![{E[X_i] = \mu} {E[X_i] = \mu}](https://lh3.googleusercontent.com/blogger_img_proxy/AEn0k_swEhlamdgnFYm-stYeBy25VOH8e_2kVrRfUvGP9iA7Kh9AEEKFZinyXQ61xiIL96suCsCKB23xRYeLPFF8PfOQBO40edMzyWcAgmE5Lssh9d-Y3DxYBGjf9xnKAMhFxe2_kLr-Lbdi1zXwxMUdXj5z_2xrgQl1wKPILow=s0-d)
,
![{\text{Var}[X_i] = \sigma^2} {\text{Var}[X_i] = \sigma^2}](https://lh3.googleusercontent.com/blogger_img_proxy/AEn0k_taOmFTnMF19LG6mGybrf2EKkw_a9DQm-TUBZ1J_rcSxFVm0lts92FMEXSpI4Y0WOGAWBKmuOC5MUtzuTXrNueTykqSzNt5qU3ng_OjzZW2jGsklxK2UzoOjxSMv9VWZGVGTSPBzAJOoXb3pec_HFoJQG8Ofu8AD4Ucy9pI37wNvWo3iBAUa-1YQuYpzb4xogWvew=s0-d)
và các biến này độc lập, dễ thấy rằng
![{E[Y] = n\mu} {E[Y] = n\mu}](https://lh3.googleusercontent.com/blogger_img_proxy/AEn0k_ui0GFnr-Cg0m4qtVspXKfL5RJZ-huh0t1rBu8W9XlyIDjI9cSFIeXpVft7KVufpVBcdDe0gV6ux99jhE9hQZK1hp-zQ_1pKR56t_Q685lX1Ywd5CveRyL-hTXT5JSF05HdHsqC8v-Ep22XhAOOIzDcFpMsDIV9tOhduA=s0-d)
và
![{\text{Var}[Y] = n\sigma^2} {\text{Var}[Y] = n\sigma^2}](https://lh3.googleusercontent.com/blogger_img_proxy/AEn0k_t-bwgAn2LtbsbL1896LYSNRV9sUX5wnvVsVdeht3eHeU70Hhf447HHe-cSuozYpQbMh1QOd3JnhCzQqy6buKJ4IxPm8F4Mg__NCDUKWTYRpaGVADUmUFEaps01UV1070VXA6GwYaAnaiwnQb9fNg3BQSiDQrJhHXl8Kb_tVDOI40drDHfz4ngGWygaM4EWCCT4=s0-d)
. Từ đó, bất đẳng thức Chebyshev dẫn đến:
Do đó, chọn

mẫu là đủ.
Ta có thể làm tốt hơn thế dùng cái mẹo gọi là
mẹo trung vị (median trick). Để mô tả nó thì ta cần dùng các đồng xu của ông Chernoff để mua con gà của ông Chebyshev. Xem hồi sau sẽ rõ.
http://www.procul.org/blog/2010/07/09/gt-8-con-ga-c%E1%BB%A7a-ong-chebyshev/
No comments:
Post a Comment