Sunday, 25 July 2010

Con gà của ông Chebyshev

Xác suất nào \m/ nhớ thầy Bình quá :">



8.1. Khoảng cách giữa tư bản hút máu và xã hội chủ nghĩa
Tiếp theo bài trước, hãy nói về con gà của bác nông dân. Bác nông dân và địa chủ ăn hết một con gà, nhưng địa chủ ăn sạch cả con, bao gồm xương, lông, cánh, và phao câu. Tí và Tèo cũng ăn hết một con gà. Mỗi đứa làm đúng một nửa. Trung bình mỗi người cũng là nửa con. Hai vec-tơ phân phối thịt gà {(1,0)}{(1/2,1/2)} đều có trị trung bình là {1/2}, nhưng một đằng là tư bản hút máu, một đằng là xã hội chủ nghĩa. Thế thì giá trị trung bình không cung cấp đủ thông tin để phân biệt giữa TBHM và XHCN. Cần thêm thông tin.
Để phân biệt giữa hai thái cực thì ta định nghĩa một hàm khoảng cách. Cặp XHCN (Tí, Tèo) {(1/2, 1/2)} là một điểm trên mặt phẳng. Cặp TBHM (Địa chủ, Nông Dân) {(1, 0)} là điểm khác. Hàm khoảng cách tự nhiên nhất là khoảng cách Euclid. Dễ thấy rằng phân phối thịt gà {(a,b)} có khoảng cách Euclid đến XHCN càng nhỏ thì {a}{b} càng gần bằng nhau, xã hội càng gần công bằng, dân chủ, văn minh, mỗi người ăn càng gần nửa con gà bất kể kích thước bao tử. (Để đo mức độ tư bản hút máu, dĩ nhiên khoảng cách Euclid không phải là chọn lựa duy nhất. Có thể dùng chỉ số GINI hay một trăm tỉ các hệ số khác do bọn tư bản rỗi hơi nghĩ ra.)

Ông Chebyshev bảo rằng, nếu cho ông ấy biết thêm khoảng cách đến XHCN thì ông ấy sẽ cho mình ước lượng tốt hơn số trọc phú, số vô sản, hoặc số trung lưu. Khoảng cách đến CNXH được đo bằng độ lệch chuẩn (standard deviation) {\sigma}, có giá trị bằng căn bậc hai của phương sai (variance) {\sigma^2}. Độ lệch chuẩn trong ví dụ trên là chiều dài (Euclid) của con đường quá độ lên CNXH chia cho căn của tổng dân số. (Sở dĩ ta chia cho căn của tổng dân số là để cho số đo này ít bị ảnh hưởng bởi số dân, chi tiết này không quan trọng lắm trong ngữ cảnh của chúng ta.) Cụ thể hơn, gọi {X} là một biến ngẫu nhiên trên một phân bố bất kỳ (không nhất thiết là phân bố đều) với trị kỳ vọng {\mu = E[X]}, phương sai {\sigma^2 = E[(X - \mu)^2]} thì với mọi {k > 0},
  • Ta có thể chặn trên số trọc phú:
    \displaystyle  \text{Prob}[X - \mu \geq k \sigma] \leq \frac{1}{1+k^2}.
  • Ta có thể chặn trên số vô sản:
    \displaystyle  \text{Prob}[X - \mu \leq - k \sigma] \leq \frac{1}{1+k^2}.
  • Ta có thể chặn trên tổng số vô sản và trọc phú:
    \displaystyle  \text{Prob}[|X - \mu| \geq k \sigma] \leq \frac{1}{k^2}.
    Nói cách khác, ta có thể chặn dưới đám trung lưu bằng:
    \displaystyle  \text{Prob}[|X - \mu| \leq k \sigma] \geq 1- \frac{1}{k^2}.

8.2. Ứng dụng trong một bài toán lấy mẫu
Một vấn đề cơ bản ta gặp thường xuyên trong thiết kế các thuật toán cho dòng dữ liệu là: ta phải ước lượng trị kỳ vọng {\mu = E[X]} của một biến ngẫu nhiên {X}. Luật số lớn đại khái cho ta biết rằng nếu ta lấy {n} mẫu và dùng trị trung bình {\bar \mu} của các mẫu để ước lượng {\mu} thì {\lim_{n \rightarrow \infty} \bar \mu = \mu.} Nghĩa là lấy càng nhiều mẫu (độc lập) thì ước lượng càng chính xác.
Bài toán lấy mẫu: cho trước {(\epsilon, \delta)}, cần lấy ít nhất bao nhiêu mẫu để cho
{\text{Prob}[|\bar \mu-\mu| \leq \epsilon \mu] \geq 1- \delta}
Trong đó {\epsilon} gọi là độ sai lệch, và {\delta} là độ tin cậy.
Nếu ta biết (hoặc chặn trên được) phương sai của {X} thì có thể trả lời tương đối tốt câu hỏi trên. Giả sử ta lấy {n} mẫu độc lập {X_1, \dots, X_n}, và gọi {Y} là tổng của {n} mẫu này. Do {E[X_i] = \mu}, {\text{Var}[X_i] = \sigma^2} và các biến này độc lập, dễ thấy rằng {E[Y] = n\mu}{\text{Var}[Y] = n\sigma^2}. Từ đó, bất đẳng thức Chebyshev dẫn đến:
\displaystyle  \text{Prob}[|\bar \mu-\mu| > \epsilon \mu] = \text{Prob}[|Y - n\mu| > n\epsilon \mu] \leq \frac{\sigma^2}{n\mu^2\epsilon^2}.
Do đó, chọn {n \geq \frac{\sigma^2}{\delta\mu^2\epsilon^2}} mẫu là đủ.
Ta có thể làm tốt hơn thế dùng cái mẹo gọi là mẹo trung vị (median trick). Để mô tả nó thì ta cần dùng các đồng xu của ông Chernoff để mua con gà của ông Chebyshev. Xem hồi sau sẽ rõ.

http://www.procul.org/blog/2010/07/09/gt-8-con-ga-c%E1%BB%A7a-ong-chebyshev/