Phân Phối Poisson
Vào cuối tuần, đồng nghiệp đều ra về sớm. Tôi ở lại văn phòng, việc tuần này đã cơ bản xong xuôi, bèn tranh thủ viết vài dòng suy nghĩ.
Việc viết về phân phối Poisson - một khái niệm trọng yếu trong lý thuyết xác suất - vốn đã nhen nhóm trong đầu tôi từ giữa tuần. Nguyên nhân cụ thể giờ không nhớ rõ lắm, hình như bắt nguồn từ cuộc trò chuyện ngoài lề trong nhóm chat nhận phản hồi lỗi game mới. Từ việc bàn về lỗi game, chúng tôi chuyển sang thảo luận cài đặt số liệu trong game, rồi lại nói đến xác suất, cuối cùng “chạy đề” sang những kiến thức toán học từng học thời đại học. Vài hôm trước, lúc chuẩn bị đi ngủ tôi tình cờ lật cuốn “Những công thức hữu ích cả đời” - một cuốn sổ tay nhỏ xinh - và bắt gặp công thức Poisson cùng minh họa sinh động. Tò mò hỏi đám đồng nghiệp xem họ hiểu biết đến đâu về chủ đề này.
Kết quả dễ đoán: không ai có thể giải thích rõ ràng Poisson là gì, ứng dụng ra sao, chưa nói đến việc chứng minh công thức. Điều này khiến tôi lén tự đắc vì vẫn còn nhớ mang máng lý thuyết. Nói thật, nếu không vì sơ suất nhỏ trong bài kiểm tra xác suất thống kê hồi đại học, tôi đã có điểm tuyệt đối rồi. Thời sinh viên, tôi ít khi ôn thi kỹ lưỡng, những môn không hứng thú còn chẳng buồn mở sách ra đọc. Không phải tự tin là thiên tài, chỉ là lúc đó tôi chẳng mấy quan tâm đến việc trượt môn cả :). Nói chung, với những môn phải học thuộc công thức để đối phó thi cử mà chưa hiểu bản chất, tôi luôn kiên quyết từ chối.
Duy chỉ có môn xác suất thống kê là ngoại lệ - tôi thực sự yêu thích nên học rất nghiêm túc.
Tuy nhiên, việc tự tin hiểu rõ chưa chắc đã đúng. Khi cố gắng diễn giải lại cho người khác, tôi mới nhận ra mình không thể viết rõ ràng như tưởng tượng. Vài hôm nay rảnh rỗi tra cứu tài liệu, google tìm hiểu lại, dần dần sắp xếp được mạch suy nghĩ. Nay ghi chép lại như một bài tổng kết.
Bắt đầu từ phân phối nhị thức:
Nếu xác suất thành công của một sự kiện là p, khi thực hiện n phép thử độc lập, phân phối số lần thành công sẽ tuân theo quy luật nhị thức. Cụ thể, trong n lần thử, số lần thành công có thể là 0, 1,…, n lần. Xác suất xảy ra đúng i lần thành công được tính bằng:
C(n,i) * pi * (1-p)(n-i)
Công thức này dễ dàng chứng minh nhờ kiến thức cơ bản của xác suất. Vì mỗi lần thử thành công với xác suất p, thất bại với xác suất 1-p. i lần thành công có thể xuất hiện ở bất kỳ vị trí nào trong n phép thử. Nhân các xác suất lại với nhau sẽ cho kết quả cần tìm.
Từ nhị thức đến Poisson:
Hãy tưởng tượng một sự kiện ngẫu nhiên xảy ra bất kỳ thời điểm nào trong khoảng thời gian xác định (giả định các lần xảy ra độc lập với nhau và không phụ thuộc thời gian). Khi chia khoảng thời gian này thành những phần cực nhỏ, ta có thể coi mỗi phần chỉ có hai khả năng: sự kiện xảy ra hoặc không. Khả năng xảy ra nhiều lần trong một phần là cực kỳ thấp (vì các phần chia đủ nhỏ).
Khi các phần thời gian càng nhỏ, xác suất p xảy ra sự kiện trong mỗi phần càng giảm tương ứng. Tích n*p (với n là số phần chia, p là xác suất trong mỗi phần) sẽ là một hằng số, biểu thị tần suất trung bình sự kiện xảy ra trong khoảng thời gian đó.
Bây giờ đặt câu hỏi: Xác suất sự kiện xảy ra đúng i lần trong khoảng thời gian trên là bao nhiêu? Thay vào công thức nhị thức ta có:
[n(n-1)…(n-i+1)/i!] * pi * (1-p)(n-i)
= [n(np-p)…(np-ip+p)/i!] * [(1-p)(-1/p)](-np) / (1-p)^i
Khi n → ∞ và p → 0, (1-p)^(-1/p) tiến tới e (chứng minh ở phần cuối). Công thức rút gọn thành:
(λi / i!) * e(-λ) với λ = np
Đây chính là công thức phân phối Poisson quen thuộc!
Ứng dụng thực tế:
Phân phối Poisson cực kỳ hữu ích khi tính xác suất số lần xảy ra sự kiện hiếm trong khoảng thời gian xác định. Ví dụ, khi thiết kế game MMORPG, nếu việc người chơi xuất hiện ở một bản đồ là sự kiện độc lập, ta có thể dùng Poisson để tính tần suất xuất hiện quái vật phù hợp. Bằng cách thống kê số lượng người chơi trung bình đến bản đồ trong giờ cao điểm, ta dự đoán được thời điểm số lượng người chơi đạt đỉnh, từ đó điều chỉnh mật độ quái vật hợp lý.
Dĩ nhiên, ví dụ này có phần lý tưởng hóa vì hành vi người chơi thường có tương tác lẫn nhau. Tuy nhiên, trong đời sống vẫn tồn tại nhiều hiện tượng tuân theo Poisson như số cuộc gọi đến tổng đài mỗi giờ, số lỗi in ấn trên trang sách, hay số khách hàng đến cửa hàng trong ngày.
Chứng minh giới hạn (1-p)^(-1/p) → e khi p→0:
Xuất phát từ định nghĩa đạo hàm của ln x:
1/x = lim[(ln(x’) - ln x)/(x’ - x)] khi x’ → x
Đặt x’ = x + 1/n, biến đổi sẽ dẫn đến:
e^z = lim(1 + z/n)^n khi n → ∞
Với z=1, ta có e = lim(1+1/n)n.
Đặt n=1/p, biểu thức (1-p)(-1/p) trở thành (1+1/(n-1))^n, cũng tiến tới e khi n→∞.