- +1
擲骰子預(yù)測(cè)世界杯冠軍?
本文由「Light科普坊」出品撰稿:焦述銘(鵬城實(shí)驗(yàn)室)
審稿專家:李煒(中科院長春光機(jī)所)
在每屆世界杯足球賽開幕之際,都會(huì)有各路大咖為大力神杯的最終歸屬“算上一卦”,其中也少不了科學(xué)家手中的數(shù)學(xué)模型。“一千個(gè)觀眾中就有一千個(gè)哈姆萊特”,十個(gè)不同模型就可能預(yù)測(cè)出十個(gè)不同冠軍,像巴西隊(duì),阿根廷隊(duì),法國隊(duì)都是被預(yù)測(cè)的奪冠熱門。
對(duì)于即將到來的2022年卡塔爾世界杯,英國一位流行病學(xué)統(tǒng)計(jì)研究者M(jìn)atthew Penn卻更看好比利時(shí)隊(duì)[1,2],要知道比利時(shí)隊(duì)在世界杯歷史上還從來沒進(jìn)過決賽。但這哥們絕不是在“瞎說”,一來人家有自己基于數(shù)據(jù)的概率模型,二來這個(gè)模型曾經(jīng)在2020年歐洲杯的預(yù)測(cè)中大放異彩,當(dāng)時(shí)準(zhǔn)確地預(yù)測(cè)了意大利和英格蘭會(huì)分別是冠亞軍,并且預(yù)測(cè)對(duì)了八強(qiáng)球隊(duì)中的六個(gè)。

圖1:比利時(shí)(紅色)在 2018 年世界杯四分之一決賽中擊敗巴西
圖源:Кирилл Венедиктов/維基共享資源
在11月15日,Nature雜志慕名采訪了這位預(yù)測(cè)大神,并公布了他使用同一模型預(yù)測(cè)的本屆世界杯結(jié)果,各隊(duì)奪冠的可能性大小如下:

那么這些歐洲杯和世界杯的預(yù)測(cè)結(jié)果是怎么獲得的呢?簡單說是來自于每場(chǎng)比賽的擲骰子,卻又不是簡單的擲骰子,而是一種泊松概率分布。
我們投擲一枚普通骰子,會(huì)得到1點(diǎn)到6點(diǎn)中的任意一個(gè),并且六種結(jié)果的可能性是相等的,稱為均勻概率分布。而對(duì)于泊松概率分布,我們考慮這樣一種情況:假設(shè)街邊有一家生意并不怎么好的小店,每天經(jīng)營10個(gè)小時(shí),平均每天可以來30個(gè)顧客,那么平均每小時(shí)就只有3個(gè)顧客,還假設(shè)顧客都是隨機(jī)選時(shí)間來的,并沒有“客流高峰”,如果任意挑選其中營業(yè)的一個(gè)小時(shí),來的顧客人數(shù)一定是3個(gè)嗎?顯然也不一定,這次碰巧可能一個(gè)人也沒來,下次碰巧可能一下子來了十幾個(gè)人。而法國數(shù)學(xué)家泊松給出了下面這一公式:
λ=3表示了平均值,P則表示了這一小時(shí)的時(shí)間段來了k個(gè)人的概率大小,e是自然常數(shù)。在泊松眼中,這家小店一小時(shí)內(nèi)恰好來了3位顧客(平均水平)可能性是22.4%,而一個(gè)人沒來的概率是4.98%,來了很多人的概率同樣存在,但可能性很小,比如來了10個(gè)人的概率是0.08%,其它人數(shù)的概率也可以一一算出,像下圖中所顯示的那樣。
圖2:平均值為3的泊松概率分布
圖源:本文作者自制
在現(xiàn)實(shí)中,泊松概率分布其實(shí)無處不在,很多真實(shí)數(shù)據(jù)都和這一分布驚人的相似。其中包括了核物質(zhì)每秒放射性衰變的次數(shù),地震等自然災(zāi)害發(fā)生的次數(shù),公共場(chǎng)所排隊(duì)的人數(shù),機(jī)器出現(xiàn)的故障數(shù),每年飛機(jī)墜毀次數(shù),某地區(qū)患病的人數(shù),城市各區(qū)域犯罪案件發(fā)生數(shù)量,甚至是普法戰(zhàn)爭(zhēng)期間普魯士士兵被馬踢死的人數(shù)等等。
而在Matthew Penn的模型中,泊松概率分布用來表示了每場(chǎng)足球比賽中某一方的進(jìn)球個(gè)數(shù)。一場(chǎng)比賽的勝負(fù)和比分自然同時(shí)取決于雙方的實(shí)力和運(yùn)氣,確定性之中又充滿了不確定性。
為了衡量各球隊(duì)實(shí)力,模型中給每一支球隊(duì)分別設(shè)置了“攻擊力”和“防守脆弱性”指數(shù),前者數(shù)值越高越容易進(jìn)球,后者數(shù)值越高表示越容易丟球,防守力越弱。對(duì)此,各種網(wǎng)游桌游的玩家一定不會(huì)陌生,而在更遙遠(yuǎn)的時(shí)代,方便面里贈(zèng)送的《水滸傳》英雄卡上也都標(biāo)記了每位好漢的攻擊力和防御力。很顯然,一等球隊(duì)攻擊力強(qiáng),防守脆弱性低,二等球隊(duì)攻擊力弱,防守脆弱性低,或者反之,最差的一類球隊(duì)攻擊力弱,防守脆弱性高。

圖3:干脆面袋里贈(zèng)送的《水滸傳》英雄卡
圖源:趙陽(拍攝)/ Light科普坊
如果球隊(duì)A和球隊(duì)B比賽,按照“最合理最應(yīng)該”的發(fā)揮,A隊(duì)期待的進(jìn)球數(shù)是A的攻擊力乘以B的防守脆弱性,B隊(duì)期待的進(jìn)球數(shù)是B的攻擊力乘以A的防守脆弱性。假設(shè)說A隊(duì)攻擊力是12,防守脆弱性是0.1,B隊(duì)攻擊力是6,防守脆弱性是0.2,兩隊(duì)的“正?!北确质?.4:0.6, 也就是約為2:1。但足球是圓的,我們只能認(rèn)為2:1是最有可能比分,還有其它各種可能性,于是就將A隊(duì)的進(jìn)球數(shù)的不確定性看作一個(gè)以2.4為平均值的泊松概率分布,B隊(duì)的看作是一個(gè)以0.6為平均值的泊松概率分布,各種可能比分的概率大小取決于兩個(gè)進(jìn)球數(shù)概率值的乘積。
當(dāng)然一個(gè)最關(guān)鍵的問題還沒有說,每個(gè)球隊(duì)的攻擊力和防守脆弱性的值大小到底怎么確定呢?答案是根據(jù)最近幾年來各隊(duì)之間的歷史戰(zhàn)績,不斷調(diào)整兩個(gè)數(shù)值,使得預(yù)測(cè)的比分概率分布與實(shí)際記錄的統(tǒng)計(jì)分布盡可能吻合。這樣,在世界杯上任何兩支球隊(duì)之間交手時(shí),各種比分出現(xiàn)的可能性都已經(jīng)事先可以大致預(yù)測(cè)出來,模擬整個(gè)賽程,最后確定世界杯各隊(duì)的奪冠概率也就成為了可能。
泊松概率分布在光學(xué)領(lǐng)域也是個(gè)“常客”,不過更是個(gè)經(jīng)常制造麻煩的“刺頭”。概率的不確定性給足球比賽帶來的是驚喜,懸念和刺激,給光學(xué)成像帶來的更多是帶來難以忍受的搗亂噪聲信號(hào)。
一束光可以看作是由很多個(gè)微小光子組成的,均勻照亮一張白紙后,看似紙上各處強(qiáng)度都很一致,但實(shí)際上紙的每個(gè)位置反射的光子數(shù)量會(huì)各不相同,而光子數(shù)量的多少也對(duì)應(yīng)著光照明暗的差異。即使同一位置,不同時(shí)刻反射的光子數(shù)量也會(huì)不斷有漲落起伏,都遵循著泊松概率分布。
對(duì)于相機(jī)來說,每次落到傳感器上的光子數(shù)分布同樣具有泊松概率的不確定性,不可避免引入了散粒噪聲[3](圖4左),并且?guī)缀鯚o論怎樣完善地設(shè)計(jì)一款相機(jī),都無法直接去除這種噪聲。根據(jù)泊松概率分布公式,光子數(shù)相比于平均數(shù)量上下起伏的波動(dòng)程度大小會(huì)隨著光子數(shù)平均值的平方根增大而增大,但光子數(shù)平均值正比于想要接收信號(hào)的大小,所以當(dāng)光強(qiáng)度變大(光子數(shù)增加)時(shí),雖然散粒噪聲在變大,信號(hào)與噪聲的比例(信噪比)卻也會(huì)變大,最后看到的圖像整體還是會(huì)更清晰。

圖4:熒光顯微鏡所觀測(cè)的圖像中散粒噪聲(左)及人工智能算法處理后結(jié)果(右)[4]
圖源:Nature Biotechnology (2022): 1-11.
然而在很多應(yīng)用中,增加信號(hào)光的光子數(shù)或者強(qiáng)度是徒勞的,比如在戶外使用無人自動(dòng)駕駛汽車的激光雷達(dá)時(shí),有時(shí)無論怎樣增加激光雷達(dá)的光信號(hào)強(qiáng)度,比起太陽光都是“小巫見大巫”,此時(shí)去除噪聲的一個(gè)辦法是對(duì)沒有任何目標(biāo)物體的空白場(chǎng)景記錄一次信號(hào),作為背景噪聲,之后每次記錄時(shí),都去掉這一靜止不變的背景噪聲。可是面對(duì)太陽光這一本身強(qiáng)度很大,又在以泊松概率分布不斷動(dòng)態(tài)變化的干擾信號(hào),這一招也不靈驗(yàn)了。
而在使用X光的CT醫(yī)學(xué)成像中,為了提升信噪比,加強(qiáng)X光照射強(qiáng)度也不可行,因?yàn)檫^量的X光劑量對(duì)人體是有害的。而即使在可見光的情況下,一些活細(xì)胞顯微鏡觀測(cè)中,過亮的光照也足以殺死細(xì)胞,或者使細(xì)胞功能失常[4]。
2022年的諾貝爾物理學(xué)獎(jiǎng)使得量子信息領(lǐng)域再次備受全球關(guān)注,其中相關(guān)的技術(shù)之一的量子保密通信可以提供理論上非常強(qiáng)的密鑰安全性,但實(shí)際中需要滿足的條件是擁有每次只生成單個(gè)光子的光源[5],“一個(gè)也不能多,一個(gè)也不能少”,可實(shí)際中往往發(fā)射的一個(gè)激光脈沖中包含的光子數(shù)量本身也是泊松概率分布的,如果將平均值設(shè)為0.1個(gè),有不少時(shí)候光源并沒有發(fā)出光子,還會(huì)有少量時(shí)候發(fā)出兩個(gè)或者更多個(gè)光子,這會(huì)使得量子通信系統(tǒng)沒有理想中的那么高效和安全。
不過辦法總比困難多,就像從混亂的進(jìn)球數(shù)可能性中尋找到冠軍球隊(duì)的蛛絲馬跡一樣,面對(duì)神出鬼沒的泊松概率分布噪聲,研究者通過深度學(xué)習(xí)人工智能算法可以將拍到的照片中噪聲完美去除,做到完好無缺的修復(fù)(圖4右)。無論預(yù)測(cè)比賽比分,還是去除圖片噪聲,都離不開大數(shù)據(jù)作為參考,隨機(jī)性的迷霧被異曲同工地層層撥開。
| 作者簡介 |
焦述銘,鵬城實(shí)驗(yàn)室助理研究員,香港城市大學(xué)電子工程博士,從事全息三維顯示算法,單像素成像,光學(xué)計(jì)算,圖像處理,信息安全,機(jī)器學(xué)習(xí)等研究,曾獲得香港特區(qū)政府Hong Kong PhD Fellowship Scheme和廣東省“珠江人才計(jì)劃”海外青年引進(jìn)計(jì)劃(博士后資助項(xiàng)目)。在Optics Letters, Optics Express, IEEE Transactions on Industrial Informatics, Engineering等期刊上以第一或通訊作者發(fā)表論文20余篇,獲得2020年國際顯示技術(shù)大會(huì)(ICDT 2020)優(yōu)秀論文獎(jiǎng)。擔(dān)任《應(yīng)用光學(xué)》和《液晶與顯示》期刊青年編委,中國光學(xué)學(xué)會(huì)全息與光信息處理專業(yè)委員會(huì)委員,中國圖像圖形學(xué)學(xué)會(huì)三維成像與顯示專業(yè)委員會(huì)委員,中國圖像圖形學(xué)學(xué)會(huì)三維視覺專業(yè)委員會(huì)委員。擔(dān)任中國科普作家協(xié)會(huì)會(huì)員,Light科普坊科學(xué)家顧問團(tuán)成員,曾在果殼網(wǎng),科學(xué)大院,南方都市報(bào),讀者原創(chuàng)版等網(wǎng)絡(luò)和平面媒體撰寫科普文章,2013年第六版《十萬個(gè)為什么》圖書數(shù)學(xué)分冊(cè)和電子信息分冊(cè)作者之一。
本文封面圖由Light科普坊提供
參考資料:
[1]Penn, Matthew J., and Christl A. Donnelly. "Analysis of a double Poisson model for predicting football results in Euro 2020." Plos one 17.5 (2022): e0268511.
[2]D. Adam, “Science and the World Cup: how big data is transforming football,” Nature 611, 444-446 (2022)
[3]https://en.wikipedia.org/wiki/Shot_noise
[4] Li, Xinyang, et al. "Real-time denoising enables high-sensitivity fluorescence time-lapse imaging beyond the shot-noise limit." Nature Biotechnology (2022): 1-11.
[5]Y. Hu, X. Peng, T. Li and H. Guo, “On the Poisson approximation to photon distribution for faint lasers,” Physics Letters A 367(3), 173-176 (2007).
本文為澎湃號(hào)作者或機(jī)構(gòu)在澎湃新聞上傳并發(fā)布,僅代表該作者或機(jī)構(gòu)觀點(diǎn),不代表澎湃新聞的觀點(diǎn)或立場(chǎng),澎湃新聞僅提供信息發(fā)布平臺(tái)。申請(qǐng)澎湃號(hào)請(qǐng)用電腦訪問http://renzheng.thepaper.cn。





- 報(bào)料熱線: 021-962866
- 報(bào)料郵箱: news@thepaper.cn
滬公網(wǎng)安備31010602000299號(hào)
互聯(lián)網(wǎng)新聞信息服務(wù)許可證:31120170006
增值電信業(yè)務(wù)經(jīng)營許可證:滬B2-2017116
? 2014-2026 上海東方報(bào)業(yè)有限公司




