一個“大數據”的故事
文章來源:基礎軟件國家工程研究中心 徐普 軟件發展部 孔維一 | 發布時間:2018-12-25 | 【打印】 【關閉】
(一)
最近,老師交給你了一項任務:分析我每天9點鐘會在哪兒。
于是,你潛伏在軟件所與宿舍之間,觀察我的行蹤。
經過了三天的觀察,你發現,每天8點半我會去實驗室,中午我才會從實驗室出來吃飯。
所以,9點的時候我肯定在實驗室,于是你得出結論:
我每天9點鐘在實驗室
你圓滿地完成了任務,回去找老師匯報。按照你的結論,明天我9點的時候一定還會在實驗室,你信心滿滿地拉著老師來驗證結論。
(二)
第四天,我沒有出現在實驗室。
因為第四天是星期六,我不上班。
(三)
于是,尷尬的你決定進行長期的觀察。
一眨眼,兩個月過去了……
你終于發現,我只在工作日才會上班,周末兩天我宅在宿舍睡大覺,一覺睡到中午12點才爬起來去食堂吃飯。
根據新的觀察結果,你對你的結論進行了修正:
周一到周五每天9點我在實驗室
周六和周日每天9點我在宿舍
這次看起來應該沒問題了……吧?
(四)
第一個星期,一切正常。
第二個星期,是8月,我放暑假回家了……
(五)
你意識到,再這么觀察下去不是個辦法,于是你又找到了一年里所有節假日的放假安排。
同時,你發現,我家離北京很遠,回家要很長時間。所以短的假期我回不去;長假我才會回家,到時候肯定是在家睡大覺。
根據新的信息,加上你的推理,你再次對你的結果進行了修正:
工作日每天9點我會在實驗室
周六周日以及短假每天9點我會在宿舍
長假每天9點我會在家
嗯,非常完美,于是你自信滿滿地又拉來老師驗證你的結論。
(六)
某個工作日,我因為前一天熬夜看動漫睡過了頭……
長假第一天,我被堵在半路沒到家……
回來第三天,我出差了,一個星期都不在北京……
(七)
你沮喪地發現,雖然你的結論越來越接近真實情況,但永遠會有“意外”出現,導致你的結論出錯。為了能夠包括這些“意外”,你需要額外統計更多可能相關的東西。但是“意外”永遠層出不窮,為了更準確地預測我的位置,你要統計的東西越來越多,無窮無盡。
(八)
恭喜,你開始理解大數據的作用了。
(九)
我們日常的所有事務,都在無時不刻地產生著信息。通過這些信息,我們能夠更全面地了解問題,從而更好地解決問題。醫生望聞問切診斷病人、老師根據成績判斷學習情況、警察通過蛛絲馬跡偵破案件,都是在利用信息來解決問題。
然而,就像前面的故事一樣,為了更好地解決問題,需要收集更多的信息。得益于計算機技術的發展,我們能夠通過數字化的信息系統收集海量的信息數據進行分析,這在過去是難以想象的。
這,就是大數據。
通過對大數據進行分析,我們往往能夠發現更多潛在的、以前被忽略了的規律,因此能夠得到更加精準的結果。人工智能的驚艷表現,淘寶精準的個性化服務,背后都離不開大數據的強力支撐。
但正如前面的故事一樣,雖然我們需要更多的數據來更好地解決問題,但數據永遠都是不夠的,并且是無窮無盡的。因此,大數據一直走在一條“沒有最好,只有更好”的路上,而我們的數字化生活,也將越來越便利。