-
>
考研英語背單詞20個詞根詞綴
-
>
西班牙語詞根寶典
-
>
美國K-12原版語文課本--初中·下(全12冊)
-
>
流浪地球劉慈欣
-
>
西南聯(lián)大英文課 輕讀禮盒版
-
>
英語大書蟲世界經(jīng)典名譯典藏書系:中國人的精神 (英漢對照)(精選權(quán)威版本)
-
>
許淵沖譯唐詩三百首:漢文·英語
牛津通識讀本牛津通識讀本:大數(shù)據(jù) 版權(quán)信息
- ISBN:9787544783439
- 條形碼:9787544783439 ; 978-7-5447-8343-9
- 裝幀:70g純質(zhì)紙
- 冊數(shù):暫無
- 重量:暫無
- 所屬分類:>>
牛津通識讀本牛津通識讀本:大數(shù)據(jù) 本書特色
大數(shù)據(jù)在21世紀的頭二十年已經(jīng)深深地改變了我們的生活和工作,而且這種改變還將繼續(xù)深入下去,未來充滿了不確定。然而,大數(shù)據(jù)給我們帶來生活便利的同時,也給我們帶來對侵犯隱私的恐懼。雖然我們無法完全把握大數(shù)據(jù)專家們會將算法引向何方,但了解一些大數(shù)據(jù)的基本知識,至少可以讓我們減少一些內(nèi)心的不安。本書以簡短的篇幅,以通俗易懂的方式,探討了當下炙手可熱的大主題。
牛津通識讀本牛津通識讀本:大數(shù)據(jù) 內(nèi)容簡介
在全世界不同的文化中,數(shù)據(jù)的收集與組織都有著悠久的歷史,甚至在計算機思想出現(xiàn)之前很久就已存在。但只是到了互聯(lián)網(wǎng)時代,日常產(chǎn)生的數(shù)據(jù)量才開始變得很好巨大,而且繼續(xù)呈指數(shù)級增長,其中包括我們上傳的文件、視頻、照片、社交媒體信息、在線購物,甚至我們汽車的GPS導航數(shù)據(jù)。大數(shù)據(jù)這一術(shù)語所代表的不僅僅是一種量變,而是一種質(zhì)變;其所指涉的不僅是新的技術(shù),還有企業(yè)和政府利用它的方式;魻柲匪够诮y(tǒng)計學、概率論和計算機科學,對大數(shù)據(jù)這一主題進行了概要性探討,并強調(diào)指出,大數(shù)據(jù)不僅改變了商業(yè)的運營模式,而且改變了醫(yī)療研究的進行方式。與此同時,它也引起了一些重要的倫理問題,作者據(jù)此對斯諾登事件、數(shù)據(jù)安全,以及家庭智能設(shè)備可能被黑客挾持等實例進行了討論。
牛津通識讀本牛津通識讀本:大數(shù)據(jù) 目錄
致 謝
**章 數(shù)據(jù)爆炸
第二章 大數(shù)據(jù)為什么不一般?
第三章 大數(shù)據(jù)存儲
第四章 大數(shù)據(jù)分析法
第五章 大數(shù)據(jù)與醫(yī)學
第六章 大數(shù)據(jù),大商務
第七章 大數(shù)據(jù)安全與斯諾登事件
第八章 大數(shù)據(jù)與社會
字節(jié)大小量表
小寫英文字母ASCII碼表
索 引
英文原文
牛津通識讀本牛津通識讀本:大數(shù)據(jù) 節(jié)選
**章 數(shù)據(jù)爆炸 什么是數(shù)據(jù)? 公元前431年,斯巴達向雅典宣戰(zhàn)。修昔底德在對戰(zhàn)爭的描述中,記載了被圍困于城中的忠于雅典的普拉蒂亞部隊,如何翻越由斯巴達領(lǐng)導的伯羅奔尼撒軍隊所建的圍墻而*終得以逃脫的過程。要做到這一點,他們需要知道城墻的高度,以便制造高度合適的梯子。伯羅奔尼撒軍隊所建城墻的大部分都覆蓋著粗糙的灰泥卵石,但他們*終還是找到了一處磚塊清晰可見的區(qū)域。接下來,大量的士兵被賦予了一項任務,就是每個人分別去計數(shù)這些裸露磚塊的層數(shù)。要在遠離敵人攻擊的距離之外完成判斷,誤差難以避免。但正如修昔底德所解釋的那樣,考慮到計數(shù)的是眾多的個體,*常出現(xiàn)的那個數(shù)應該是可靠的。這個*常出現(xiàn)的數(shù),我們今天稱之為眾數(shù),普拉蒂亞人正是使用它來計量圍墻的高度。由于使用的墻磚的大小是已知的,因此適合翻越城墻所需高度的梯子也順理成章地打造了出來。隨后,數(shù)百的軍人得以成功逃脫。此事可以被視為數(shù)據(jù)收集和分析*為生動的范例,也因而載入史冊。但是,正如我們在本書的后續(xù)章節(jié)中將要看到的,數(shù)據(jù)的收集、存儲和分析甚至比修昔底德的時代還要早幾個世紀。 早在舊石器時代晚期的棍棒、石頭和骨頭上,人們就發(fā)現(xiàn)了凹口。這些凹口被認為是計數(shù)標記,盡管學術(shù)界對此仍然存有爭議。也許*著名的例子是,1950年在剛果民主共和國發(fā)現(xiàn)的伊山戈骨,它距今大約有兩萬年之久。這個有著凹口的骨頭被解讀為具有特殊的功用,比如用作計算器或日歷,當然也有人認為,骨頭上的凹口只是為了方便手握。20世紀70年代在斯威士蘭發(fā)現(xiàn)的列朋波骨甚至更為久遠,時間大概可以追溯到公元前35000年左右。這塊刻有29個線條的狒狒腓骨,與今天遠在納米比亞叢林中生活的土著仍然使用的日歷棒,有著驚人的相似之處。這表明它確有可能是一種用來記錄數(shù)據(jù)的方式,對于他們的文明來說,這些數(shù)據(jù)至關(guān)重要。 雖然對這些凹口骨骼的解釋仍然沒有定論,但我們清楚地知道,人類早期有充分記錄的數(shù)據(jù)使用之一,是巴比倫人在公元前3800年進行的人口普查。該人口普查系統(tǒng)記錄了人口數(shù)量和商品,比如牛奶和蜂蜜,以便提供計算稅收所需的信息。早期的埃及人也擅長使用數(shù)據(jù),他們用象形文字把數(shù)據(jù)寫在木頭或莎草紙上,用來記錄貨物的運送情況并追蹤稅收。但早期的數(shù)據(jù)使用示例,絕不僅限于歐洲和非洲。印加人和他們的南美洲前輩熱衷于記錄稅收和商業(yè)用途的數(shù)據(jù),他們使用一種被稱為“奇普”的精巧而復雜的打彩色繩結(jié)的方法,作為十進制的記賬系統(tǒng)。這些由染成明亮色彩的棉花或駱駝毛制成的打結(jié)繩,可以追溯到公元前3000年。雖然只有不到1 000個打結(jié)繩在西班牙人入侵和后續(xù)的各種毀滅性災難中得以幸存,但它們是已知的**批大規(guī)模數(shù)據(jù)存儲系統(tǒng)的典范,F(xiàn)在有人正在開發(fā)計算機算法,試圖解碼“奇普”的全部含義,加深我們對其使用原理的理解。 雖然我們可以將這些早期的計數(shù)方法設(shè)想并描述為使用數(shù)據(jù),但英文詞data(數(shù)據(jù))實際上是源于拉丁語的復數(shù)詞,其單數(shù)形式為datum。今天,datum已經(jīng)很少使用,“數(shù)據(jù)”的單數(shù)和復數(shù)都用data表示。《牛津英語詞典》將該術(shù)語的**個使用者,歸于17世紀的英國神職人員亨利 ?? 哈蒙德。他在1648年出版的一本有爭議的宗教小冊子中使用了“數(shù)據(jù)”這個詞。在此書中,哈蒙德在神學意義上使用了“數(shù)據(jù)堆”這一短語,來指稱無可爭辯的宗教真理。但是,盡管該出版物在英語中首次使用了“數(shù)據(jù)”這一術(shù)語,但它與現(xiàn)在表示“一個有意義的事實和數(shù)值總體”并不是同一個概念。我們現(xiàn)在所理解的“數(shù)據(jù)”,源于18世紀由普里斯特利、牛頓和拉瓦錫等知識巨人引領(lǐng)的科學革命。到1809年,在早期數(shù)學家的研究基礎(chǔ)上,高斯和拉普拉斯為現(xiàn)代統(tǒng)計方法奠定了堅實的數(shù)學基礎(chǔ)。 在更實際的層面上,當屬1854年倫敦寬街暴發(fā)霍亂疫情時,針對該疫情收集的大量數(shù)據(jù),它使得約翰 ?? 斯諾醫(yī)生得以繪制了疫情圖。數(shù)據(jù)和疫情圖證明他先前的假設(shè)是正確的,即霍亂通過污染的水源傳播,而不是一直以來被廣為認同的空氣傳播。通過收集當?shù)鼐用竦臄?shù)據(jù),他確定患病的人都使用了相同的公共水泵。接下來,他說服地方當局關(guān)閉了該飲水源。關(guān)閉飲水源并不難,他們拆下了水泵的手柄,任務也就完成了。斯諾隨后制作了一張疫情圖,該圖現(xiàn)在很出名,它清楚顯示患病者以寬街的飲水泵為中心,成集群狀態(tài)分布。斯諾繼續(xù)在該領(lǐng)域潛心鉆研,收集和分析數(shù)據(jù),并成為著名的流行病學家。 約翰??斯諾之后,流行病學家和社會學家進一步發(fā)現(xiàn),人口統(tǒng)計數(shù)據(jù)對于研究彌足珍貴。如今,在許多國家進行的人口普查,就是非常有價值的信息來源。例如,出生率和死亡率的數(shù)據(jù),各種疾病的發(fā)生頻率,以及收入和犯罪相關(guān)聯(lián)的統(tǒng)計數(shù)據(jù),現(xiàn)在都會有所收集,而在19世紀之前這些都是空白。人口普查在大多數(shù)國家每十年進行一次。由于收集到的數(shù)據(jù)越來越多,*終導致手工記錄或以前使用的簡單計數(shù)器,已經(jīng)難以應對實際的海量數(shù)據(jù)登錄。在為美國人口普查局工作期間,赫爾曼??何樂禮就遇到了如何應對這些不斷增長的人口普查數(shù)據(jù)的挑戰(zhàn)。 到1870年美國開展人口普查時,所依靠的是一種簡單的計數(shù)器,但這種機器效率有限,已無法滿足人口普查局的要求。1890年的人口普查有了突破,這完全得益于赫爾曼??何樂禮發(fā)明的用于存儲和處理數(shù)據(jù)的打孔卡制表機。通常情況下,處理美國人口普查數(shù)據(jù)需要八年左右的時間,但使用這項新發(fā)明后,時間縮短到了一年。何樂禮的機器徹底改變了世界各國人口普查數(shù)據(jù)的分析處理,其中包括德國、俄羅斯、挪威和古巴。 何樂禮隨后將他的機器賣給了一家后來稱為國際商用機器(IBM)的公司,該公司開發(fā)并生產(chǎn)了一系列廣泛使用的打孔卡機。1969年,美國國家標準協(xié)會制定了以何樂禮命名的打孔卡代碼(或稱何樂禮卡代碼)標準,以對打孔卡機的先驅(qū)何樂禮表示敬意。 數(shù)字時代的數(shù)據(jù) 在計算機廣泛使用之前,人口普查、科學實驗或精心設(shè)計的抽樣調(diào)查和調(diào)查問卷的數(shù)據(jù)都記錄在紙上—這個過程費時且昂貴。數(shù)據(jù)收集只有在研究人員確定他們想要對實驗或調(diào)查對象詢問哪些問題后才能進行,收集到的這些高度結(jié)構(gòu)化的數(shù)據(jù)按照有序的行和列轉(zhuǎn)錄到紙張上,然后通過傳統(tǒng)的統(tǒng)計分析方法進行檢驗。到20世紀上半葉,有些數(shù)據(jù)開始被存儲到計算機里,這有助于緩解部分勞動密集型工作的壓力。但直到1989年萬維網(wǎng)(或網(wǎng)絡)的推出及其快速發(fā)展,以電子方式生成、收集、存儲和分析數(shù)據(jù)才變得越來越可行。面對網(wǎng)絡上可訪問的海量數(shù)據(jù),問題也接踵而來,它們需要及時得到處理。首先,讓我們看看數(shù)據(jù)的不同類型。 我們從網(wǎng)絡上獲得的數(shù)據(jù)可以分為結(jié)構(gòu)化數(shù)據(jù)、非結(jié)構(gòu)化數(shù)據(jù)或半結(jié)構(gòu)化數(shù)據(jù)。 手工編寫并保存在筆記本或文件柜中的結(jié)構(gòu)化數(shù)據(jù),現(xiàn)在以電子的形式存儲在電子表格或數(shù)據(jù)庫中。電子表格樣式的數(shù)據(jù)表由行和列組成,行記錄的是數(shù)據(jù),列對應的是字段(比如名稱、地址和年齡)。當我們在線訂購商品時,我們實際上也正在貢獻結(jié)構(gòu)化數(shù)據(jù)。精心構(gòu)建和制表的數(shù)據(jù)相對容易管理,并且易于進行統(tǒng)計分析,實際上直到*近,統(tǒng)計分析方法也只能應用于結(jié)構(gòu)化數(shù)據(jù)。 相比之下,像照片、視頻、推文和文檔這些非結(jié)構(gòu)化數(shù)據(jù)就不太容易歸類。一旦萬維網(wǎng)的使用變得普遍,我們就會發(fā)現(xiàn),很多這樣的潛在信息仍然無法訪問,因為它們?nèi)狈ΜF(xiàn)有分析技術(shù)所需的結(jié)構(gòu)。但是,如果通過識別關(guān)鍵性特征,那么初看起來為非結(jié)構(gòu)化的數(shù)據(jù)也可能不是完全沒有結(jié)構(gòu)。例如,電子郵件雖然正文的數(shù)據(jù)是非結(jié)構(gòu)化的,但標題中包含了結(jié)構(gòu)化元數(shù)據(jù),因此它可以歸類為半結(jié)構(gòu)化數(shù)據(jù)。元數(shù)據(jù)標簽本質(zhì)上是描述性引用,可用于向非結(jié)構(gòu)化數(shù)據(jù)添加可識別的結(jié)構(gòu)化信息。給網(wǎng)站上的圖像添加單詞標簽,它就可以被識別并且更易于搜索。在社交網(wǎng)站上也可以找到半結(jié)構(gòu)化數(shù)據(jù),這些網(wǎng)站使用主題標簽,以便識別特定主題的消息(非結(jié)構(gòu)化數(shù)據(jù))。處理非結(jié)構(gòu)化數(shù)據(jù)具有挑戰(zhàn)性:由于無法將其存儲在傳統(tǒng)數(shù)據(jù)庫或電子表格中,因此必須開發(fā)特殊工具來提取有用信息。在后面的章節(jié)中,我們會談到非結(jié)構(gòu)化數(shù)據(jù)的存儲方式。 本章的題名“數(shù)據(jù)爆炸”一詞,指的是逐漸產(chǎn)生的越來越多的結(jié)構(gòu)化、非結(jié)構(gòu)化和半結(jié)構(gòu)化數(shù)據(jù)。接下來,我們將梳理產(chǎn)生這些數(shù)據(jù)的各種不同來源。 大數(shù)據(jù)簡介 在本書的寫作過程中,我在網(wǎng)上檢索相關(guān)資料,體驗了被網(wǎng)上可用的數(shù)據(jù)所淹沒的感覺—來自網(wǎng)站、科學期刊和電子教科書的數(shù)據(jù)可謂海量。根據(jù)IBM公司*近進行的一項全球范圍內(nèi)的調(diào)查,每天產(chǎn)生的數(shù)據(jù)大約為2.5 Eb。一個Eb是1018(1 后面跟18 個0)字節(jié)(或100 萬Tb;請參閱本書結(jié)尾的“字節(jié)大小量表”)。在寫作本書時,一臺高配的筆記本電腦的硬盤通常會有1 Tb 或2 Tb的存儲容量。*初,“大數(shù)據(jù)”一詞僅指數(shù)字時代產(chǎn)生的大量數(shù)據(jù)。這些海量數(shù)據(jù)(結(jié)構(gòu)化和非結(jié)構(gòu)化數(shù)據(jù))包括電子郵件、普通網(wǎng)站和社交網(wǎng)站生成的所有網(wǎng)絡數(shù)據(jù)。 世界上大約80%的數(shù)據(jù)是以文本、照片和圖像等非結(jié)構(gòu)化數(shù)據(jù)的形式存在,因此不適合傳統(tǒng)的結(jié)構(gòu)化數(shù)據(jù)分析方法。“大數(shù)據(jù)”現(xiàn)在不僅用于指代以電子方式生成和存儲的數(shù)據(jù)總體,還用于指數(shù)據(jù)量大和復雜度高的特定數(shù)據(jù)集。為了從這些數(shù)據(jù)集中提取有用的信息,需要新的算法技術(shù)。這些大數(shù)據(jù)集來源差異很大,因此有必要讓我們先詳細了解一下主要的數(shù)據(jù)源以及它們生成的數(shù)據(jù)。 搜索引擎數(shù)據(jù) 到2015年,谷歌是全球*受歡迎的搜索引擎,微軟的必應和雅虎搜索分居第二位和第三位。從谷歌可以查閱的*近一年數(shù)據(jù)來看,也就是2012年的公開數(shù)據(jù),僅谷歌每天就有超過35億次搜索。 在搜索引擎中輸入關(guān)鍵詞能生成與之*為相關(guān)的網(wǎng)站列表,同時也會收集到大量數(shù)據(jù)。網(wǎng)站跟蹤繼續(xù)生成大量數(shù)據(jù)。作為試驗,我用“邊境牧羊犬”為關(guān)鍵詞進行了檢索,并點擊返回的*頂層網(wǎng)站。通過一些基本的追蹤軟件,我發(fā)現(xiàn)僅通過點擊這一個網(wǎng)站就可以生成大約67個第三方站點的鏈接。商業(yè)企業(yè)之間通過此類方式共享信息,以達到收集網(wǎng)站訪問者興趣愛好的目的。 每次我們使用搜索引擎時,都會創(chuàng)建日志,它記錄我們訪問過的推薦網(wǎng)站。這些日志包含諸多有用信息,比如查詢的術(shù)語、所用設(shè)備的IP地址、提交查詢的時間、我們在各個網(wǎng)站停留的時長,以及我們訪問它們的順序—所有這些都以匿名的方式進行。此外,點擊流日志記錄了我們訪問網(wǎng)站時所選擇的路徑,以及我們在網(wǎng)站內(nèi)的具體導航。當我們在網(wǎng)上沖浪時,我們所做的每次點擊都記錄在某個地方以備將來使用。企業(yè)可以使用獲取的軟件來收集他們自家網(wǎng)站生成的點擊流數(shù)據(jù),這也是一種有價值的營銷工具。通過提供有關(guān)系統(tǒng)使用情況的數(shù)據(jù),日志有助于偵測身份盜用等惡意行為。日志還可用于評估在線廣告的有效性,通過計算網(wǎng)站訪問者點擊廣告的次數(shù),廣告的效用一目了然。 通過啟用客戶身份識別,“網(wǎng)絡餅干”(Cookie)(一個小文本文件,通常由網(wǎng)站標識符和用戶標識符組成)可用于個性化你的上網(wǎng)體驗。當你首次訪問所選網(wǎng)站時,“網(wǎng)絡餅干”將被發(fā)送到你的計算機中,除非你已經(jīng)禁用了它。以后每次你訪問該網(wǎng)站時,“網(wǎng)絡餅干”都會向網(wǎng)站發(fā)送一條消息,并借此跟蹤你的訪問。正如我們將在第六章中要看到的,“網(wǎng)絡餅干”通常用于記錄點擊流數(shù)據(jù),跟蹤你的偏好,或?qū)⒛愕拿痔砑拥蕉ㄏ驈V告中。 社交網(wǎng)站也會產(chǎn)生大量數(shù)據(jù),臉書(Facebook)和推特(Twitter)位居榜首。到2016年年中,臉書平均每月有17.1億個活躍用戶。所有用戶都在生成數(shù)據(jù),僅日志數(shù)據(jù)每天就能達到大約1.5 Pb(或1 000 Tb)。視頻共享網(wǎng)站優(yōu)兔(YouTube)創(chuàng)建于2005年,目前廣受歡迎,影響深遠。在近期的新聞發(fā)布會上,優(yōu)兔聲稱其全球用戶數(shù)超過了10億。搜索引擎和社交網(wǎng)站產(chǎn)生的有價值數(shù)據(jù)可用于其他許多領(lǐng)域,比如健康問題的處理。 醫(yī)療數(shù)據(jù) 如果我們看看醫(yī)療保健,就會發(fā)現(xiàn)一個涉及人口比例越來越大的被電子化的領(lǐng)域。電子健康記錄逐漸成為醫(yī)院和手術(shù)的標配,其主要目的是便于與其他醫(yī)院和醫(yī)生共享患者的數(shù)據(jù),從而提供更好的醫(yī)療保健服務。通過可穿戴或可植入傳感器收集的個人數(shù)據(jù)正日益增加。特別是為了健康監(jiān)測,我們很多人都在使用復雜程度各異的個人健身追蹤器,它們輸出前所未有的新型數(shù)據(jù),F(xiàn)在可以通過收集血壓、脈搏和體溫的實時數(shù)據(jù),來遠程監(jiān)控患者的健康狀況,從而達到降低醫(yī)療成本并提高生活質(zhì)量的潛在目的。這些遠程監(jiān)控設(shè)備正變得越來越復雜,除了測量基本生命體征參數(shù)之外,睡眠跟蹤和動脈血氧飽和度也成了測量的對象。 有一些公司通過激勵措施來吸引員工使用可穿戴健身設(shè)備,公司設(shè)定某些具體目標,比如減肥或每天走多少步路。作為免費使用設(shè)備的條件,員工須同意與雇主共享數(shù)據(jù)。這似乎是合理的,但不可避免地要涉及個人隱私。此外,選擇加入此類計劃的員工很可能會承受額外的心理壓力。 其他形式的員工監(jiān)控也正變得越來越頻繁,例如監(jiān)控員工在公司提供的計算機和智能手機上的所有活動。使用自定義軟件,此類監(jiān)控可以包括從監(jiān)視訪問了哪些網(wǎng)站到記錄鍵盤輸入,以及檢查計算機是否用于私人目的(如訪問社交網(wǎng)站)。在大規(guī)模數(shù)據(jù)泄露的時代,安全性越來越受到關(guān)注,因此必須保護企業(yè)數(shù)據(jù)。監(jiān)控電子郵件和跟蹤訪問的網(wǎng)站,只是減少敏感資料被盜的兩種常用方法。 如前文所述,個人健康數(shù)據(jù)可以來自傳感器,例如健身追蹤器或健康監(jiān)測設(shè)備。然而,從傳感器收集的大部分數(shù)據(jù)都以高度專業(yè)化的醫(yī)療為目的。伴隨著對各物種開展的基因研究和基因組測序,產(chǎn)生了一批當今規(guī)模*為宏大的數(shù)據(jù)庫。脫氧核糖核酸分子(DNA)以保存生物體遺傳信息而聞名于世;1953 年,詹姆斯??沃森和弗朗西斯??克里克首次將其描述為雙螺旋結(jié)構(gòu)。一個家喻戶曉的基因研究項目是近年來的國際人類基因組計劃,它的目標是確定人類DNA的30 億個堿基對的序列或確切順序。這些數(shù)據(jù)*終會幫助研究團隊進行基因疾病的探索。 實時數(shù)據(jù) 有些數(shù)據(jù)被實時收集、處理并使用。計算機處理能力的提高,惠及的不僅是數(shù)據(jù)處理,同時也大幅提升了數(shù)據(jù)生產(chǎn)能力。有時候,系統(tǒng)的響應時間至關(guān)重要,數(shù)據(jù)必須要得到及時處理。例如,全球定位系統(tǒng)(GPS)使用衛(wèi)星系統(tǒng)掃描地球并發(fā)回大量實時數(shù)據(jù)。安裝在你的汽車或內(nèi)置在智能手機中的GPS接收設(shè)備,需要實時處理這些衛(wèi)星信號才能計算你的位置、時間和速度。(“智能”表示某個物品,這里指的是手機,具有訪問互聯(lián)網(wǎng)的功能,并且能夠提供可以鏈接在一起的多種服務或應用。) 該技術(shù)現(xiàn)在用于無人駕駛或自動駕駛車輛的開發(fā)。這樣的車輛已經(jīng)在工廠和農(nóng)場等封閉的專門場所使用,一些大品牌汽車制造企業(yè)也在開發(fā)無人駕駛車輛,包括沃爾沃、特斯拉和日產(chǎn)等。相關(guān)的傳感器和計算機程序必須實時處理數(shù)據(jù),以便將車輛可靠地導航到目的地,并根據(jù)道路實況控制車輛的移動軌跡。這需要事先創(chuàng)建待行進路線的三維地圖,因為傳感器不能應對沒有地圖的路線。雷達傳感器用于監(jiān)控其他車流,并將數(shù)據(jù)發(fā)回控制汽車的外部中央執(zhí)行計算機。傳感器必須得到有效編程以探測不同的形狀,并區(qū)分諸如跑進公路的孩子和風吹起的報紙這樣的不同物體,或者甄別交通事故發(fā)生后的應急交通管制。然而,到目前為止,自動駕駛汽車還沒有能力應對由瞬息萬變的環(huán)境所帶來的各種問題。 自動駕駛汽車首次致命碰撞事故發(fā)生在2016年。當時,駕駛員和自動駕駛儀都沒有對切入汽車行進路線的車輛做出反應,也就是說沒有任何制動的操作。自動駕駛汽車的制造商特斯拉在2016年6月的新聞稿中說,“引發(fā)事故的情況極為罕見”。自動駕駛系統(tǒng)會提醒駕駛員要始終將手放在方向盤上,并且還會檢查他們是否在這樣做。特斯拉表示,這是他們在1.3億英里自動駕駛中發(fā)生的**起死亡事故,而相比之下,美國每9 400萬英里的常規(guī)駕駛(非自動駕駛)就會造成一人死亡。 據(jù)估計,每輛自動駕駛汽車每天平均生成30 Tb的數(shù)據(jù),其中大部分數(shù)據(jù)必須立即處理。一個被稱為流計算的新研究領(lǐng)域,繞過了傳統(tǒng)的統(tǒng)計和數(shù)據(jù)處理方法,以期能提供處理這一特殊大數(shù)據(jù)的解決方案。 天文數(shù)據(jù) 2014年4月,國際數(shù)據(jù)公司(IDC)的一份報告估計,到2020年,數(shù)字世界將達到44萬億Gb(1 000 Mb等于1 Gb),數(shù)據(jù)總量是2013年的十倍。天文望遠鏡所產(chǎn)生的數(shù)據(jù)與日俱增,例如位于智利的超大光學望遠鏡由四個望遠鏡組成,每晚都產(chǎn)生大量的數(shù)據(jù),單個望遠鏡每晚所產(chǎn)生的數(shù)據(jù)就高達15 Tb。該望遠鏡在大型天氣調(diào)查項目中起著引領(lǐng)的作用,它通過不停地掃描夜空制作和更新夜空圖;該項目為期十年,產(chǎn)生的數(shù)據(jù)總量估計能達到60 Pb(250字節(jié))。 在數(shù)據(jù)生成方面數(shù)量更大的是,建在澳大利亞和南非的平方公里陣列探路者(SKAP)射電望遠鏡。該望遠鏡預計于2018年開始運行。**階段它每秒將產(chǎn)生160 Tb的原始數(shù)據(jù),隨著建設(shè)進程的推進,產(chǎn)生的數(shù)據(jù)還會進一步的增加。當然,并非所有這些數(shù)據(jù)都會被存儲,但即便如此,仍需要世界各地的超級計算機來分析剩余的數(shù)據(jù)。 數(shù)據(jù)到底有何用途? 如今我們的日常活動也會被收集并成為電子化的數(shù)據(jù),想避免個人數(shù)據(jù)被收集幾乎已經(jīng)是不可能的事。超市收銀機記錄我們購買的商品的數(shù)據(jù);購買機票時,航空公司收集我們旅行安排的信息;銀行收集我們的財務數(shù)據(jù)。 大數(shù)據(jù)廣泛應用于商業(yè)和醫(yī)學,并在法律、社會學、市場營銷、公共衛(wèi)生和自然科學的所有領(lǐng)域得到運用。如果我們能夠開發(fā)合適的數(shù)據(jù)挖掘方法,那么所有形式的數(shù)據(jù)都有可能提供大量有用的信息。融合傳統(tǒng)統(tǒng)計學和計算機科學的新技術(shù),使得分析大量數(shù)據(jù)變得越來越可行。統(tǒng)計學家和計算機科學家開發(fā)的這些技術(shù)和算法,可用以搜索數(shù)據(jù)模式。梳理出關(guān)鍵的模式,是大數(shù)據(jù)分析成功與否的關(guān)鍵。數(shù)字時代帶來的變化大大改變了數(shù)據(jù)收集、存儲和分析的方式。得益于大數(shù)據(jù)革命,我們才有了智能汽車和家庭監(jiān)控。 以電子方式收集數(shù)據(jù)的能力,催生了令人興奮的數(shù)據(jù)科學,也促成了統(tǒng)計學和計算機科學的融合。大量的數(shù)據(jù)得到有效分析,從而在跨學科應用領(lǐng)域產(chǎn)生了新的見解,獲得了新的知識。處理大數(shù)據(jù)的*終目的是提取有用的信息。例如,商業(yè)決策越來越依靠從大數(shù)據(jù)中分析所得的信息,并且期望值很高。但是,目前還有一些大難題亟待解決,尤其是缺乏訓練有素的數(shù)據(jù)科學家,只有他們才能有效地開發(fā)和管理那些提取有用信息的系統(tǒng)。 通過使用源自統(tǒng)計學、計算機科學和人工智能的新方法,人們正在設(shè)計新的算法,有望推動科學的進步和產(chǎn)生新的科學見解。例如,盡管無法準確預測地震發(fā)生的時間和地點,但越來越多的機構(gòu)正在使用衛(wèi)星和地面?zhèn)鞲衅魇占臄?shù)據(jù)來監(jiān)測地震活動。其目的是想大致確定,從遠期來看,可能會發(fā)生大地震的地方。美國地質(zhì)調(diào)查局(USGS)是地震研究領(lǐng)域的主要參與者。該機構(gòu)2016年預測:“加利福尼亞州北部地區(qū)未來三十年發(fā)生里氏7級地震的概率為76%!敝T如此類的概率評估有助于將資源集中于重要事項,比如確保建筑物能夠更好地抵御地震并實施災害管理計劃等。來自不同國家和地區(qū)的數(shù)家公司,正在使用大數(shù)據(jù)來改進地震的預測方法,這些方法在大數(shù)據(jù)出現(xiàn)之前是不可想象的,F(xiàn)在我們有必要來看一下大數(shù)據(jù)的非凡之處。
牛津通識讀本牛津通識讀本:大數(shù)據(jù) 作者簡介
道恩??E.霍爾姆斯,現(xiàn)任教于美國加利福尼亞大學圣巴巴拉分校應用概率與統(tǒng)計學系,主要研究領(lǐng)域為貝葉斯網(wǎng)絡、機器學習和數(shù)據(jù)挖掘等;魻柲匪故请姎怆娮庸こ處煂W會高級會員、《基于知識的智能信息系統(tǒng)國際期刊》副主編,并與他人合編了三卷本著作《數(shù)據(jù)挖掘:基礎(chǔ)和智能范例》(2014)。
- >
小考拉的故事-套裝共3冊
- >
我從未如此眷戀人間
- >
月亮虎
- >
月亮與六便士
- >
我與地壇
- >
伊索寓言-世界文學名著典藏-全譯本
- >
伯納黛特,你要去哪(2021新版)
- >
山海經(jīng)