亚洲综合伊人,成人欧美一区二区三区视频不卡,欧美日韩在线高清,日韩国产午夜一区二区三区,大胆美女艺术,一级毛片毛片**毛片毛片,你瞅啥图片

 首頁 > 新聞 > 國內(nèi) >

醫(yī)療大數(shù)據(jù)專家:淺談醫(yī)學大數(shù)據(jù)

2015-03-26 10:06:29   作者:   來源:36氪   評論:0  點擊:


  圖六

  圖五和圖六都顯示了最流行的平臺和數(shù)據(jù)處理方式為開源免費的 Hadoop 和 MapReduce。伴隨著他們的潛在成長和承諾程度,可以預見,Hadoop 和 MapReduce 正在并會繼續(xù)推動和促進大數(shù)據(jù)的處理和應用。

  在此,我們簡單介紹一下 Hadoop 和 MapReduce 的概念。Hadoop 是一種基于 Java 的分散式數(shù)據(jù)處理框架。它可以提供對儲存在多個硬件設備上的數(shù)據(jù)進行高吞吐率的讀寫。更重要的是,它對大數(shù)據(jù)具有高容錯性 和對并行應用程序的高可用性。Hadoop 框架結(jié)構(gòu)由若干名字節(jié)點(NameNode)和數(shù)據(jù)節(jié)點(DataNode)組成。一份數(shù)以萬計,百萬計的大數(shù)據(jù)文件會被分割成更小的文件信息塊儲存在多個數(shù)據(jù)節(jié)點里,可以是任何計算機硬件設備。

  有關這些文件的數(shù)據(jù)屬性資料信息稱作 metadata 則被存儲在名字節(jié)點里(NameNode)。 NameNode 主要管理文件系統(tǒng)的命名空間和客戶端對文件的訪問操作記錄。Hadoop 的框架結(jié)構(gòu)如圖七:

  圖七

  當訪問和操作數(shù)據(jù)文件時,客戶端會聯(lián)系名字節(jié)點提取文件信息塊的屬性信息比如位置,文件名等。然后根據(jù)這些屬性信息,客戶端直接從相應的數(shù)據(jù)節(jié)點同時讀取數(shù)據(jù)塊。Hadoop 本身具有冗余和復制功能,保證在單個硬件儲存設備出現(xiàn)故障時數(shù)據(jù)仍舊能被恢復而沒有任何損失,比如每個數(shù)據(jù)節(jié)點默認擁有3個備份之類。

  此外,在有新數(shù)據(jù)節(jié)點添加到框架中時,Hadoop 還可以自動平衡每個數(shù)據(jù)節(jié)點的數(shù)據(jù)載有量。同樣,名字節(jié)點也可以擁有冗余和復制功能,用于在單個儲存數(shù)據(jù)屬性信息的名字節(jié)點出現(xiàn)故障時可以恢復相應的數(shù)據(jù)屬性信息。

  MapReduce 則是一種可以用來并行處理大數(shù)據(jù)的編程模型。同一程序在 Hadoop 的框架下可以用各種不同的語言(Java,Ruby,Python 等)按 MapReduce 的編程模型進行編寫和運行。其關鍵就在于三個詞: map,reduce, 和并行處理。我們通過一個例子來理解 MapReduce 的大致工作原理。比如我們有一30個字的字符串“開落花纏落花繞纏開繞笑瓜夜村村舍舍瓜夜藤繞下下藤繞嬉嬉笑娃娃”,任務是計算每個字出現(xiàn)的次數(shù)。

  最簡單的方法是按序讀取每一個字建立標識索引并計算出現(xiàn)的次數(shù)值存入內(nèi)存,如果是新字,值為1,如果是出現(xiàn)過的字則次數(shù)值累加上去。此種方式是按串行的方式進行的,所花的時間會隨著字符串的長度和復雜度程線性增長。當字符串是以萬計百萬計時,比如基因組數(shù)據(jù),所花的時間將是相當驚人的。 并行處理則能節(jié)約相當多的時間。

  我們先把原文件分割到幾個小文件塊,然后對每個小文件塊進行字的標識索引和附加數(shù)值(這兒不進行累計,只是簡單的單次點數(shù)),然后再排序重組把相同字放在一起,然后我們再用縮減法計算出字及其相應的出現(xiàn)次數(shù)值。圖八顯示了具體的例子步驟:

  圖八

分享到: 收藏

專題