<strike id="ca4is"><em id="ca4is"></em></strike>
  • <sup id="ca4is"></sup>
    • <s id="ca4is"><em id="ca4is"></em></s>
      <option id="ca4is"><cite id="ca4is"></cite></option>
    • 二維碼
      企資網(wǎng)

      掃一掃關(guān)注

      當前位置: 首頁 » 企業(yè)資訊 » 經(jīng)驗 » 正文

      大數(shù)據(jù)教程--Hadoop教程(三)《Hado

      放大字體  縮小字體 發(fā)布日期:2021-09-01 03:24:52    作者:企資小編    瀏覽次數(shù):62
      導讀

      hadoop是什么?Hadoop是使用Java編寫,允許分布在集群,使用簡單的編程模型的計算機大型數(shù)據(jù)集處理的Apache的開源框架。 Hadoop框架應(yīng)用工程提供跨計算機集群的分布式存儲和計算的環(huán)境。 Hadoop是專為從單一服務(wù)器到

      hadoop是什么?

      Hadoop是使用Java編寫,允許分布在集群,使用簡單的編程模型的計算機大型數(shù)據(jù)集處理的Apache的開源框架。 Hadoop框架應(yīng)用工程提供跨計算機集群的分布式存儲和計算的環(huán)境。 Hadoop是專為從單一服務(wù)器到上千臺機器擴展,每個機器都可以提供本地計算和存儲。

      Hadoop的架構(gòu)

      在其核心,Hadoop主要有兩個層次,即_

    • 加工/計算層(MapReduce),以及
    • 存儲層(Hadoop分布式文件系統(tǒng))。


      MapReduce
      MapReduce是一種并行編程模型,用于編寫普通硬件的設(shè)計,谷歌對大量數(shù)據(jù)的高效處理(多TB數(shù)據(jù)集)的分布式應(yīng)用在大型集群(數(shù)千個節(jié)點)以及可靠的容錯方式。 MapReduce程序可在Apache的開源框架Hadoop上運行。
      Hadoop分布式文件系統(tǒng)

      Hadoop分布式文件系統(tǒng)(HDFS)是基于谷歌文件系統(tǒng)(GFS),并提供了一個設(shè)計在普通硬件上運行的分布式文件系統(tǒng)。她與現(xiàn)有的分布式文件系統(tǒng)有許多相似之處。來自其他分布式文件系統(tǒng)的差別是顯著。她高度容錯并設(shè)計成部署在低成本的硬件。提供了高吞吐量的應(yīng)用數(shù)據(jù)訪問,并且適用于具有大數(shù)據(jù)集的應(yīng)用程序。

      除了上面提到的兩個核心組件,Hadoop的框架還包括以下兩個模塊_

    • Hadoop通用_這是Java庫和其他Hadoop組件所需的實用工具。
    • Hadoop YARN _這是作業(yè)調(diào)度和集群資源管理的框架。

      Hadoop如何工作?
      建立重配置,處理大規(guī)模處理服務(wù)器這是相當昂貴的,但是作為替代,可以聯(lián)系許多普通電腦采用單CPU在一起,作為一個單一功能的分布式系統(tǒng),實際上,集群機可以平行讀取數(shù)據(jù)集,并提供一個高得多的吞吐量。此外,這樣便宜不到一個高端服務(wù)器價格。因此使用Hadoop跨越集群和低成本的機器上運行是一個不錯的選擇。
      Hadoop運行整個計算機集群代碼。這個過程包括以下核心任務(wù)由 Hadoop 執(zhí)行_

      數(shù)據(jù)最初分為目錄和文件。文件分為128M和64M(128M最好)統(tǒng)一大小塊。

    • 然后這些文件被分布在不同的群集節(jié)點,以便進一步處理。
    • HDFS,本地文件系統(tǒng)的頂端﹑監(jiān)管處理。
    • 塊復制處理硬件故障。
    • 檢查代碼已成功執(zhí)行。
    • 執(zhí)行發(fā)生映射之間,減少階段的排序。
    • 發(fā)送排序的數(shù)據(jù)到某一計算機。為每個作業(yè)編寫的調(diào)試日志。

      Hadoop的優(yōu)勢

      Hadoop框架允許用戶快速地編寫和測試的分布式系統(tǒng)。有效并在整個機器和反過來自動分配數(shù)據(jù)和工作,利用CPU內(nèi)核的基本平行度。

    • Hadoop不依賴于硬件,以提供容錯和高可用性(FTHA),而Hadoop庫本身已被設(shè)計在應(yīng)用層可以檢測和處理故障。
    • 服務(wù)器可以添加或從集群動態(tài)刪除,Hadoop可繼續(xù)不中斷地運行。
    • Hadoop的的另一大優(yōu)勢在于,除了是開源的,因為她是基于Java并兼容所有的平臺。
    •  
      (文/企資小編)
      免責聲明
      本文僅代表作發(fā)布者:企資小編個人觀點,本站未對其內(nèi)容進行核實,請讀者僅做參考,如若文中涉及有違公德、觸犯法律的內(nèi)容,一經(jīng)發(fā)現(xiàn),立即刪除,需自行承擔相應(yīng)責任。涉及到版權(quán)或其他問題,請及時聯(lián)系我們刪除處理郵件:weilaitui@qq.com。