隨著Apache Hadoop的起步,云客戶的增多面臨的首要問題就是如何為他們新的的Hadoop集群選擇合適的硬件。
盡管Hadoop被設(shè)計為運行在行業(yè)標(biāo)準(zhǔn)的硬件上,提出一個理想的集群配置不想提供硬件規(guī)格列表那么簡單。 選擇硬件,為給定的負(fù)載在性能和經(jīng)濟性提供最佳平衡是需要測試和驗證其有效性。(比如,IO密集型工作負(fù)載的用戶將會為每個核心主軸投資更多)。
在這個博客帖子中,你將會學(xué)到一些工作負(fù)載評估的原則和它在硬件選擇中起著至關(guān)重要的作用。在這個過程中,你也將學(xué)到Hadoop管理員應(yīng)該考慮到各種因素。
結(jié)合存儲和計算
過去的十年,IT組織已經(jīng)標(biāo)準(zhǔn)化了刀片服務(wù)器和存儲區(qū)域網(wǎng)(SAN)來滿足聯(lián)網(wǎng)和處理密集型的工作負(fù)載。盡管這個模型對于一些方面的標(biāo)準(zhǔn)程序是有相當(dāng)意義 的,比如網(wǎng)站服務(wù)器,程序服務(wù)器,小型結(jié)構(gòu)化數(shù)據(jù)庫,數(shù)據(jù)移動等,但隨著數(shù)據(jù)數(shù)量和用戶數(shù)的增長,對于基礎(chǔ)設(shè)施的要求也已經(jīng)改變。網(wǎng)站服務(wù)器現(xiàn)在有了緩存 層;數(shù)據(jù)庫需要本地硬盤支持大規(guī)模地并行;數(shù)據(jù)遷移量也超過了本地可處理的數(shù)量。
















