Hadoop面試試題
在日復(fù)一日的學(xué)習(xí)、工作生活中,我們會經(jīng)常接觸并使用試題,試題可以幫助學(xué)?;蚋髦鬓k方考察參試者某一方面的知識才能。你知道什么樣的試題才能切實地幫助到我們嗎?以下是小編整理的Hadoop面試試題,僅供參考,歡迎大家閱讀。
一、什么是Hadoop?
Hadoop是一個開源軟件框架,用于存儲大量數(shù)據(jù),并發(fā)處理/查詢在具有多個商用硬件(即低成本硬件)節(jié)點的集群上的那些數(shù)據(jù)??傊?,Hadoop包括以下內(nèi)容:
HDFS(Hadoop Distributed File System,Hadoop分布式文件系統(tǒng)):HDFS允許你以一種分布式和冗余的方式存儲大量數(shù)據(jù)。例如,1 GB(即1024 MB)文本文件可以拆分為16 * 128MB文件,并存儲在Hadoop集群中的8個不同節(jié)點上。每個分裂可以復(fù)制3次,以實現(xiàn)容錯,以便如果1個節(jié)點故障的話,也有備份。HDFS適用于順序的“一次寫入、多次讀取”的類型訪問。
MapReduce:一個計算框架。它以分布式和并行的方式處理大量的數(shù)據(jù)。當(dāng)你對所有年齡> 18的用戶在上述1 GB文件上執(zhí)行查詢時,將會有“8個映射”函數(shù)并行運行,以在其128 MB拆分文件中提取年齡> 18的用戶,然后“reduce”函數(shù)將運行以將所有單獨的輸出組合成單個最終結(jié)果。
YARN(Yet Another Resourc ……此處隱藏184個字……安裝配置一個apache開源版hadoop,只描述即可,無需列出完整步驟,能列出步驟更好。
1、安裝JDK并配置環(huán)境變量(/etc/profile);
2、關(guān)閉防火墻;
3、配置hosts文件,方便hadoop通過主機名訪問(/etc/hosts);
4、設(shè)置ssh免密碼登錄;
5、解壓縮hadoop安裝包,并配置環(huán)境變量;
6、修改配置文件($HADOOP_HOME/conf);hadoop-env.sh core-site.xml hdfs-site.xml mapred-site.xml;
7、格式化hdfs文件系統(tǒng)(hadoop namenode-format);
8、啟動hadoop($HADOOP_HOME/bin/start-all.sh);
9、使用jps查看進程。
五、請列出正常工作的hadoop集群中hadoop都分別需要啟動那些進程,他們的作用分別是什么,盡可能寫的全面些。
1、NameNode: HDFS的守護進程,負責(zé)記錄文件是如何分割成數(shù)據(jù)塊,以及這些數(shù)據(jù)塊分別被存儲到那些數(shù)據(jù)節(jié)點上,它的主要功能是對內(nèi)存及IO進行集中管理。
2、Secondary NameNode:輔助后臺程序,與NameNode進行通信,以便定期保存HDFS元數(shù)據(jù)的快照。
3、DataNode:負責(zé)把HDFS數(shù)據(jù)塊讀寫到本地的文件系統(tǒng)。
4、JobTracker:負責(zé)分配task,并監(jiān)控所有運行的task。
5、TaskTracker:負責(zé)執(zhí)行具體的task,并與JobTracker進行交互。