

版權說明:本文檔由用戶提供并上傳,收益歸屬內容提供方,若內容存在侵權,請進行舉報或認領
文檔簡介
1、大數據技術原理及應用 大數據技術原理及應用大數據處理架構— 大數據處理架構—Hadoop Hadoop 簡介 簡介Hadoop 項目包括了很多子項目,結構如下圖? Common Common原名:Core,包含 HDFS, MapReduce 和其他公共項目,從 Hadoop 0.21 版本后,HDFS 和MapReduce 分離出去,其余部分內容構成 Hadoop Common。Common 為其他子項目提供支持的常用工具,主要包括文
2、件系統、RPC(Remote procedure call) 和串行化庫。? Avro AvroAvro 是用于數據序列化的系統。它提供了豐富的數據結構類型、快速可壓縮的二進制數據格式、 存儲持久性數據的文件集、 遠程調用 RPC 的功能和簡單的動態(tài)語言集成功能。 其中,代碼生成器既不需要讀寫文件數據,也不需要使用或實現 RPC 協議,它只是一個可選的對靜態(tài)類型語言的實現。 Avro 系統依賴于模式 (Schema) ,Avro 數據的
3、讀和寫是在模式之下完成的。這樣就可以減少寫入數據的開銷,提高序列化的速度并縮減其大小。Avro 可以將數據結構或對象轉化成便于存儲和傳輸的格式,節(jié)約數據存儲空間和網絡傳輸帶寬,Hadoop 的其他子項目(如 HBase 和 Hive)的客戶端和服務端之間的數據傳輸。? HDFS HDFSHDFS:是一個分布式文件系統,為 Hadoop 項目兩大核心之一,是 Google file system(GFS)的開源實現。由于 HDFS 具有高
4、容錯性(fault-tolerant)的特點,所以可以設計部署在低廉(low-cost) 的硬件上。 它可以通過提供高吞吐率 (high throughput) 來訪問應用程序的數據,適合那些有著超大數據集的應用程序。HDFS 放寬了可移植操作系統接口(POSIX,PortableOperating System Interface )的要求,這樣就可以實現以流的形式訪問文件系統中的數據。了靈活且強大的工具,用于顯示、監(jiān)視和分析數據結果
5、,以便更好地利用所收集的數據。大數據存儲 大數據存儲存儲的講解分為四部分:HDFS, HBase, NoSQL 和云數據庫HDFS HDFS分布式文件系統簡介 分布式文件系統簡介相對于傳統的本地文件系統而言, 分布式文件系統是一種通過網絡實現文件在多臺計算機上進行分布式存儲的文件系統。分布式文件系統的設計一般采用“客戶機 /服務器”(client/server)模式,客戶端以特定的通信協議通過網絡與服務器建立連接,提出文件訪問請求,客戶
6、端和服務器可以通過設置訪問權來限制請求方對底層數據存儲快的訪問。在我們所熟悉的 Windows、 Linux 操作系統中, 文件系統一般會把磁盤空間劃分為每 512字節(jié)一組,稱為“磁盤塊” ,它是文件系統讀寫操作的最小單位,文件系統的塊( block)通常是磁盤塊的整數倍,即每次讀寫的數據量必須是磁盤塊大小的整數倍。分布式文件系統也采用了塊的概念,HDFS 默認的一個塊的大小為 64MB。與普通文件不同的是, 在分布式文件系統中, 如果
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯系上傳者。文件的所有權益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網頁內容里面會有圖紙預覽,若沒有圖紙預覽就沒有圖紙。
- 4. 未經權益所有人同意不得將文件中的內容挪作商業(yè)或盈利用途。
- 5. 眾賞文庫僅提供信息存儲空間,僅對用戶上傳內容的表現方式做保護處理,對用戶上傳分享的文檔內容本身不做任何修改或編輯,并不能對任何下載內容負責。
- 6. 下載文件中如有侵權或不適當內容,請與我們聯系,我們立即糾正。
- 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。
評論
0/150
提交評論