項目實戰案例:搜狗日志查詢分析
為廣陵等地區用戶提供了全套網頁設計制作服務,及廣陵網站建設行業解決方案。主營業務為網站制作、做網站、廣陵網站設計,以傳統方式定制建設網站,并提供域名空間備案等一條龍服務,秉承以專業、用心的態度為用戶提供真誠的服務。我們深信只要達到每一位用戶的要求,就會得到認可,從而選擇與我們長期合作。這樣,我們也可以走得更遠!
一、電商大數據平臺整體架構
1、大數據(Hadoop、Spark、Hive)都是一種數據倉庫的實現方式
核心問題:數據存儲、數據計算
什么是數據倉庫?傳統的解決大數據的方式,就是一個數據庫
一般只做查詢
2、大數據平臺整體的架構
部署:Apache、Ambari(HDP)、CDH
二、在項目中使用使用瀑布模型(軟件工程:方法論)
1、瀑布模型幾個階段?
2、每個階段完成的任務
三、使用MapReduce進行分析處理(Java程序)
1、MapReduce的基本原理(編程模型)
() 思想來源:Google的論文:MapReduce 問題 PageRank(網頁排名)
() 先拆分、再合并-----> 分布式計算
2、使用MapReduce進行日志分析
四、使用Spark進行分析和處理(Scala語言、Java語言)
1、Spark的優點和體系架構
2、使用Scala開發Spark任務進行日志分析
bin/spark-shell --master spark://bigdata11:7077
val rdd1 = sc.textFile("hdfs://mydemo71:8020/myproject/data/SogouQ1.txt")
val rdd2=rdd1.map(_.split("\t")).filter(_.length==6)
rdd2.count()
val rdd3=rdd2.filter(_(3).toInt==1).filter(_(4).toInt==2)
rdd3.count()
rdd3.take(3)
五、使用Hive(蜂巢)進行分析和處理
1、什么是Hive?特點?Hive體系結構
是基于HDFS之上的數據倉庫
支持SQL語句
是翻譯器:SQL ----> MapReduce(Spark任務)
2、使用Hive進行查詢操作
① 創建Hive對應的表
create table sogoulog(accesstime string,useID string,keyword string,no1 int,clickid int,url string) row format delimited fields terminated by ',';
** ② 將原始數據進行清洗:因為有些不滿足長度為6
val rdd1 = sc.textFile("hdfs://mydemo71:8020/myproject/data/SogouQ1.txt")
val rdd2=rdd1.map(_.split("\t")).filter(_.length==6)
val rdd3 = rdd2.map(x=>x.mkString(",")) 這里需要注意轉成字符串
rdd3.saveAsTextFile("hdfs://mydemo71:8020/myproject/cleandata/sogou")
** ③ 將清洗后的數據導入Hive
load data inpath '/myproject/cleandata/sogou/part-00000' into table sogoulog;
load data inpath '/myproject/cleandata/sogou/part-00001' into table sogoulog;
④ 使用SQL查詢滿足條件的數據(只顯示前10條)**
select * from sogoulog where no1=1 and clickid=2 limit 10;**
查詢10號部門 工資大于2000的員工 很多人都知道我有大數據培訓資料,都天真的以為我有全套的大數據開發、hadoop、spark等視頻學習資料。我想說你們是對的,我的確有大數據開發、hadoop、spark的全套視頻資料。
如果你對大數據開發感興趣可以加口群領取免費學習資料: 763835121
標題名稱:MapReduce的思想
標題網址:http://m.kartarina.com/article34/pihsse.html
成都網站建設公司_創新互聯,為您提供用戶體驗、營銷型網站建設、微信公眾號、域名注冊、企業網站制作、網站收錄
聲明:本網站發布的內容(圖片、視頻和文字)以用戶投稿、用戶轉載內容為主,如果涉及侵權請盡快告知,我們將會在第一時間刪除。文章觀點不代表本網站立場,如需處理請聯系客服。電話:028-86922220;郵箱:631063699@qq.com。內容未經允許不得轉載,或轉載時需注明來源: 創新互聯