网站首页娱乐新闻焦点新闻历史秘闻社会百态技术文章科技资讯其他资讯女性专栏

首页 > 网络文摘 > 正文

打造基于hadoop的网站日志分析系统（5）之spark在日志分析系统里的简单应用

浏览数：23 / 时间：2015年06月09日

1.下载spark和运行

wget http://apache.fayea.com/apache-mirror/spark/spark-1.0.0/spark-1.0.0-bin-hadoop2.tgz

我这里下载的是1.0.0版,由于我们只是测试spark的用法所以不需要配置spark集群，只需把下好的文件解压，进入bin/文件夹。

spark支持scala，java和python。

scala和java输入命令：./spark-shell python 输入命令 ./pyspark 进入控制台，我们以python为例：

很简单无需任何配置，好的开始是成功的一半，我们继续。

2.简单应用

读取文本文件,我们还是以之前的日志文件为例：

>>>file = sc.textFile("/home/hadoop/20130207.txt")

PS:python是大小写敏感的；路径要给全，否则默认是你运行命令时的那个路径；python2.7.X版本对编码支持一直是个问题，请尽量统一源文件的编码，如"utf-8".

显示总行数:

>>> file.count()

265063

显示第一行内容：

>>>file.first()

得到所有被ie8访问的url的计数：

>>>file.filter(lambda line : "MSIE 8.0" in line).count()

98670

Ps: lambda 是匿名函数的写法；filter默认输入的是整行，上述代码的意思遍历每一行并计算出包含“MSIE 8.0”字符串的行数和。

得到拥有最多字段数的那行的字段个数：

>>> file.map(lambda line : len(line.split("|"))).reduce(lambda a,b: a if a>b else b )

Ps:map(lambda line : len(line.split("|")))是把每行分割成集合并返回集合的成员数；

python中的reduce内建函数是一个二元操作函数，他用来将一个数据集合（链表，元组等）中的所有数据进行下列操作：用传给reduce中的函数 func()（必须是一个二元操作函数）先对集合中的第1，2个数据进行操作，得到的结果再与第三个数据用func()函数运算，最后得到一个结果。

统计每个字符串（字段内容）出现的次数：

file.flatMap(lambda line :line.split("|")).map(lambda word:(word,1)).reduceByKey(lambda a,b:a+b).collect()

结果显示的数据太多了，精神崩溃~~，换个方式~

统计每个字符串（字段内容）出现的次数，并显示出现最多个10个字符串：

>>>file.flatMap(lambda line :line.split("|")).map(lambda word:(word,1)).reduceByKey(lambda a,b:a+b).map(lambda (k,v):(v,k)).sortByKey().top(10）

sortByKey是根据键值排序，top是提取前X个记录，跟hive中的limit 类似。由于spark中没有sortByValue方法，所以在排序前先把key和value互换。

打造基于hadoop的网站日志分析系统（5）之spark在日志分析系统里的简单应用,古老的榕树,5-wow.com

郑重声明：本站内容如果来自互联网及其他传播媒体，其版权均属原媒体及文章作者所有。转载目的在于传递更多信息及用于网络分享，并不代表本站赞同其观点和对其真实性负责，也不构成任何其他建议。

打造基于hadoop的网站日志分析系统（5）之spark在日志分析系统里的简单应用

标签：代码 style java sp 问题文件代码 style java sp 问题文件

相关文章

随机文章

您可能还喜欢

您可能还喜欢

最新图文

更多

可爱穿搭很重要

可爱穿搭很重要

工藤美樱写真集

工藤美樱写真集

斯米兰海水是真不错

斯米兰海水是真不错

海边想拍氛围照

海边想拍氛围照

海岛度假

海岛度假

甜妹 ootd 穿搭

甜妹 ootd 穿搭

在大‮的理‬日‮就子‬是在‮海洱‬边发‬发呆

在大‮的理‬日‮就子‬是在‮海洱‬边发‬发呆

7080后儿时集体回忆插画

7080后儿时集体回忆插画

西安子午峪满山的白杜鹃太美了

西安子午峪满山的白杜鹃太美了

职业模特拍摄省事很多

职业模特拍摄省事很多

您可能还喜欢

更多

韩国票选亚洲最美女神排行榜

韩国票选亚洲最美女神排行榜

特斯拉电动车图集

特斯拉电动车图集

深圳富豪轰动澳洲买豪宅开派对会巨星

深圳富豪轰动澳洲买豪宅开派对会巨星

安倍在寿司店请奥巴马喝酒

安倍在寿司店请奥巴马喝酒

广州海陆空盛筵开场比基尼美女助阵

广州海陆空盛筵开场比基尼美女助阵

小偷刺业主3刀民警赶到时躺地上装死

小偷刺业主3刀民警赶到时躺地上装死

长春刘老根大舞台不雅泥塑被拆

长春刘老根大舞台不雅泥塑被拆

乌鲁木齐一早市发生爆炸

乌鲁木齐一早市发生爆炸

世界美女地图个个都十分美丽身材惹火性感

世界美女地图个个都十分美丽身材惹火性感

广州一大学中外学生过泼水节女生湿身

广州一大学中外学生过泼水节女生湿身

您可能还喜欢

更多

工藤美樱写真集

工藤美樱写真集

货车侧翻市民：不抢是傻子

货车侧翻市民：不抢是傻子

东北花袄

东北花袄

启功书法部分欣赏

启功书法部分欣赏

小众海滩试拍

小众海滩试拍

实拍明代干尸开棺全过程(图)

实拍明代干尸开棺全过程(图)

北影表演系花微博晒照：关之琳+杨幂合体

北影表演系花微博晒照：关之琳+杨幂合体

全球最贵劳斯莱斯SUV或定名“库利南”

全球最贵劳斯莱斯SUV或定名“库利南”

男子在背上刺《清明上河图》历时7天完成

男子在背上刺《清明上河图》历时7天完成

海南岛试拍

海南岛试拍