[北京] CPyUG会课总第45次北京地区2011年第1次,4月17日搜狐网络大厦聚会征集
地点: 搜狐网络大厦8层四海会议室 地图
感谢qyb老大的努力,搜狐邮件中心为这次活动提供各种支持。
已有Topic:
Pvinsight,是搜狐内部针对日志访问的统计系统,该系统负责为各个频道运营过程中收集可量化数据,提供客观数据的分析,指导市场决策。
系统采用python来进行日志统计与分析。通过"Pingback"机制,记录的用户访问日志,提取访问用户的若干业务属性数据;利用"分时"与"分治"
的思想,定义了一系列有利于运算的数据结构,解决了大数据量的处理需求。
统计项主要包括:
1、各频道流量: 独立访客数(unique visitor(UV)) 和 页面的浏览量(page view(PV))。
2、url相关分析:单条url的流量,受访与作为来源的urltop值等。
3、seo相关分析:关键字,搜索引擎,以及频道流量转化等。
4、连续访问分析: 用户在搜狐站内访问路径进行相关分析等。
浮云脱水小说站,网站主要功能是实现百度贴吧以及天涯社区的长篇连载贴的“脱水”功能。前端web展示使用了web.py,后端任务抓取主要用到的东西有BeautifulSoup(解析页面用)、Twisted(驱动爬虫以及维持一个实时显示抓取进度的长连接)
现征集更多的topic,希望有更多愿意分享最近学习经验的朋友,谢谢
转自 python-cn 邮件列表,作者:jondynet@gmail.com
郑重声明:本站内容如果来自互联网及其他传播媒体,其版权均属原媒体及文章作者所有。转载目的在于传递更多信息及用于网络分享,并不代表本站赞同其观点和对其真实性负责,也不构成任何其他建议。