网站首页娱乐新闻焦点新闻历史秘闻社会百态技术文章科技资讯其他资讯女性专栏

首页 > 网络文摘 > 正文

同事总结的hivesql优化Hive是将符合SQL语法的字符串解析生成可以在Hadoop上执行的M

浏览数：28 / 时间：2015年06月12日

同事总结的hive sql 优化

　　Hive是将符合SQL语法的字符串解析生成可以在Hadoop上执行的MapReduce的工具。

　　使用Hive尽量按照分布式计算的一些特点来设计sql，和传统关系型数据库有区别，

　　所以需要去掉原有关系型数据库下开发的一些固有思维。

　　基本原则：

　　1：尽量尽早地过滤数据，减少每个阶段的数据量,对于分区表要加分区，同时只选择需要使用到的字段

　　select ... from A

　　join B

　　on A.key = B.key

　　where A.userid>10

　　and B.userid<10

　　and A.dt=‘20120417‘

　　and B.dt=‘20120417‘;

　　应该改写为：

　　select .... from (select .... from A

　　where dt=‘201200417‘

　　and userid>10

　　) a

　　join ( select .... from B

　　where dt=‘201200417‘

　　and userid < 10　

　　) b

　　on a.key = b.key;

　　2：尽量原子化操作，尽量避免一个SQL包含复杂逻辑

　　可以使用中间表来完成复杂的逻辑

　　drop table if exists tmp_table_1;

　　create table if not exists tmp_table_1 as

　　select ......;

　　drop table if exists tmp_table_2;

　　create table if not exists tmp_table_2 as

　　select ......;

　　drop table if exists result_table;

　　create table if not exists result_table as

　　select ......;

　　drop table if exists tmp_table_1;

　　drop table if exists tmp_table_2;

　　3：单个SQL所起的JOB个数尽量控制在5个以下

　　4：慎重使用mapjoin,一般行数小于2000行，大小小于1M(扩容后可以适当放大)的表才能使用,小表要注意放在join的左边（目前TCL里面很多都小表放在join的右边）。

　　否则会引起磁盘和内存的大量消耗

　　5：写SQL要先了解数据本身的特点，如果有join ,group操作的话，要注意是否会有数据倾斜

　　如果出现数据倾斜，应当做如下处理：

　　set hive.exec.reducers.max=200;

　　set mapred.reduce.tasks= 200;---增大Reduce个数

　　set hive.groupby.mapaggr.checkinterval=100000 ;--这个是group的键对应的记录条数超过这个值则会进行分拆,值根据具体数据量设置

　　set hive.groupby.skewindata=true; --如果是group by过程出现倾斜应该设置为true

　　set hive.skewjoin.key=100000; --这个是join的键对应的记录条数超过这个值则会进行分拆,值根据具体数据量设置

　　set hive.optimize.skewjoin=true;--如果是join 过程出现倾斜应该设置为true

　　6：如果union all的部分个数大于2，或者每个union部分数据量大，应该拆成多个insert into 语句，实际测试过程中，执行时间能提升50%

　　insert overwite table tablename partition (dt= ....)

　　select ..... from (

　　select ... from A

　　union all

　　select ... from B

　　union all

　　select ... from C

　　) R

　　where ...;

　　可以改写为：

　　insert into table tablename partition (dt= ....)

　　select .... from A

　　WHERE ...;

　　insert into table tablename partition (dt= ....)

　　select .... from B

　　WHERE ...;

　　insert into table tablename partition (dt= ....)

　　select .... from C

　　WHERE ...;

郑重声明：本站内容如果来自互联网及其他传播媒体，其版权均属原媒体及文章作者所有。转载目的在于传递更多信息及用于网络分享，并不代表本站赞同其观点和对其真实性负责，也不构成任何其他建议。

同事总结的hivesql优化Hive是将符合SQL语法的字符串解析生成可以在Hadoop上执行的M

标签： style 使用数据 si it ha 时间 io res style 使用数据 si it ha 时间 io res

相关文章

随机文章

您可能还喜欢

您可能还喜欢

最新图文

更多

可爱穿搭很重要

可爱穿搭很重要

工藤美樱写真集

工藤美樱写真集

斯米兰海水是真不错

斯米兰海水是真不错

海边想拍氛围照

海边想拍氛围照

海岛度假

海岛度假

甜妹 ootd 穿搭

甜妹 ootd 穿搭

在大‮的理‬日‮就子‬是在‮海洱‬边发‬发呆

在大‮的理‬日‮就子‬是在‮海洱‬边发‬发呆

7080后儿时集体回忆插画

7080后儿时集体回忆插画

西安子午峪满山的白杜鹃太美了

西安子午峪满山的白杜鹃太美了

职业模特拍摄省事很多

职业模特拍摄省事很多

您可能还喜欢

更多

周杰伦的新婚妻子昆凌

周杰伦的新婚妻子昆凌

东莞孝子举刀弑母后的90个日与夜

东莞孝子举刀弑母后的90个日与夜

60后大叔成功求婚90后萝莉

60后大叔成功求婚90后萝莉

肇庆一婴儿头部撞入煲里被热粥烫伤

肇庆一婴儿头部撞入煲里被热粥烫伤

模特精选

模特精选

Chinajoy 部分精选

Chinajoy 部分精选

斯米兰海水是真不错

斯米兰海水是真不错

美国小姐著比基尼参加水上排球大赛

美国小姐著比基尼参加水上排球大赛

广州一大学中外学生过泼水节女生湿身

广州一大学中外学生过泼水节女生湿身

网红赵喵喵

网红赵喵喵

您可能还喜欢

更多

吴莫愁发新片谈李代沫动情落泪：等他回来

吴莫愁发新片谈李代沫动情落泪：等他回来

乌克兰芭比娃美女

乌克兰芭比娃美女

刘亦菲神仙姐姐十年颜值一直在线

刘亦菲神仙姐姐十年颜值一直在线

中国美女城市排行：哈尔滨第一北京未入榜

中国美女城市排行：哈尔滨第一北京未入榜

沈尹默书法

沈尹默书法

印度诞生罕见双头女婴 “第二头颅”长在肚子上

印度诞生罕见双头女婴 “第二头颅”长在肚子上

东北花袄

东北花袄

印度火车出轨已致34死150伤

印度火车出轨已致34死150伤

李敏镐图片精选

李敏镐图片精选

杨紫琼在奥斯卡的高光时刻

杨紫琼在奥斯卡的高光时刻