hivejoin优化(hivesql 优化)

本篇文章给大家谈谈hivejoin优化,以及hivesql 优化对应的知识点,希望对各位有所帮助,不要忘了收藏本站喔。

本文目录一览:

hive的Hive常用优化方法

join连接时的优化:当三个或多个以上的表进行join操作时,如果每个on使用相同的字段连接时只会产生一个mapreduce。join连接时的优化:当多个表进行查询时,从左到右表的大小顺序应该是从小到大。

压缩job的中间结果数据和输出数据,可以少量CPU时间节省出很多空间。

可以通过设置属性hive.exec.mode.local.auto的值为true,来让Hive在适当的时候自动启动这个优化,也可以将这个配置写在$HOME/.hiverc文件中。

解决方法1 : user_id为空的不参与关联 解决方法2 :赋与空值新的key值 结论: 方法2比方法1效率更好,不但io少了,而且作业数也少了。 解决方法1中 log读取两次,job是2。 解决方法2中 job数是1 。这个优化适合无效 id (比如 -99 , ”, null 等) 产生的倾斜问题。

对Hive表进行压缩是常见的优化手段,一些存储方式自带压缩选择,比如SEQUENCEFILE支持三种压缩选择:NONE,RECORD,BLOCK。Record压缩率低,一般建议使用BLOCK压缩; ORC支持三种压缩选择:NONE,ZLIB,SNAPPY。我们以TEXT存储方式和ORC存储方式为例,查看表的压缩情况。

关于hivejoin优化和hivesql 优化的介绍到此就结束了,不知道你从中找到你需要的信息了吗 ?如果你还想了解更多这方面的信息,记得收藏关注本站。

本站内容来自用户投稿,如果侵犯了您的权利,请与我们联系删除。联系邮箱:835971066@qq.com

本文链接:http://www.jijigongmeng.com/post/6986.html

发表评论

评论列表

还没有评论,快来说点什么吧~