hive常见优化（hive优化总结）_中企纳川（北京）建筑集团有限公司

今天给各位分享hive常见优化的知识，其中也会对hive优化总结进行解释，如果能碰巧解决你现在面临的问题，别忘了关注本站，现在开始吧！

本文目录一览：

1、5种让Hive查询变快的方法
2、Hive优化之Hive的配置参数优化
3、Hive优化的原则参考

5种让Hive查询变快的方法

transform+python 一种嵌入在hive取数流程中的自定义函数，通过transform语句可以把在hive中不方便实现的功能在python中实现，然后写入hive表中。示例语法如下：如果除python脚本外还有其它依赖资源，可以使用ADD ARVHIVE。

join连接时的优化：当三个或多个以上的表进行join操作时，如果每个on使用相同的字段连接时只会产生一个mapreduce。join连接时的优化：当多个表进行查询时，从左到右表的大小顺序应该是从小到大。

停止hiveserver2，MetaStore 服务；发现还有锁；查看hive应用进程 ps -ef|grep hive，全部杀掉，锁释放；然后删除NEXT_LOCK_ID一条记录；重启hiveserver2，MetaStore；查询hive 恢复正常。

要查看Hive版本，可以通过以下命令在Hive命令行界面中查询：hive --version 或者在终端中执行以下命令：hive --service version 执行以上命令后，Hive将返回当前安装的版本号。

在oracle中，如果你count某一列，应该是仅仅加载这一列，如果有索引啥的，直接在索引上统计了，当然很快。

hive常见优化（hive优化总结）

Hive优化之Hive的配置参数优化

可以通过设置属性hive.exec.mode.local.auto的值为true，来让Hive在适当的时候自动启动这个优化，也可以将这个配置写在$HOME/.hiverc文件中。

（二）数据倾斜的解决方案参数调节 hive.map.aggr=true Map 端部分聚合，相当于Combiner hive.groupby.skewindata=true 有数据倾斜的时候进行负载均衡，当选项设定为true，生成的查询计划会有两个 MR Job。

设置属性即可实现，set hive.auto.covert.join=true；用户可以配置希望被优化的小表的大小 set hive.mapjoin.smalltable.size=2500000；如果需要使用这两个配置可置入$HOME/.hiverc文件中。

Hive的优化需要结合具体情况进行分析和优化，可以从数据分区、建立索引和优化查询等方面入手。通过合理配置硬件、调整优化参数，以及优化HiveQL语句等操作，可以提高查询的执行效率和准确性。

Hive提供了一个严格模式，可以防止用户执行那些可能意想不到的不好的影响查询。通过设置属性hive.mapred.mode值为默认是非严格格式nonstrict。

Hive优化的原则参考

特殊情况特殊处理：在业务逻辑优化效果的不大情况下，有些时候是可以将倾斜的数据单独拿出来处理，最后union回去。

表连接优化用insert into替换union all 如果union all的部分个数大于2，或者每个union部分数据量大，应该拆成多个insert into 语句，实际测试过程中，执行时间能提升50%。

要使用基于成本的优化（也称为CBO），请在查询开头设置以下参数然后，通过运行Hive的“analyze”命令为CBO准备数据，以收集我们想要使用CBO的表的各种统计信息。

对Hive表进行压缩是常见的优化手段，一些存储方式自带压缩选择，比如SEQUENCEFILE支持三种压缩选择：NONE，RECORD，BLOCK。Record压缩率低，一般建议使用BLOCK压缩； ORC支持三种压缩选择：NONE，ZLIB，SNAPPY。

hive常见优化的介绍就聊到这里吧，感谢你花时间阅读本站内容，更多关于hive优化总结、hive常见优化的信息别忘了在本站进行查找喔。

hive常见优化（hive优化总结）

本文目录一览：

5种让Hive查询变快的方法

Hive优化之Hive的配置参数优化

Hive优化的原则参考

发表评论

评论列表

最新发布

c语言必背代码（c语言必背代码单词及意思）

vue.js设计与实现豆瓣（vuejs实战豆瓣）

python选择排序算法代码不用maxmin（python选择排序和冒泡排序）

sqlserver免费版本（sqlserver免费版本代理启动失）

hive存储格式有哪些（hive的存储结构）

链表结构c语言（链表c语言经典例题）

db后缀的文件能删吗（后缀db文件用什么软件打开）

心脏qt间期延长的症状（心脏qt间延长怎么治疗）

热门文章

热评文章

猜您喜欢

热门标签

hive常见优化（hive优化总结）

本文目录一览：

5种让Hive查询变快的方法

Hive优化之Hive的配置参数优化

Hive优化的原则参考

相关文章

发表评论

评论列表

最新发布

c语言必背代码（c语言必背代码单词及意思）

vue.js设计与实现豆瓣（vuejs实战豆瓣）

python选择排序算法代码不用maxmin（python选择排序和冒泡排序）

sqlserver免费版本（sqlserver免费版本代理启动失）

hive存储格式有哪些（hive的存储结构）

链表结构c语言（链表c语言经典例题）

db后缀的文件能删吗（后缀db文件用什么软件打开）

心脏qt间期延长的症状（心脏qt间延长怎么治疗）

热门文章

热评文章

猜您喜欢

热门标签