国产精品福利在线,成人羞羞视频国产

一文詳解HiveSQL執(zhí)行計(jì)劃

2021-06-21 10:43

Hive SQL的執(zhí)行計(jì)劃描述SQL實(shí)際執(zhí)行的整體輪廓，通過(guò)執(zhí)行計(jì)劃能了解SQL程序在轉(zhuǎn)換成相應(yīng)計(jì)算引擎的執(zhí)行邏輯，掌握了執(zhí)行邏輯也就能更好地把握程序出現(xiàn)的瓶頸點(diǎn)，從而能夠?qū)崿F(xiàn)更有針對(duì)性的優(yōu)化�？梢哉f(shuō)執(zhí)行計(jì)劃是打開(kāi)SQL優(yōu)化大門(mén)的一把鑰匙。

要想學(xué)SQL執(zhí)行計(jì)劃，就需要學(xué)習(xí)查看執(zhí)行計(jì)劃的命令：explain，在查詢語(yǔ)句的SQL前面加上關(guān)鍵字explain是查看執(zhí)行計(jì)劃的基本方法。

學(xué)會(huì)explain，能夠給我們工作中使用hive帶來(lái)極大的便利！

查看SQL的執(zhí)行計(jì)劃

Hive提供的執(zhí)行計(jì)劃目前可以查看的信息有以下幾種：

explain：查看執(zhí)行計(jì)劃的基本信息；

explain dependency：dependency在explain語(yǔ)句中使用會(huì)產(chǎn)生有關(guān)計(jì)劃中輸入的額外信息。它顯示了輸入的各種屬性；

explain authorization：查看SQL操作相關(guān)權(quán)限的信息；

explain vectorization：查看SQL的向量化描述信息，顯示為什么未對(duì)Map和Reduce進(jìn)行矢量化。從 Hive 2．3．0 開(kāi)始支持；

explain analyze：用實(shí)際的行數(shù)注釋計(jì)劃。從 Hive 2．2．0 開(kāi)始支持；

explain cbo：輸出由Calcite優(yōu)化器生成的計(jì)劃。CBO 從 Hive 4．0．0 版本開(kāi)始支持；

explain locks：這對(duì)于了解系統(tǒng)將獲得哪些鎖以運(yùn)行指定的查詢很有用。LOCKS 從 Hive 3．2．0 開(kāi)始支持；

explain ast：輸出查詢的抽象語(yǔ)法樹(shù)。AST 在 Hive 2．1．0 版本刪除了，存在bug，轉(zhuǎn)儲(chǔ)AST可能會(huì)導(dǎo)致OOM錯(cuò)誤，將在4．0．0版本修復(fù)；

explain extended：加上 extended 可以輸出有關(guān)計(jì)劃的額外信息。這通常是物理信息，例如文件名，這些額外信息對(duì)我們用處不大；

1． explain 的用法

Hive提供了explain命令來(lái)展示一個(gè)查詢的執(zhí)行計(jì)劃，這個(gè)執(zhí)行計(jì)劃對(duì)于我們了解底層原理，Hive 調(diào)優(yōu)，排查數(shù)據(jù)傾斜等很有幫助。

使用語(yǔ)法如下：

explain query；

在 hive cli 中輸入以下命令（hive 2．3．7）：

explain select sum（id） from test1；

得到結(jié)果：

STAGE DEPENDENCIES：
Stage－1 is a root stage
Stage－0 depends on stages： Stage－1
STAGE PLANS：
Stage： Stage－1
Map Reduce
Map Operator Tree：
TableScan
alias： test1
Statistics： Num rows： 6 Data size： 75 Basic stats： COMPLETE Column stats： NONE
Select Operator
expressions： id （type： int）
outputColumnNames： id
Statistics： Num rows： 6 Data size： 75 Basic stats： COMPLETE Column stats： NONE
Group By Operator
aggregations： sum（id）
mode： hash
outputColumnNames：＿col0
Statistics： Num rows： 1 Data size： 8 Basic stats： COMPLETE Column stats： NONE
Reduce Output Operator
sort order：
Statistics： Num rows： 1 Data size： 8 Basic stats： COMPLETE Column stats： NONE
value expressions：＿col0 （type： bigint）
Reduce Operator Tree：
Group By Operator
aggregations： sum（VALUE．＿col0）
mode： mergepartial
outputColumnNames：＿col0
Statistics： Num rows： 1 Data size： 8 Basic stats： COMPLETE Column stats： NONE
File Output Operator
compressed： false
Statistics： Num rows： 1 Data size： 8 Basic stats： COMPLETE Column stats： NONE
table：
input format： org．a(chǎn)pache．hadoop．mapred．SequenceFileInputFormat
output format： org．a(chǎn)pache．hadoop．hive．ql．io．HiveSequenceFileOutputFormat
serde： org．a(chǎn)pache．hadoop．hive．serde2．lazy．LazySimpleSerDe
Stage： Stage－0
Fetch Operator
limit：－1
Processor Tree：
ListSink

看完以上內(nèi)容有什么感受，是不是感覺(jué)都看不懂，不要著急，下面將會(huì)詳細(xì)講解每個(gè)參數(shù)，相信你學(xué)完下面的內(nèi)容之后再看 explain 的查詢結(jié)果將游刃有余。

一個(gè)HIVE查詢被轉(zhuǎn)換為一個(gè)由一個(gè)或多個(gè)stage組成的序列（有向無(wú)環(huán)圖DAG）。這些stage可以是MapReduce stage，也可以是負(fù)責(zé)元數(shù)據(jù)存儲(chǔ)的stage，也可以是負(fù)責(zé)文件系統(tǒng)的操作（比如移動(dòng)和重命名）的stage。

我們將上述結(jié)果拆分看，先從最外層開(kāi)始，包含兩個(gè)大的部分：

stage dependencies：各個(gè)stage之間的依賴性stage plan：各個(gè)stage的執(zhí)行計(jì)劃

先看第一部分 stage dependencies ，包含兩個(gè) stage，Stage－1 是根stage，說(shuō)明這是開(kāi)始的stage，Stage－0 依賴 Stage－1，Stage－1執(zhí)行完成后執(zhí)行Stage－0。

再看第二部分 stage plan，里面有一個(gè) Map Reduce，一個(gè)MR的執(zhí)行計(jì)劃分為兩個(gè)部分：

Map Operator Tree：MAP端的執(zhí)行計(jì)劃樹(shù)Reduce Operator Tree：Reduce端的執(zhí)行計(jì)劃樹(shù)

這兩個(gè)執(zhí)行計(jì)劃樹(shù)里面包含這條sql語(yǔ)句的 operator：

TableScan：表掃描操作，map端第一個(gè)操作肯定是加載表，所以就是表掃描操作，常見(jiàn)的屬性：alias：表名稱Statistics：表統(tǒng)計(jì)信息，包含表中數(shù)據(jù)條數(shù)，數(shù)據(jù)大小等Select Operator：選取操作，常見(jiàn)的屬性：expressions：需要的字段名稱及字段類型outputColumnNames：輸出的列名稱Statistics：表統(tǒng)計(jì)信息，包含表中數(shù)據(jù)條數(shù)，數(shù)據(jù)大小等Group By Operator：分組聚合操作，常見(jiàn)的屬性：aggregations：顯示聚合函數(shù)信息mode：聚合模式，值有 hash：隨機(jī)聚合，就是hash partition；partial：局部聚合；final：最終聚合keys：分組的字段，如果沒(méi)有分組，則沒(méi)有此字段outputColumnNames：聚合之后輸出列名Statistics：表統(tǒng)計(jì)信息，包含分組聚合之后的數(shù)據(jù)條數(shù)，數(shù)據(jù)大小等Reduce Output Operator：輸出到reduce操作，常見(jiàn)屬性：sort order：值為空不排序；值為＋正序排序，值為－倒序排序；值為＋－排序的列為兩列，第一列為正序，第二列為倒序Filter Operator：過(guò)濾操作，常見(jiàn)的屬性：predicate：過(guò)濾條件，如sql語(yǔ)句中的where id＞＝1，則此處顯示（id ＞＝ 1）Map Join Operator：join 操作，常見(jiàn)的屬性：condition map：join方式，如Inner Join 0 to 1 Left Outer Join0 to 2keys： join 的條件字段outputColumnNames：join 完成之后輸出的字段Statistics：join 完成之后生成的數(shù)據(jù)條數(shù)，大小等File Output Operator：文件輸出操作，常見(jiàn)的屬性compressed：是否壓縮table：表的信息，包含輸入輸出文件格式化方式，序列化方式等Fetch Operator 客戶端獲取數(shù)據(jù)操作，常見(jiàn)的屬性：limit，值為－1 表示不限制條數(shù)，其他值為限制的條數(shù)

2． explain 的使用場(chǎng)景

本節(jié)介紹 explain 能夠?yàn)槲覀冊(cè)谏a(chǎn)實(shí)踐中帶來(lái)哪些便利及解決我們哪些迷惑

案例一：join 語(yǔ)句會(huì)過(guò)濾 null 的值嗎？

現(xiàn)在，我們?cè)趆ive cli 輸入以下查詢計(jì)劃語(yǔ)句

select a．id，b．user＿name from test1 a join test2 b on a．id＝b．id；

問(wèn)：上面這條 join 語(yǔ)句會(huì)過(guò)濾 id 為 null 的值嗎

執(zhí)行下面語(yǔ)句：

explain select a．id，b．user＿name from test1 a join test2 b on a．id＝b．id；

我們來(lái)看結(jié)果（為了適應(yīng)頁(yè)面展示，僅截取了部分輸出信息）：

TableScan
alias： a
Statistics： Num rows： 6 Data size： 75 Basic stats： COMPLETE Column stats： NONE
Filter Operator
predicate： id is not null （type： boolean）
Statistics： Num rows： 6 Data size： 75 Basic stats： COMPLETE Column stats： NONE
Select Operator
expressions： id （type： int）
outputColumnNames：＿col0
Statistics： Num rows： 6 Data size： 75 Basic stats： COMPLETE Column stats： NONE
HashTable Sink Operator
keys：
0 ＿col0 （type： int）
1 ＿col0 （type： int）
．．．

從上述結(jié)果可以看到 predicate： id is not null 這樣一行，說(shuō)明 join 時(shí)會(huì)自動(dòng)過(guò)濾掉關(guān)聯(lián)字段為 null值的情況，但 left join 或 full join 是不會(huì)自動(dòng)過(guò)濾null值的，大家可以自行嘗試下。

案例二：group by 分組語(yǔ)句會(huì)進(jìn)行排序嗎？

看下面這條sql

select id，max（user＿name） from test1 group by id；

問(wèn)：group by 分組語(yǔ)句會(huì)進(jìn)行排序嗎

直接來(lái)看 explain 之后結(jié)果（為了適應(yīng)頁(yè)面展示，僅截取了部分輸出信息）

TableScan
alias： test1
Statistics： Num rows： 9 Data size： 108 Basic stats： COMPLETE Column stats： NONE
Select Operator
expressions： id （type： int）， user＿name （type： string）
outputColumnNames： id， user＿name
Statistics： Num rows： 9 Data size： 108 Basic stats： COMPLETE Column stats： NONE
Group By Operator
aggregations： max（user＿name）
keys： id （type： int）
mode： hash
outputColumnNames：＿col0，＿col1
Statistics： Num rows： 9 Data size： 108 Basic stats： COMPLETE Column stats： NONE
Reduce Output Operator
key expressions：＿col0 （type： int）
sort order：＋
Map－reduce partition columns：＿col0 （type： int）
Statistics： Num rows： 9 Data size： 108 Basic stats： COMPLETE Column stats： NONE
value expressions：＿col1 （type： string）
．．．