0%

Hive之行列互转

一、行转列

1.1 函数说明

CONCAT(string A/col, string B/col...)

  • 返回输入字符串连接后的结果,支持任意个输入字符串

CONCAT_WS(separator, str1, str2,...)

  • 他是一个特殊形式的CONCAT(),第一个参数是剩余参数间的分隔符。分隔符可以是与剩余参数一样的字符串。如果分隔符是NULL返回值也是NULL。这个函数会跳过分隔符参数后的任何NULL和空字符串。分隔符将被加到被连接的字符串之间;

COLLECT_SET(col)

  • 函数只接受基本数据类型,它的主要作用是将某字段的值进行去重汇总,产生array类型字段。

1.2 准备数据

name constellation blood_type
孙悟空 白羊座 A
大海 射手座 A
宋宋 白羊座 B
猪八戒 白羊座 A
凤姐 射手座 A

1.3 需求描述

将星座和血型一样的人归类到一起

1
2
3
射手座,A 大海|凤姐						
白羊座,A 孙悟空|猪八戒
白羊座,B 宋宋

1.4 实现SQL

sql

1
2
3
4
SELECT t1.base, CONCAT_WS("|", CONCAT_SET(t1.name)) name
FROM
(SELECT name, CONCAT(constellation, ",", blood_type) base FROM person_info) t1
GROUP BY t1.base;

二、列转行

2.1 函数说明

EXPLODE(col)

  • 将hive一列中复杂的array或者map结构拆分成多行。

LATERAL VIEW

  • 用法:LATERAL VIEW udtf(expression) tableAlias AS columnAlias
  • 解释:用于和split,explode等UDTF一起使用,它能够将一列数据拆成多行数据,在此基础上可以对拆分后的数据进行聚合。

2.2 数据准备

movie category
《疑犯追踪》 悬疑,动作,科幻,剧情
《Lie to me》 悬疑,警匪,动作,心理,剧情
《战狼 2》 战争,动作,灾难

2.3 需求描述

将电影分类中的数组数据展开。结果如下:

1
2
3
4
5
6
7
8
9
10
11
12
《疑犯追踪》 悬疑
《疑犯追踪》 动作
《疑犯追踪》 科幻
《疑犯追踪》 剧情
《Lie to me》 悬疑
《Lie to me》 警匪
《Lie to me》 动作
《Lie to me》 心理
《Lie to me》 剧情
《战狼 2》 战争
《战狼 2》 动作
《战狼 2》 灾难

2.4 实现SQL

sql

1
2
3
4
5
select
movie,
category_name
from
movie_info lateral view explode(category) table_tmp as category_name;