推广

Flink SQL 写入 Hive表的性能问题

iseeyu2年前 (2024-02-21)推广114

写入Hive表.png

Hive Table DDL:

CREATE TABLE dw_db.dw_xxx_rt(
中间几十个字段省略,
`position` string COMMENT '位置'
) PARTITIONED BY (p_dt STRING, p_hours STRING) row format delimited
  fields terminated by '\t'
  collection items terminated by '\n'
stored as orc TBLPROPERTIES (
  'sink.partition-commit.trigger'='process-time',
  'sink.partition-commit.delay'='0s',
  'sink.partition-commit.policy.kind'='metastore,success-file',
  'sink.shuffle-by-partition.enable'='true'
);

而写入HDFS文件的性能,每秒写入记录数,性能符合期待。

写入HDFS文件.png

HDFS文件的DDL:

drop table hive_catalog.dw_db.dw_xxx_hdfs;
CREATE TABLE hive_catalog.dw_db.dw_xxx_hdfs (
中间几十个字段省略,
`position` string COMMENT '位置',
 `p_dt` string,
`p_hours` string
) PARTITIONED BY (p_dt , p_hours )  with (
  'connector' = 'filesystem',
  'path' = 'hdfs://ztcluster/tmp/test/xk',
  'format' = 'orc',
  'sink.partition-commit.trigger'='process-time',
  'sink.partition-commit.delay'='0s',
  'sink.partition-commit.policy.kind'='success-file',
  'sink.shuffle-by-partition.enable'='true'
);

翻阅Flink的PR,十几天前,阿里Flink的开发同学已经注意到了这个题,我们将之吸收到测试环境,编译替换lib下jar包,重新测试,性能确实up了,单并发升至5W每秒,上游节点才稍微有背压。
[FLINK-19121][hive] Avoid accessing HDFS frequently in HiveBulkWriterFactory

所以,Flink的新特性从发布到应用线上,稳定性与性能上都不能过于乐观、听信于官方宣传,
司内另一教训就是过早在热数据存储层启用了Hadoop的纠删码,导致问题不断,被迫退化到副本机制。
这与前期调研、验证不足,对该特性过于轻信有莫大关系,教训也是深刻。

关于HDFS纠删码技术

底层采用Reed-Solomon(k,m)算法,RS是一种常用的纠删码算法,通过矩阵运算,可以为k位数据生成m位校验位,根据k和m的取值不同,可以实现不同程度的容错能力,是一种比较灵活的纠删码算法。
HDFS纠删码技术能够降低数据存储的冗余度,以RS(3,2)为例,其数据冗余度为67%,相比Hadoop默认的200%大为减少。但是纠删码技术存储数据和数据恢复都需要消耗cpu进行计算,实际上是一种以时间换空间的选择,因此比较适用的场景是对冷数据的存储。冷数据存储的数据往往一次写入之后长时间没有访问,这种情况下可以通过纠删码技术减少副本数。

扫描二维码推送至手机访问。

版权声明:本文由西安泽虎代运营发布,如需转载请注明出处。

转载请注明出处https://www.0291.com.cn/post/56926.html

相关文章

Google Play Store关键字搜索优化!

Google Play Store关键字搜索优化!

(以美国Google Play Store的应用搜索排行榜为调查对象)     第一部分:汇总GooglePlay Store做搜索优化时的几个发现:   1. 标题关键字至关重要。   &...

教你常见的网站建设类型有哪些。

教你常见的网站建设类型有哪些。

现在企业类型是很多的,我们在建设网站之前,首先要确定网站的项目以及用户来源,要确定建设一个什么类型的网站,才能建设一个好的网站,那么的类型有哪些呢?下面小编就来为大家分享一些常见的网站建设类型。 1、品牌网站 这类网站的主要功能也和企业官网一样,也是信息的展示,区别的地方在...

不吹牛逼,教你零成本推广百万用户【下】

不吹牛逼,教你零成本推广百万用户【下】

场景化定位的好处 第二个问题是场景化的定位的好处是什么?刚才我反复强调说要 摸清楚自己定位,找准自己的市场,是什 么意思?我曾经也犯了很多错,想了很多。后来我想明白了一件事,其实我们在包装或者定位一个产品的时候,我们并不是根据人群或者根据品类来划分。我见过相 当多...

SEO排名将会有着怎样的格局改变?

SEO排名将会有着怎样的格局改变?

2019年PC端流量还有前景? 2019年SEO排名将会有着怎样的格局改变?2019年已经正式来临了,每个人对于关键词SEO排名的看法是不一样的,有的人觉得关键词SEO排名已经进入了新的时间,有的人却觉得关键词SEO排名还是当前的情况,关键词SEO排名到底是怎样的情况?2019年又会有怎样的变化...

从搜索引擎看大千世界。

从搜索引擎看大千世界。

如果 SEO 也有一部分人口,延安 SEO会把他们分成两类人。一个是通过搜索引擎致富,另一个是通过搜索引擎生存。而这两种人恰好属于前隐藏人员,他们从来不说 SEO 难,而后者属于 SEO 工人阶级的大多数,但是道路越来越窄。 首先,谁阻碍了搜索引擎优化从业者的道路? 如果延安 SEO没有猜错,大...

院士提醒:10个中国人信以为真的“好习惯”,正在摧毁你的健康!

院士提醒:10个中国人信以为真的“好习惯”,正在摧毁你的健康!

常言道:好习惯长寿延年,坏习惯短命折寿。习惯跟我们的生活质量和寿命息息相关,因此许多人会依据经验,养成自己的健康习惯。然而,有些所谓的“好习惯”,其实是以讹传讹的误区,让千万人离健康越来越远。中国工程院院士、原卫生部副部长王陇德就曾总结过中国人常犯的“好习惯误区”,都有哪些...

现在,非常期待与您的又一次邂逅

我们努力让每一部企业宣传片和抖音短视频成为商业大片