推广

[转]关于InnoDB存储引擎 text blob 大字段的存储和优化

iseeyu3年前 (2023-11-16)推广123

1.2 MySQL 5.1 中的 innodb_plugin 引入了新的文件格式:Barracuda (梭子鱼),该文件格式拥有新的两种行格式:compressed和dynamic,两种格式对blob字段采用完全溢出的方式,数据页中只存放20字节,其余的都存放在溢出段中,因此,强烈不建议使用BLOB、TEXT、超过255长度的VARCHAR列类型;

1.3 innodb的page大小默认为16kb,innodb存储引擎表为索引组织表,树底层的叶子节点为一双向链表,因此每个页中至少应该有两行记录,这就决定了innodb在存储一行数据的时候不能够超过8k,但事实上应该更小,因为还有一些InnoDB内部数据结构要存储,5.6版本以后,新增选项 innodb_page_size 可以修改,在5.6以前的版本,只能修改源码重新编译,但并不推荐修改这个配置

1.4 InnoDB的data page在有新数据写入时,会预留1/16的空间,预留出来的空间可用于后续的新纪录写入,减少频繁的新增data page的开销,受限于InnoDB存储方式,数据如果是顺序写入的话,最理想的情况下,data page的填充率是15/16,但一般没办法保证完全的顺序写入,因此data page的填充率一般是1/2到15/16。因此每个InnoDB表都最好要有一个自增列作为主键,使得新纪录写入尽可能是顺序的;当data page填充率不足1/2时,InnoDB会进行收缩,释放空闲空间

1.5 COMPACT行格式相比REDUNDANT,大概能节省20%的存储空间,COMPRESSED相比COMPACT大概能节省50%的存储空间,但会导致TPS下降了90%。因此强烈不推荐使用COMPRESSED行格式

1.6 使用了blob数据类型,是不是一定就会存放在溢出段中?通常我们认为blob这类的大对象的存储会把数据存放在数据页之外,其实不然,关键点还是要看一个page中到底能否存放两行数据,blob可以完全存放在数据页中(单行长度没有超过8096字节),而varchar类型的也有可能存放在溢出页中(单行长度超过8096字节,前768字节存放在数据页中)

1.7 mysql在操作数据的时候,以page为单位,不管是更新,插入,删除一行数据,都需要将那行数据所在的page读到内存中,然后在进行操作,这样就存在一个命中率的题,如果一个page中能够相对的存放足够多的行,那么命中率就会相对高一些,性能就会有提升

1.8 在off-page中存储的BLOB、TEXT或者长VARCHAR列的page是独享的,不能共享。因此强烈不建议在一个表中使用多个长列

1.9 MySQL 5.6 中默认还是 Compact 行格式,也是目前使用最多的一种 ROW FORMAT。用户可以通过命令SHOW TABLE STATUS LIKE’table_name’来查看当前表使用的行格式,其中row_format列表示当前所使用的行记录结构类型

在 msyql 5.7.9 及以后版本,默认行格式由innodb_default_row_format变量决定,它的默认值是DYNAMIC,也可以在 create table 的时候指定ROW_FORMAT=DYNAMIC。

注意,如果要修改现有表的行模式为compressed或dynamic,必须先将文件格式设置成Barracuda:set global innodb_file_format=Barracuda;,再用ALTER TABLE tablename ROW_FORMAT=COMPRESSED;去修改才能生效,否则修改无效却无提示

二、对TEXT/BLOB这类大字段类型的影响

2.1 compact

变长大字段类型包括blob,text,varchar,其中varchar列值长度大于某数N时也会存溢出页,在latin1字符集下N值可以这样计算:innodb的块大小默认为16kb,由于innodb存储引擎表为索引组织表,树底层的叶子节点为一双向链表,因此每个页中至少应该有两行记录,这就决定了innodb在存储一行数据的时候不能够超过8k,减去其它列值所占字节数,约等于N。对于InnoDB,内存是极为珍贵的,如果把768字节长度的blob都放在数据页,虽然可以节省部分IO,但是能缓存行数就变少,也就是能缓存的索引值变少了,降低了索引效率

2.2 dynamic

dynamic行格式,列存储是否放到off-page页,主要取决于行大小,它会把行中最长的那一列放到off-page,直到数据页能存放下两行。TEXT/BLOB列 <=40 bytes 时总是存放于数据页。这种方式可以避免compact那样把太多的大列值放到 B-tree Node,因为dynamic格式认为,只要大列值有部分数据放在off-page,那把整个值放入都放入off-page更有效。

compressed物理结构上与dynamic类似,但是对表的数据行使用zlib算法进行了压缩存储。在long blob列类型比较多的情况下用,可以降低off-page的使用,减少存储空间(一般40%左右),但要求更高的CPU,buffer pool里面可能会同时存储数据的压缩版和非压缩版,所以也多占用部分内存。这里MySQL 5.6 Manual innodb-compression-internals讲的十分清楚。

另外,由于ROW_FORMAT=DYNAMIC和ROW_FORMAT=COMPRESSED是从ROW_FORMAT=COMPACT变化来的,所以他们处理CHAR类型存储的方式和 COMPACT 一样。

三. 对TEXT/BLOB型字段存取优化

mysql的 io 以page为单位,因此不必要的数据(大字段)也会随着需要操作的数据一同被读取到内存中来,这样带来的问题由于大字段会占用较大的内存(相比其他小字段),使得内存利用率较差,造成更多的随机读取。从上面的分析来看,我们已经看到性能的瓶颈在于由于大字段存放在数据页中,造成了内存利用较差,带来过多的随机读,那怎么来优化掉这个大字段的影响

3.1 压缩&合并

a、innodb提供了barracuda文件格式,将大字段完全存放在溢出段中,数据段中只存放20个字节,这样就大大的减小了数据页的空间占用,使得一个数据页能够存放更多的数据行,也就提高了内存的命中率(对于本实例,大多数行的长度并没有超过8k,所以优化的幅度有限);如果对溢出段的数据进行压缩,那么在空间使用上也会大大的降低,具体的的压缩比率可以设置key_blok_size来实现。

b、可以把大字段用COMPRESS()压缩后再存为BLOB,或者在发送到MySQL前在应用程序中进行压缩

c、一张表有多个类blob字段,把它们组合起来如<TEXT><f_big_col1>long..</f_big_col1> <f_content>long..</f_content></TEXT>,再压缩存储

d、如果预期长度范围varchar就满足,就避免使用TEXT

3.2 拆分

将主表拆分为一对一的两个关联表,将大字段单独放到另外一张表后,单行长度变的非常的小,page的行密度相比原来的表大很多,这样就能够缓存足够多的行,buffer pool的命中率就会提高,应用程序需要额外维护的是一张大字段的子表,还可以通过覆盖索引来优化,将索引和原表结构分开,从访问密度较小的数据页改为访问密度很大的索引页,随机io转换为顺序io

总结:还是让单个page能够存放足够多的行,不断的提示内存的命中率,从数据库底层存储的原理出发,能够更深刻的优化数据库

综上,如果在实际业务中,确实需要在InnoDB表中存储BLOB、TEXT、长VARCHAR列时,有下面几点建议:

尽可能将所有数据序列化、压缩之后,存储在同一个列里,避免发生多次off-page

如果预期长度范围varchar就满足,就避免使用TEXT

如果无法将所有列整合到一个列,可以退而求其次,根据每个列最大长度进行排列组合后拆分成多个子表,尽量是的每个子表的总行长度小于8KB,减少发生off-page的频率

扫描二维码推送至手机访问。

版权声明:本文由西安泽虎代运营发布,如需转载请注明出处。

转载请注明出处https://www.0291.com.cn/post/57585.html

相关文章

网站排名效果不理想有哪些原因。

网站排名效果不理想有哪些原因。

SEO优化中心 SEO优化中心 SEO优化中心 网站排名效果不理想有哪些原因? 网站排名效果不理想有哪些原因? 1.为SEO优化而更新原创 很多人更新原创的目的大多都是为了上排名,把更新原创当成每天的工作,从而忽视了用户与搜索引擎最初的初衷,这也就是产生为什么天天原创排名不理想的原因,解决...

聚划算可以锁单吗(淘宝聚划算的通常玩法)

聚划算可以锁单吗(淘宝聚划算的通常玩法)

  淘宝现在已经是一个巨无霸了,虽说名字听起来没有奶茶东大气,但是其底下的   任何一个版块都是海量级的,很多人购物都是打开TAOBAO搜完看下销量高评价   可以的就入手,错过了很多折扣的机会,就拿聚划算平台来说   聚划算为吸引流量 可以说做法无所不为,商品为吸引关注 设置了围观红包、...

关键词位置、密度、处理。

关键词位置、密度、处理。

URL中出现关键词(英文) 网页标题中出现关键词(1-3个)  关键词标签中出现关键词(1-3个) 描述标签中出现关键词(主关键词重复2次)  内容中自然出现关键词  内容第一段和最后一段出现关键词  H1,H2标签中出现关键词...

分享网站营销是一场持久战。

分享网站营销是一场持久战。

营销是一场战役,需要海陆空协同作战。关键是坚持做,不可能一做就有效果 1、搜索引擎优化(SEO) 只要搜索引擎还存在,SEO就也就会永远存在,这也是目前企业使用最广泛的网络推广方式。去年底百度重新调整了搜索条件,导致很多SEO的网站排名大幅度下滑。搜索引擎在不断的提升搜索结果的用户体验...

新网站上线进行SEO优化需要注意什么。

新网站上线进行SEO优化需要注意什么。

在互联网时代,新建网站层出不穷。许多网站管理员都渴望他们的新网站能被快速收录和排名,但他们对网站排名的渴望并没有达到。新站需要经过一系列的SEO优化和长期沉淀才能取得一定的排名。站长们要认真对待,持之以恒。那么,新网站SEO优化的重点是什么? 首先,网站基本内容填充完整后才能使网站上线 在现实生...

你不知道的《财富自由之路》干货!

你不知道的《财富自由之路》干货!

你不知道的《财富自由之路》!...

现在,非常期待与您的又一次邂逅

我们努力让每一部企业宣传片和抖音短视频成为商业大片