MyBatis批量插入几千条数据慎用foreach

网站建设3年前发布
26 0 0

2023030601235424058a173bb3e896544417734bc120a0c353a3196,近日,项目中有一个耗时较长的 Job 存在 CPU 占用过高的问题。,这个方法提升批量插入速度的原理是,将传统的:,转化为:,在 MySql Docs:https://dev.mysql.com/doc/refman/5.6/en/insert-optimization.html中也提到过这个 trick,如果要优化插入速度时,可以将许多小型操作组合到一个大型操作中。理想情况下,这样可以在单个连接中一次性发送许多新行的数据,并将所有索引更新和一致性检查延迟到最后才进行。,乍看上去这个 foreach 没有问题,但是经过项目实践发现,当表的列数较多(20+),以及一次性插入的行数较多(5000+)时,整个插入的耗时十分漫长,达到了 14 分钟,这是不能忍的。在[资料]https://stackoverflow.com/questions/19682414/how-can-mysql-insert-millions-records-fast中也提到了一句话:,,Of course don't combine ALL of them, if the amount is HUGE. Say you have 1000 rows you need to insert, then don't do it one at a time. You shouldn't equally try to have all 1000 rows in a single query. Instead break it into smaller sizes.,,它强调,当插入数量很多时,不能一次性全放在一条语句里。可是为什么不能放在同一条语句里呢?这条语句为什么会耗时这么久呢?我查阅了[资料]https://stackoverflow.com/questions/32649759/using-foreach-to-do-batch-insert-with-mybatis/40608353发现:,,「Insert inside Mybatis foreach is not batch」, this is a single (could become giant) SQL statement and that brings drawbacks:,Iteration over the collection must not be done in the mybatis XML. Just execute a simple Insertstatement in a Java Foreach loop. 「The most important thing is the session Executor type」.,Unlike default ExecutorType.SIMPLE, the statement will be prepared once and executed for each record to insert.,,从[资料]https://blog.csdn.net/wlwlwlwl015/article/details/50246717中可知,默认执行器类型为Simple,会为每个语句创建一个新的预处理语句,也就是创建一个「PreparedStatement」对象。在我们的项目中,会不停地使用批量插入这个方法,而因为MyBatis对于含有<foreach>的语句,无法采用缓存,那么在每次调用方法时,都会重新解析sql语句。,,Internally, it still generates the same single insert statement with many placeholders as the JDBC code above.,MyBatis has an ability to cache PreparedStatement, but this statement cannot be cached because it contains <foreach /> element and the statement varies depending on the parameters.  ,As a result, MyBatis has to 1) evaluate the foreach part and 2) parse the statement string to build parameter mapping [1] on every execution of this statement.  ,And these steps are relatively costly process when the statement string is big and contains many placeholders.,[1] simply put, it is a mapping between placeholders and the parameters.,,从上述[资料] http://blog.harawata.net/2016/04/bulk-insert-multi-row-vs-batch-using.html 可知,耗时就耗在,由于我 foreach 后有 5000+ 个 values,所以这个PreparedStatement 特别长,包含了很多占位符,对于占位符和参数的映射尤其耗时。并且,查阅相关[资料]https://www.red-gate.com/simple-talk/sql/performance/comparing-multiple-rows-insert-vs-single-row-insert-with-three-data-load-methods 可知,values 的增长与所需的解析时间,是呈指数型增长的。,2023030601235434e529b25ff97e6a3ef10538c9881cab3e6911453,所以,如果非要使用 foreach 的方式来进行批量插入的话,可以考虑减少一条 insert 语句中 values 的个数,最好能达到上面曲线的最底部的值,使速度最快。一般按[经验]https://stackoverflow.com/questions/7004390/java-batch-insert-into-mysql-very-slow来说,一次性插 20~50 行数量是比较合适的,时间消耗也能接受。,重点来了。上面讲的是,如果非要用<foreach>的方式来插入,可以提升性能的方式。而实际上,MyBatis文档中写批量插入的时候,是推荐使用另外一种方法。(可以看http://www.mybatis.org/mybatis-dynamic-sql/docs/insert.html中 「Batch Insert Support」 标题里的内容),即基本思想是将MyBatis session的executor type设为 「Batch」,然后多次执行插入语句。就类似于 JDBC 的下面语句一样。,经过试验,使用了ExecutorType.BATCH的插入方式,性能显著提升,不到 2s 便能全部插入完成。,总结一下,如果 MyBatis 需要进行批量插入,推荐使用ExecutorType.BATCH的插入方式,如果非要使用<foreach>的插入的话,需要将每次插入的记录控制在 20~50 左右。

© 版权声明

相关文章