关于动态合批(instancing)功能实现的疑问

看了一下动态合批渲染逻辑,自己也打断点验证了,发现每次渲染时不论模型的世界矩阵是否有变化,都会更新instancedAttribute, 后果就是每一帧渲染都要更新所有动态合批模型的instancedAttribute然后再更新webgl buffer。这两步不必要的数据复制会不会导致cpu反而成为瓶颈?

个人的使用场景同一个模型(大概500个三角形)实例化大概100次,放置到不同位置,之后模型不会再变化。可以静态合批,但想如果能动态合批就可以显著降低webgl buffer大小,但目前引擎的动态合批实现逻辑好像会显著增加cpu开销。

所以,动态合批能不能考虑优化一下静态模型的场景呢?