多核处理器中基于MapReduce的哈希划分优化
【作者】
袁通
;
刘志镜
;
刘慧
;
王梓
【关键词】
数据划分
哈希处理
多核处理器
MapReduce模型
【摘要】针对传统的并行哈希划分算法不能高效地利用多核处理器的并行资源,且不能较好处理有倾斜的输入数据的问题,提出了一种在多核处理器中基于MapReduce的哈希划分算法,并且提出了存储结构优化、多步划分优化、数据倾斜优化3种优化策略。该算法将输入数据分成若干块后提交给各个线程并行处理,并选择合适的策略避免写冲突,使其能够高效地利用多核处理器的并行资源。文中提出的哈希表能够提高cache效率,从而提升算法的整体性能。引入MapReduce模型可使多步哈希划分在Map过程和Reduce过程中分别进行;数据倾斜优化策略能使算法适应有倾斜的输入数据,且具有较好的效果。实验结果表明:在多核处理器中,文中提出的算法能够适应各种分布的输入数据,并且使哈希划分的整体性能得到提升。
上一篇:一种融合词序信息的多粒度文本话题情感联合模型
下一篇:心肌细胞钾通道调控早期后除极的动力学机制