MapReduce模型下数据本地性负载平衡策略研究
大连海事大学 陈一
本文所提出的方法针对MapReduce作业过程中的Partition部分的分区算法进行调整和优化,设计实现了一个基于数据本地性的负载均衡策略(DALP)。通过合理的抽样,对作业数据进行预处理,分析出数据中各key的频数分布情况,然后利用分析的数据制定一个数据聚合策略(DA),该策略考虑了 key的数据大小,可以更加合理地为各Reduce节点分配数据,能有效地缓解集群节点的负载不平衡问题,提高了集群整体性能。
背景:
阅读新闻
[PDF]MapReduce模型下数据本地性负载平衡策略研究
MapReduce模型下数据本地性负载平衡策略研究 大连海事大学 陈一 本文所提出的方法针对MapReduce作业过程中的Partition部分的分区算法进行调整和优化,设计实现了一个基于数据本地性的负载均衡策略(DALP)。通过合理的抽样,对作业数据进行预处理,分析出数据中各key的频数分布情况,然后利用分析的数据制定一个数据聚合策略(DA),该策略考虑了 key的数据大小,可以更加合理地为各Reduce节点分配数据,能有效地缓解集群节点的负载不平衡问题,提高了集群整体性能。
相关新闻
MapReduce 本地性负载平衡
本文评论
|