基于负载均衡的Hadoop动态延迟调度机制
陶永才 李文洁 石磊 刘磊 卫琳 曹仰杰
调度问题作为影响Hadoop集群性能的关键因素而成为研究的热点.延迟调度是常用的提高数据本地性和Hadoop集群性能的方法,但现有的延迟调度算法基于固定的等待时间,而且没有充分考虑集群的负载均衡.本文提出基于负载均衡的动态延迟调度机制DDS(Dynamic Delay Scheduling).DDS首先基于灰色预测模型,预测未来时刻空闲节点的到达速率;然后结合集群负载状况和作业执行进度,给每个任务设置合理的延迟等待时间,避免任务的无效等待.任务调度充分考虑节点的实际负载量,防止节点负载过重而导致任务执行缓慢甚至失败,从而缩短作业的总完成时间.实验表明,DDS在作业的总完成时间和负载均衡方面优于传统的延迟调度算法.