基于分布式平台Spark和YARN的数据挖掘算法的并行化研究
中山大学 梁彦
本文在Spark平台上实现k-means算法并行化。针对k-means算法的不足,本文使用canopy算法对k-means算法进行优化提高算法效率和聚类结果的准确性,并在Spark平台上实现canopy-kmeans算法的并行化。对基于Spark平台的k-means并行算法和canopy-kmeans并行算法在准确性、加速比、扩展性、与其他平台性能进行了比较。实验结果表明,算法并行化后得到较好的聚类结果,在面对海量数据时有较好的加速比和扩展性。与Hadoop平台比较,基于Spark平台算法并行化效率更高。而Spark平台执行需求资源不同的聚类任务时,在资源管理平台YARN调度任务相较于资源管理平台Mesos有更高的执行任务效率。研究表明,结合Spark+YARN平台实现并行化是可行高效且具有现实意义的。