你好,游客 登录
背景:
阅读新闻

[PDF]基于Hadoop的云平台在海量Web数据分析中的应用研究

[日期:2015-03-20] 来源:CNKI  作者:陈富汉 [字体: ]

基于Hadoop的云平台在海量Web数据分析中的应用研究

南京大学  陈富汉

为了提高传统单一节点在海量Web数据分析和挖掘中存在时间和空间效率,通过分析Hadoop云计算开源平台技术的国内外研究现状和发展趋势,基于Hadoop开源框架分布式文件系统(HDFS)和Map/Reduce编程模型,研究了海量Web日志性能指标和一种Web挖掘算法的Map/Reduce化过程,设计了海量Web数据分析系统架构,搭建了Hadoop开发平台,实现了一个分布式的海量Web数据分析系统的开发。该系统集成了数据和应用,并通过Hadoop的应用程序编程接口(API)连接到Eclipse中,利用Maven管理和构建Hadoop项目,实现任务之间的共享操作。 通过在虚拟机搭建了4个节点的Hadoop集群环境系统测试平台,测试分析了该系统和传统系统的Shell脚本处理,统计分析了Hadoop平台Web日志数据的采集和其关键绩效指标(KPI),完成基于物品的协同过滤算法并行程序测试,测试结果表明该系统有效提高了海量Web数据分析和挖掘的时间和空间效率。


基于Hadoop的云平台在海量Web数据分析中的应用研究

推荐 打印 | 录入: | 阅读:
本文评论   
评论声明
  • 尊重网上道德,遵守中华人民共和国的各项有关法律法规
  • 承担一切因您的行为而直接或间接导致的民事或刑事法律责任
  • 本站管理人员有权保留或删除其管辖留言中的任意内容
  • 本站有权在网站内转载或引用您的评论
  • 参与本评论即表明您已经阅读并接受上述条款