- · 《文科爱好者(教育教学[05/28]
- · 《文科爱好者(教育教学[05/28]
- · 《文科爱好者(教育教学[05/28]
- · 《文科爱好者(教育教学[05/28]
大数据技术在提升国民阅读兴趣方面应用的探索(2)
作者:网站采编关键词:
摘要:Hadoop缺省使用文件存储系统是文件系统HDFS,HDFS在存储数据时不需要把数据组织成关系型的行和列所以在存储海量的非结构化和半结构化数据方面有优势,
Hadoop缺省使用文件存储系统是文件系统HDFS,HDFS在存储数据时不需要把数据组织成关系型的行和列所以在存储海量的非结构化和半结构化数据方面有优势,为保证数据的可靠性,Hadoop将数据分成多个部分后,会将每个部分复制很多次,将每一部分加载到文件系统,这样保证了如果某一个节点启动失败后,数据仍然有效。
数据在加载到集群中后,就做好了分析的准备,我们是通过MapReduce的框架来进行分析。我们需要提交提交一个“适合”的任务这个任务是用Java编写的查询语句,提交给给节点,这个节点称为作业跟踪器。这个作业跟踪器用来确定我们要完成查询需要访问哪些数据,还有他要提交数据在集群的存储地址。数据和数据地址确定后,作业跟踪器负责给相关节点提交查询结果。同样,分析数据也是每个节点一起、同时处理。而不是将数据集中到一起以后在处理。
数据处理完毕后,要存储结果,这需要hadoop启动“Reduce”,俗称规约,将映射阶段(map阶段)上存储的每个节点上的结果取出来,加载到集群上的某一个节点上去。我们可以通过访问这个节点上的结果数据,获取分析结果。
接下来我们就使用分析工具进行分析,目前比较流行的分析工具是Pandas,它提供了很多分析函数,节省了我们编程的时间和过程。使用pandas首先是实现数据库的连接,然后采用分析工具进行分析。
连接数据库代码如下:
importpandasaspd
from sqlalchemy importcreate_engine
# 创建一个mysql连接器,用户名为user,密码为1234
## 地址为,数据库名称为tushu,编码为utf-8
engine=create_engine('mysql+
print(engine)
最长常见的分析工具是DataFrame,他是一种数据结构,特别适合用来提取数据表中的部分数据,而切片是数据分析中最经常做的事情。
数据分析有了结果,接下来就是利用数据进行建模,建模工具主要包括聚类、分类和递归等,我们使用的是聚类中的Kmeans方法。
4.4 前台实现技术
实现了数据的存储和分析之后,最后要考虑的就是将分析结果进行应用,这里我们采用B/S的结构,开发使用大家应用较广的java开发技术,主要实现前台信息的输入和关联信息的输出。
5 总结
所有的技术都是手段,让我们这个有着五千年悠久历史文化的文明古国,有着良好的阅读传统的民族,从内心真正爱上阅读,提升自我修养才是最终的目的。
[1]朱凯,著.《企业级大数据平台构建:架构与实现》[M].机械工业出版社,2018-05-01.
[2][美]韦斯·麦金尼(WesMcKinney) 著,徐敬一 译 利用Python进行数据分析(原书第2版)[M].机械工业出版社,2018-08-01.
[3]范东来 著.Hadoop海量数据处理[M].人民邮电出版社,2016-08-01.
[4]HariShree著.Flume:构建高可用、可扩展的海量日志采集系统[M].电子工业出版社,2016-8-1.
文章来源:《文科爱好者(教育教学)》 网址: http://www.wkahzzzs.cn/qikandaodu/2021/0611/1243.html
上一篇:做好琴出精品访优秀制琴师郑小明
下一篇:高校文科专业线上教学效果的调查研究