谨以此系列来纪念自己的大数据学习之旅,鞭策激励自己,从点滴做起,从现在做起,持之以恒,厚积薄发。
大数据的概念已经火了许久,由于自己之前从事的方向接触不到大数据这一层次(也是软件开发,做的是操作系统方面),所以对它的认知只是停留在这个名称而已。直到最近仔细搜索这一方面的资料才发现,自己对它的认识远远不够,所谓的略知皮毛真的是皮毛而已,或者说皮毛都沾不上。
“工欲善其事必先利其器”,所以既然打算从事这一方向,一定要对它有个清楚清晰的认识。大数据概念最近几年很火爆,究其原因是因为现在我们越来越离不开网络,淘宝、微信、支付宝....都已经变成了生活中的一部分,在使用它们的同时我们会留下各式各样的痕迹,搜索关键字、联系方式、地址、兴趣爱好等等,不管是对企业来说还是对于政府来讲,这些资料信息都可以变成他们决策的一个有力工具。美国政府认为,大数据是“未来的新石油”,并将大数据的研究上升为国家意志,对未来的科技与经济发展将带来深远影响。或许是平时看科幻类电影和侦探类电视剧过多的缘故,对于科技手段类的东东很感兴趣,像美国电视剧那样,随便输入一个人的名字信息,立马将相关联的所有资料展现出来,是不是很酷。现在在国内政府部门也把大数据提升到一个很高的层次上来,所以不管是从职业发展上来看还是个人兴趣来说,它都是最佳的选择路线。
对于大数据概念,小编认为有如下几点: 1、数据的来源多样性。例如关系数据库+文本+Excel等 2、数据量大。TB级别的数据。 3、业务应用领域。实时性高与实时性不高的应用。 学习大数据不仅仅要明确大数据的概念,更重要的是要解决上述三个技术性的问题。 针对第一个问题,就是ETL技术-数据的抽取,清洗,加载。传统数据抽取、清洗、加载是无法做到的。例如一个1TB的数据,需要抽取一些客户的基本信息。上万的文件,多种数据库,每个数据库有很多节点等,这些问题如何解决。第二是时间问题,如果这个ETL过长需要半个月时间,那么就没有意义的。 针对第二个问题,数据如何存储,如何查询。TB级的数据如何存储,如何查询,面对亿级别的数据集合,如何提升查询速度。 针对第三个问题,实时分析系统和非实时分析系统。实时分析系统我们如何解决在海量的数据中,及时根据数据分析模型,得出分析报告。非实时系统我们技术要求可能会低些。 围绕解决上述问题为中心,进行探讨学习即可。
通过学习一系列面向开发者的Hadoop、Spark等大数据平台开发技术,掌握设计开发大数据系统或平台的工具和技能,能够从事分布式计算框架如Hadoop、Spark群集环境的部署、开发和管理工作,如性能改进、功能扩展、故障分析等。
新闻热点
疑难解答