作者:民工肖某

近大半年来,大数据领域风生水起,不仅是很多初创公司,专业的发行公司独领风骚,很多传统的科技类的公司也逐步进入了大数据领域,纷纷推出了基于大数据的硬件、数据库、业务引擎等。一方面是卖方市场和投资方的搅动,另一方面是行业、企业客户的纷纷buy in。

以某家互联网行业的咨询类公司为例,它本身在超过60%的互联网入口部署了信息采集点,它的数据源没有问题,但苦于采用传统的data analysis 和BI手段,仅做一个咨询项目,往往耗费 20+数据人员,大约20~30天的工作周期,而且咨询报告的效果往往达不到预期。究其根本问题,还是大数据的分析、挖掘手段不足,离线数据处理能力不够,实时流数据就无从下手,所以不能实现敏捷化的BI。考虑这些困难,它已选择了一套hadoop平台离线分析(hbase/hive/mahout)和实时分析(Tez/spark/kafka/shark)系统,从根本上解决大数据的问题,目前效果很明显,原有的1个项目周期从1个月缩短到了几天,而且和客户可以实时交流,调整分析目标和策略。

大数据很是吸引人,对从业人员的要求自然水涨船高。我分析了大数据工程师的技能要求,有几个要点:

  1.  开发能力。coding是基础,主流的编程语言至少要熟练1、2门,比如java、python等;语言的掌握需要具备core的水平,比如 java core, 多线程并发、分布式的设计;同时对算法要深入研究,比如基础的算法和数据结构(hashtable、heap、trie等)、高级的算法等;
  2. 系统设计能力。也就是架构设计能力,含虚拟化、网络、存储、分布式、云平台等,这一块结合个人的项目经验很重要,好的产品真是需要好的架构;
  3. hadoop为核心业务能力。比如数据分析的工具集(hadoop MR、hbase、hive)或者是流数据的工具集(Storm、Spark),全面的数据挖掘算法思路(分类、聚类),另外大数据的任务调度、MR job调优、以及分布式并发控制等,也考验你的功力;
  4. 大数据讲究项目积累,除了工作中的项目,数据挖掘的思路,也注重个人在开源社区的贡献。如果你个人在github有不错的开源项目,并且在社区有不错的互动,bugfix或是主题演讲,这些都是你的加分项;
  5. 综合的素质。大数据行业日新月异发展,比如现在主流的内存数据计算、列式存储,可能在不久以后就会有更新更快的技术所取代,所以保持平静的心态,不断学习、总结,并和商业模型不断结合,积极拓展移动应用领域,充分发挥自身价值。

希望以上分析,对大家在大数据发展上有所帮助。

 

 

 

 

 

3 thoughts on “大数据工程师的技能分析”

  1. 其实大数据还有重要的一环,就是数据的变现。比如,用户评论变现,cookie变现,wifi数据变现,微博微信变现,第一方数据变现,和bat开放平台变现,如果你只有技术,数据,说明你有重要的生产要素,那更重要的是如何实现数据生态变现方法。。。

发表评论

此站点使用Akismet来减少垃圾评论。了解我们如何处理您的评论数据