新故相推舒书卷,又踏层峰望眼开。2019年5月11日-12日,“大数据散布式推算与机械进建”Workshop在J9集团国际站1号楼101教室进行。J9集团国际站治理学院商务统计与经济计量系主任王汉生教授出席活动,中央财经大学统计与数学学院副院长李丰教授受邀为参与的200余名同学讲授了大数据散布式推算技术和机械进建等前沿技术和思想。

活动伊始,李丰教员首先提出了大数据带来的两个基础挑战:若何矫捷地操作海量数据?若何高效地从海量数据中获取价值?散布式系统(蕴含散布式存储系统和散布式推算系统)为这两个问题的解决搭建了桥梁。目前宽泛使用的散布式系统有Hadoop、Spark等。
李教员向同学们介绍了Hadoop的发展简史,并具体介绍了Hadoop 散布式存储系统(HDFS ) 和散布式推算框架(MapReduce)。Hadoop 解放了数据科学家(法式员)的双手,由于传统的并行推算必要思考通讯、负载、存储、工作切割等多个专业的推算机领域,资深的法式员也不愿定能胜任。但有了Hadoop,任何一个数据分析问题只必要界说为一个Mapper函数和一个Reducer 函数即可。

随后,李教员又为同学们介绍了基于Hadoop的数据仓库工具——hive。hive能够将结构化的数据文件映射为一张数据库表,并提供单一的SQL查问职能。他还具体介绍了Hive的合用场景及根基操作。理论解说后,李教员又携带同学们上机实操统计词频。

次日的分享中,李教员向同学们解说了另一种散布式系统Spark以及介绍了Spark MLlib 内置的机械进建模型。Spark是一个开源集群运算框架,使用了存储器内运算技术,能在数据尚未写入硬盘时即在存储器内分析运算。Spark在存储器内运行法式的运算速度能做到比Hadoop MapReduce的运算速度快上100倍。即就是运行法式于硬盘时,Spark也能快上10倍速度。但是是否Spark更优于Hadoop呢?李教员将Spark形象地比作幼轿车,而Hadoop更像是自行车。我们既必要幼轿车也必要自行车。随后,李教员携带同学们上机实际了在Spark中实现逻辑回归。

在短短两天的课程中,同学们收成颇丰,并在课后纷纷互换自己的课程心得,李丰教员理论与实际相结合的讲授风格深受同学们的好评。但愿这次课程可能为同学们打开大数据的大门,将来仍有辽阔的数据海洋必要同学们自己去索求。
有关介绍:
李丰,现任中央财经大学统计与数学学院副院长,大数据分析专业硕士导师,中国统计教育学会高档教育分会会副秘书长。博士毕业于瑞典斯德哥尔摩大学,钻研领域蕴含贝叶斯推算,统计预测,多元Copula模型等。曾获瑞典皇家统计学会Cramér 奖,国际贝叶斯学会青年嘉奖基金,瑞典 Knut & Alice Wallenberg基金嘉奖,第二届全国高校经管类尝试讲授案例大赛二等奖。著佑锥Bayesian Modeling of Conditional Densities》和《大数据散布式推算与案例》,在International Journal of Forecasting,Scandinavian Journal of Statistics,Journal of Statistical Planning and Inference,BMJ Open等期刊颁发多篇学术论文。