全力打造全国高校大数据教学示范班级
厦门大学研究生课程
《大数据处理技术》2023班级主页
全面系统讲解Spark技术及其编程方法
(扫一扫手机访问本主页)
课程简介
课程名称:《大数据处理技术》
课程性质:校级研究生选修课
课程难度:入门级,零基础(课程采用林子雨编著的入门级精品教材,丰富的教材配套资源帮助学生实现“零基础”学习大数据)
授课教师:林子雨
开课学期:2023年春季学期(2月到6月)
课程学时:每周2节,共15周,32学时,2学分
上课教室:翔安校区学武楼(1号楼)A206
课程助教:无
学生名单(100人):
赵龙杰 蔡迅飞 陈彦伟 陈远帆 符洪浩 何子豪 黄伟源 简亚军 蓝宗煜 雷振康 李嘉健 李智鹏 梁戈豪 林龙星 刘思寒 钱志鹏 宋佳 宋绪阳 孙武进 谭贺娟 王榕 吴庆垚 邢明炜 熊镇涛 徐靖 杨雪莲 杨志群 应俊杰 余薇 曾清源 曾涛 张晓庆 郑毅 周周澳 周子柯 黄书恒 赵力锐 黄驰 林志航 张金璐 李漓江 孙同 陈泽航 高体民 郭天宇 赖芹 赖映鑫 蓝浩 李桂林 林佳燕 欧婉滢 潘文胜 王一鸣 叶锴 张一帆 张智铖 周毓尧 邵铭塬 幸吉伟 杨杰 许世毓 张超星 杜佳祺 顾嘉炜 陈业维 蔡煜晖 洪涯瑶 柯淇文 刘久一 余子祥 庄震丰 陈榆 代浪 丁虎 范晰雯 高楠希 黄冠杰 黄菊 刘浩然 马陈楠 邵涵洋 邵笑 谭心怡 万安帮 万峥 王舒洋 王思伟 翁丽娟 吴冠毓 夏云洲 杨博淳 杨志伟 曾逸洲 张晟 张诗诗 张玉斌 周愉博 周宗涛 黄健亨 向姝可
教师简介
示范班级
林子雨主讲厦门大学研究生课程《大数据处理技术》是“高校大数据课程公共服务平台”重点打造的示范班级,全程严格执行“林子雨精品大数据公开课六大质量标准”,旨在努力打造高校大数据教学实践标杆。
示范班级全程践行O2O教学理念,提供线上线下完整教学服务,学生在获得良好现场教学体验的同时,可以通过班级网站获得全方位课程指导和服务。示范班级标准元素包括:班级主页、标准教室、精心备课、精彩讲解、优雅形象、标准音质、完整服务等。
公告板
教学大纲
厦门大学研究生课程教学大纲
(2)积极践行O2O教学理念,努力提升教学水平,在大数据课程教学方面积极开拓创新,实现线下教学和线上服务的巧妙结合。课程主讲教师建设了国内高校首个大数据课程公共服务平台,提供讲义PPT、课程习题、学习指南、授课视频、技术资料等全方位、一站式免费服务,帮助学生更好学习大数据课程。
林子雨,郑海山,赖永炫.Spark编程基础(Python版),人民邮电出版社,2019.
1 第1章 大数据技术概述
大数据的基本概念、关键技术和代表性软件 2
2 第2章 Spark的设计与运行原理
Spark简介、运行架构、RDD的设计与运行原理、部署模式 2
3 第3章Spark环境搭建和使用方法
Spark的基本安装方法,如何在spark-shell中运行代码以及如何开发Spark独立应用程序 2
4 第3章Spark环境搭建和使用方法
Spark集群环境搭建, 在集群上运行Spark应用程序 2
5 第4章 RDD编程
RDD编程基础、键值对RDD 2
6 第4章 RDD编程
RDD编程基础、键值对RDD 2
7 第4章 RDD编程
RDD编程综合案例 2
8 第5章 Spark SQL
Spark SQL简介、DataFrame、读写Parquet 2
9 第5章 Spark SQL
通过JDBC连接数据库、连接Hive读写数据 2
10 第6章 Spark Streaming
流计算概述、Spark Streaming、DStream操作概述、基本输入源、高级输入源 2
11 第6章 Spark Streaming
转换操作、输出操作 2
12 第7章 Structured Streaming
概述、编写Structured Streaming程序的基本步骤、输入源 2
13 第7章 Structured Streaming
输出操作、容错处理、迟到数据的处理、查询的管理和监控 2
14 第8章 Spark Mllib
Spark MLlib简介、机器学习工作流、特征抽取
转化和选择、分类与回归 2
15 第8章 Spark Mllib
聚类算法、推荐算法、机器学习参数调优 2
16 Spark编程综合案例 2
期末考试
合计 32
教学进度表
讲义PPT下载
课后作业
课程教材
本课程采用林子雨编著《Spark编程基础(Python版)》,让初学者零基础零障碍学习Spark。本书以Python作为开发Spark应用程序的编程语言,系统介绍了Spark编程的基础知识。全书共8章,内容包括大数据技术概述、Spark的设计与运行原理、Spark环境搭建和使用方法、RDD编程、Spark SQL、Spark Streaming、Structured Streaming和Spark MLlib等。本书每个章节都安排了入门级的编程实践操作,以便读者更好地学习和掌握Spark编程方法。本书官网免费提供了全套的在线教学资源,包括讲义PPT、习题、源代码、软件、数据集、授课视频、上机实验指南等。
拓展学习
林子雨编著《大数据技术原理与应用(第3版)》(人民邮电出版社2021年1月正式出版发行第3版,京东、当当各大网店热销书籍),侧重于介绍大数据技术的实现原理,编程实践内容较少,该教材定位为入门级大数据教材,以“构建知识体系、阐明基本原理、开展初级实践、了解相关应用”为原则,旨在为读者搭建起通向大数据知识空间的桥梁和纽带,为读者在大数据领域深耕细作奠定基础、指明方向。教材系统论述了大数据的基本概念、大数据处理架构Hadoop、分布式文件系统HDFS、分布式数据库HBase、NoSQL数据库、云数据库、分布式并行编程模型MapReduce、数据仓库Hive、大数据处理架构Spark、流计算、流计算框架Flink、图计算、数据可视化以及大数据在互联网、生物医学和物流等各个领域的应用。
详细学习如何安装运行各种大数据软件以及如何进行初级编程实践,包括Hadoop、HDFS、HBase、MapReduce、Spark、Hive、Flink等安装、操作、编程指南。帮助学生“零基础、零障碍”学习大数据技术。
采用2000万条用户购物数据集,案例涉及数据预处理、存储、查询和可视化分析等数据处理全流程所涉及的各种典型操作,涵盖Linux、MySQL、Hadoop、HBase、Hive、Sqoop、R、Eclipse等系统和软件的安装和使用方法。案例适合高校大数据教学,可以作为学生学习大数据课程后的综合实践案例。