林子雨主讲《大数据处理技术》班级主页

全力打造全国高校大数据教学示范班级

厦门大学研究生课程

《大数据处理技术》2023班级主页

全面系统讲解Spark技术及其编程方法

(扫一扫手机访问本主页)

课程简介

课程名称:《大数据处理技术》

课程性质:校级研究生选修课

课程难度:入门级,零基础(课程采用林子雨编著的入门级精品教材,丰富的教材配套资源帮助学生实现“零基础”学习大数据)

授课教师:林子雨

开课学期:2023年春季学期(2月到6月)

课程学时:每周2节,共15周,32学时,2学分

上课教室:翔安校区学武楼(1号楼)A206

课程助教:无

学生名单(100人):

赵龙杰 蔡迅飞 陈彦伟 陈远帆 符洪浩 何子豪 黄伟源 简亚军 蓝宗煜 雷振康 李嘉健 李智鹏 梁戈豪 林龙星 刘思寒 钱志鹏 宋佳 宋绪阳 孙武进 谭贺娟 王榕 吴庆垚 邢明炜 熊镇涛 徐靖 杨雪莲 杨志群 应俊杰 余薇 曾清源 曾涛 张晓庆 郑毅 周周澳 周子柯 黄书恒 赵力锐 黄驰 林志航 张金璐 李漓江 孙同 陈泽航 高体民 郭天宇 赖芹 赖映鑫 蓝浩 李桂林 林佳燕 欧婉滢 潘文胜 王一鸣 叶锴 张一帆 张智铖 周毓尧 邵铭塬 幸吉伟 杨杰 许世毓 张超星 杜佳祺 顾嘉炜 陈业维 蔡煜晖 洪涯瑶 柯淇文 刘久一 余子祥 庄震丰 陈榆 代浪 丁虎 范晰雯 高楠希 黄冠杰 黄菊 刘浩然 马陈楠 邵涵洋 邵笑 谭心怡 万安帮 万峥 王舒洋 王思伟 翁丽娟 吴冠毓 夏云洲 杨博淳 杨志伟 曾逸洲 张晟 张诗诗 张玉斌 周愉博 周宗涛 黄健亨 向姝可

教师简介

示范班级

林子雨主讲厦门大学研究生课程《大数据处理技术》是“高校大数据课程公共服务平台”重点打造的示范班级,全程严格执行“林子雨精品大数据公开课六大质量标准”,旨在努力打造高校大数据教学实践标杆。

示范班级全程践行O2O教学理念,提供线上线下完整教学服务,学生在获得良好现场教学体验的同时,可以通过班级网站获得全方位课程指导和服务。示范班级标准元素包括:班级主页、标准教室、精心备课、精彩讲解、优雅形象、标准音质、完整服务等。

公告板

教学大纲

厦门大学研究生课程教学大纲

(2)积极践行O2O教学理念,努力提升教学水平,在大数据课程教学方面积极开拓创新,实现线下教学和线上服务的巧妙结合。课程主讲教师建设了国内高校首个大数据课程公共服务平台,提供讲义PPT、课程习题、学习指南、授课视频、技术资料等全方位、一站式免费服务,帮助学生更好学习大数据课程。

林子雨,郑海山,赖永炫.Spark编程基础(Python版),人民邮电出版社,2019.

1     第1章 大数据技术概述

大数据的基本概念、关键技术和代表性软件 2

2     第2章 Spark的设计与运行原理

Spark简介、运行架构、RDD的设计与运行原理、部署模式   2

3     第3章Spark环境搭建和使用方法

Spark的基本安装方法,如何在spark-shell中运行代码以及如何开发Spark独立应用程序  2

4     第3章Spark环境搭建和使用方法

Spark集群环境搭建, 在集群上运行Spark应用程序       2

5     第4章 RDD编程

RDD编程基础、键值对RDD 2

6     第4章 RDD编程

RDD编程基础、键值对RDD 2

7     第4章 RDD编程

RDD编程综合案例   2

8     第5章 Spark SQL

Spark SQL简介、DataFrame、读写Parquet    2

9     第5章 Spark SQL

通过JDBC连接数据库、连接Hive读写数据  2

10   第6章 Spark Streaming

流计算概述、Spark Streaming、DStream操作概述、基本输入源、高级输入源      2

11   第6章 Spark Streaming

转换操作、输出操作      2

12   第7章 Structured Streaming

概述、编写Structured Streaming程序的基本步骤、输入源    2

13   第7章 Structured Streaming

输出操作、容错处理、迟到数据的处理、查询的管理和监控 2

14   第8章 Spark Mllib

Spark MLlib简介、机器学习工作流、特征抽取

转化和选择、分类与回归     2

15   第8章 Spark Mllib

聚类算法、推荐算法、机器学习参数调优     2

16   Spark编程综合案例 2

期末考试

合计      32

教学进度表

讲义PPT下载

课后作业

课程教材

本课程采用林子雨编著《Spark编程基础(Python版)》,让初学者零基础零障碍学习Spark。本书以Python作为开发Spark应用程序的编程语言,系统介绍了Spark编程的基础知识。全书共8章,内容包括大数据技术概述、Spark的设计与运行原理、Spark环境搭建和使用方法、RDD编程、Spark SQL、Spark Streaming、Structured Streaming和Spark MLlib等。本书每个章节都安排了入门级的编程实践操作,以便读者更好地学习和掌握Spark编程方法。本书官网免费提供了全套的在线教学资源,包括讲义PPT、习题、源代码、软件、数据集、授课视频、上机实验指南等。

拓展学习

林子雨编著《大数据技术原理与应用(第3版)》(人民邮电出版社2021年1月正式出版发行第3版,京东、当当各大网店热销书籍),侧重于介绍大数据技术的实现原理,编程实践内容较少,该教材定位为入门级大数据教材,以“构建知识体系、阐明基本原理、开展初级实践、了解相关应用”为原则,旨在为读者搭建起通向大数据知识空间的桥梁和纽带,为读者在大数据领域深耕细作奠定基础、指明方向。教材系统论述了大数据的基本概念、大数据处理架构Hadoop、分布式文件系统HDFS、分布式数据库HBase、NoSQL数据库、云数据库、分布式并行编程模型MapReduce、数据仓库Hive、大数据处理架构Spark、流计算、流计算框架Flink、图计算、数据可视化以及大数据在互联网、生物医学和物流等各个领域的应用。

详细学习如何安装运行各种大数据软件以及如何进行初级编程实践,包括Hadoop、HDFS、HBase、MapReduce、Spark、Hive、Flink等安装、操作、编程指南。帮助学生“零基础、零障碍”学习大数据技术。

采用2000万条用户购物数据集,案例涉及数据预处理、存储、查询和可视化分析等数据处理全流程所涉及的各种典型操作,涵盖Linux、MySQL、Hadoop、HBase、Hive、Sqoop、R、Eclipse等系统和软件的安装和使用方法。案例适合高校大数据教学,可以作为学生学习大数据课程后的综合实践案例。

THE END
0.面试篇MySQL100道题目,从基础到进阶(二)mysql基础试题花了一周时间收集大量MYSQL经典面试题目📚,内容涵盖了数据库范式、事务、引擎、索引、锁、日志、备份、分区、主从复制等知识点🏝️。适合准备MySQL面试的读者参考和复习🌟📢。 📖Mysql经典面试题目Top100道题🔥🔥 1 - 25 题 26 - 50 题 ◀️ 51 - 75 题 76 - 100 题 🔸题目目录: 26.jvzquC41dnuh0lxfp0tfv8r2a6<13<<:;1gsvrhng1jfvjnnu1752@53249
1.面试篇MySQL100道题目,从基础到进阶(三)mysql试题初级中级面试篇 -MySQL 100道题目,从基础到进阶(三) 花了一周时间收集大量MYSQL经典面试题目📚,内容涵盖了数据库范式、事务、引擎、索引、锁、日志、备份、分区、主从复制等知识点🏝️。适合准备MySQL面试的读者参考和复习🌟📢。 📖Mysql经典面试题目Top100道题🔥🔥jvzquC41dnuh0lxfp0tfv8r2a6<13<<:;1gsvrhng1jfvjnnu1752@76227
2.SQL基础知识题库100道及答案(完整版).docxSQL基础知识题库100道及答案(完整版) 1.在SQL中,用于创建表的语句是() A.CREATETABLEB.INSERTINTOC.UPDATED.DELETE 答案:A 2.以下哪个关键字用于在SQL中添加数据() A.ADDB.INSERTC.APPENDD.PUT 答案:B 3.在SQL中,用于从表中检索数据的语句是() jvzquC41o0hpqt63:0ipo8mvon532;912;841@5443672:;2287667xjvo
3.计算机一级基础知识练习题今天小编与大家分享计算机基础知识练习题,有兴趣的朋友不妨了解下。看看你能答对几道 计算机基础知识练习题 1、计算机主机是由CPU与下列哪种设备共同构成的( ) A.控制器 B.运算器 C.输入、输出设备 D.内存储器 2、计算机能直接执行的指令包括两部分,它们是( )jvzquC41yy}/qq6220ipo8pcqunj1whtg35uktz172>3893jvor
4.100道MySQL数据库面试题解析mysql理论例题讲解13.数据库的乐观锁和悲观锁。 悲观锁: 悲观锁她专一且缺乏安全感了,她的心只属于当前事务,每时每刻都担心着它心爱的数据可能被别的事务修改,所以一个事务拥有(获得)悲观锁后,其他任何事务都不能对数据进行修改啦,只能等待锁被释放才可以执行。 jvzquC41dnuh0lxfp0tfv87623e9;?<:2:60c{ykenk0fnyckny03=97;5?89
5.250道《数据库》在线考试题,练过一遍,直接飞起!数据库在线练习一个数据库最多可以创建()个数据表 A 1个 B 2个 C 1个或2个 D 多个 参考答案: D 解析: 无 2.(0.25分)单选题 0 下面选项中,能够更新表student中id值小于4的SQL语句是() A ALTERTABLEstudent where id<4; B UPDATE student set grade=100 where id<4; jvzquC41dnuh0lxfp0tfv8|gkzooa>92296278ftvkimg8igvcomu865;7=57?=
6.100道MySQL常见面试题总结(推荐)面试技巧IT职场规划因此决定搞一个MySQL灵魂100问,试着用回答问题的方式,让自己对知识点的理解更加深入一点. 此文不会事无巨细的从select的用法开始讲解mysql,主要针对的是开发系统(数据库)总是从一个一致性的状态转移到另一个一致性的状态,不会存在中间状态. I=Isolation 隔离性: 通常来说:一个事务在完全提交之前,对其他事务jvzquC41yy}/lk:30pku1ry18:?4:=3jvor
7.本科教育教学审核评估应知应会100题(八)4.问:高校教学基本状态数据库在审核评估中发挥什么作用? 答:数据库本身既是教学评估制度的一个有机组成部分,同时也在审核评估中,全程为评估考核提供基础辅助作用。进校前,学校通过填报教学基本状态数据全面系统梳理教学活动,完成数据信息积累,为撰写《自评报告》提供支撑材料。与此同时,在数据库中,学校的教学活动在数jvzq<84{uupy{7ice0kew7hp1fkucrq13483a;8d547b8mke5f=19mfhe;7ee=95gfh3f7mvon
8.阿里java高级工程师面试100题「建议收藏」腾讯云开发者社区原因可能是A,数据加载过多,如1次从数据库中取出过多数据 B,集合类中有对对象的引用,用完后没有清空或者集合对象未置空导致引用存在等,是的JVM无法回收 C,死循环,过多重复对象 D,第三方软件的bug E,启动参数内存值设定的过小。 例如方法:修改JVM启动参数,加内存(-Xms,-Xmx);错误日志,是否还有其他错误;代码jvzquC41enuvf7ygpekov7hqo1jfxnqqrgx0c{ykenk04983359
9.CDSP数据安全专家认证考试题库(预测100题).docx数据治理认证考试题库 CDSP 安全基础知识考试题库(共100题) 站内产品 VIP去掉 2/29页 预览加载中,请您耐心等待几秒 3/29页 预览加载中,请您耐心等待几秒 4/29页 预览加载中,请您耐心等待几秒 5/29页 此“教育”领域文档为创作者个人分享资料,不作为权威性指导和指引,仅供参考 jvzquC41o0hpqt63:0ipo8mvon532;7133841>7455945=72326347xjvo
10.数据库面试时常见的26个问题(附实例,纯干货)数据库面试常见问题存储过程是一个预编译的SQL语句, 简单的说存储过程是为了完成某个数据库中的特定功能而编写的语句集,该语句集包括SQL语句(对数据的增删改查)、条件语句和循环语句等。优点是允许模块化的设计,就是说只需创建一次,以后在该程序中就可以调用多次。如果某次操作需要执行多次SQL,使用存储过程比单纯SQL语句执行要快。可jvzquC41dnuh0lxfp0tfv8Fuccyb38ftvkimg8igvcomu8629:98;>: