林子雨编著《数据采集与预处理》教材官网|mysql数据库基础知识入门_股票知识

全国高校知名大数据教师精品力作

出版社：人民邮电出版社 2022年2月第1版

ISBN：978-7-115-58063-4 定价：59.80 元

教材已经在京东、当当等各大网店上市销售

提供讲义PPT、教学大纲、教案、慕课视频、实验答案、软件、代码、课程思政案例

第2版教材书稿已经提交出版社，预计2025年1月上市销售

第2版教材书号978-7-115-65728-2，人民邮电出版社，定价69.8元

扫一扫访问本网页

样书申请

授课教师可以向人民邮电出版社申请样书，出版社联系人孙澍（手机：18911351293），或者也可以扫描下面二维码申请样书。

扫码申请样书

本书详细阐述了大数据领域数据采集与预处理的相关理论和技术。全书共8章，内容包括概述、大数据实验环境搭建、网络数据采集、分布式消息系统Kafka、日志采集系统Flume、数据仓库中的数据集成、ETL工具Kettle、使用pandas进行数据清洗。本书在网络数据采集、Kafka、Flume、Kettle、pandas等重要章节安排了丰富的实践操作，以便读者更好地学习和掌握数据采集与预处理的关键技术。

1.容易开展上机实践操作。本书采用Windows系统搭建实验环境，以Python作为编程语言，入门门槛低，很容易完成书上的各种上机实验。同时，也提供了在Linux系统中开展实验的详细指南。

2.包含丰富的实验案例。数据采集与预处理是一门注重培养学生动手能力的课程，为了提高学生的动手能力，全书提供了丰富的实验案例。

3.提供丰富的教学配套资源。为了帮助高校一线教师更好地开展教学工作，本书配套了丰富的教学资源，如讲义PPT、教学大纲、教案、实验手册以及在线自主学习平台等。

下面讲义PPT是2022年1月朴素版本。如果要获取2022年12月制作的精美版本PPT，请到下面的【下载专区】栏目中下载。

“下载专区”提供了与教材配套的各种资源的下载，包括讲义PPT、教学大纲、教案、软件、代码、数据集、实验答案等。这些资源（除软件外）的版权归作者林子雨所有，侵权必究。高校教师可以免费下载这些资源用于教学用途。

“下载专区”的百度网盘链接是：

【500道题库】

补充一些教材中没有写出来的上机操作。

建议安排28学时，这28学时仅仅包括理论授课，也就是老师在课堂讲授的学时，不包括学生上机实验学时，老师可以根据需要再额外安排上机实验学时。

章节

28学时

第1章概述

第2章实验环境搭建

第3章网络数据采集

第4章分布式消息系统Kafka

第5章日志采集系统Flume

第6章数据仓库中的数据集成

第7章 ETL工具Kettle

第8章使用pandas进行数据清洗

第1章概述

1.1 数据

数据的概念、数据类型、数据组织形式

数据的价值、数据爆炸

1.2 数据分析过程

1.3 数据采集与预处理的任务

1.4 数据采集

数据采集概念、数据采集的三大要点、数据采集的数据源、数据采集方法

1.5 数据清洗

数据清洗的应用领域、数据清洗的实现方式、数据清洗的内容

数据清洗的注意事项、数据清洗的基本流程、数据清洗的评价标准

1.6 数据集成

1.7 数据转换

数据转换策略、平滑处理、规范化处理

1.8 数据脱敏

第2章大数据实验环境搭建

2.1 Python的安装和使用

Python简介、Python的安装、Python的基本使用方法、Python基础语法知识

Python第三方模块的安装

2.2 JDK的安装

2.3 MySQL数据库的安装和使用

关系数据库、关系数据库标准语言SQL、安装MySQL、MySQL数据库的使用方法

使用Python操作MySQL数据库（连接数据库、创建表、插入数据、修改数据、删除数据）

2.4 Hadoop的安装和使用

Hadoop简介、分布式文件系统HDFS、Hadoop的安装、HDFS的基本使用方法

第3章网络数据采集

3.1 网络爬虫概述

什么是网络爬虫、网络爬虫的类型、反爬机制

3.2 网页基础知识

超文本和HTML、HTTP

3.3 用Python实现HTTP请求

urllib模块、urllib3模块、requests模块

3.4 定制requests

传递URL参数、定制请求头、网络超时

3.5 解析网页

BeautifulSoup简介、BeautifulSoup四大对象、遍历文档树、搜索文档树CSS选择器

3.6 综合实例

采集网页数据保存到文本文件、采集网页数据保存到MySQL数据库

3.7 Scrapy爬虫

Scrapy爬虫概述、XPath语言、Scrapy爬虫实例

第4章分布式消息系统Kafka

4.1 Kafka简介

Kafka的特性、Kafka的应用场景、Kafka的消息传递模式

4.2 Kafka在大数据生态系统中的作用

4.3 Kafka与Flume的区别与联系

4.5 Kafka的安装和使用

4.6 使用Python操作Kafka

4.7 Kafka与MySQL的组合使用

第5章日志采集系统Flume

5.1 Flume简介

5.2 Flume的安装和使用

5.3 Flume和Kafka的组合使用

5.4 采集日志文件到HDFS

采集目录到HDFS、采集文件到HDFS

5.5 采集MySQL数据到HDFS

第6章数据仓库中的数据集成

6.1 数据仓库概念

传统的数据仓库、实时主动数据仓库

6.2 数据集成

数据集成方式、数据分发方式、数据集成技术

6.3 ETL

ETL简介、ETL基本模块、ETL模式、ETL工具

6.4 CDC

特性、组成、具体应用场景、需要考虑的问题

第7章 ETL工具Kettle

7.1 Kettle的基本概念

7.2 Kettle的基本功能

7.3 安装Kettle

7.4 数据抽取

把文本文件导入到Excel文件中、把文本文件导入MySQL数据库中

把Excel文件导入到MySQL数据库中

7.5 数据清洗与转换

使用Kettle实现数据排序、在Kettle中用正则表达式清洗数据

使用Kettle去除缺失值、使用Kettle转化MySQL数据库中的数据

7.6 数据加载

把本地文件加载到HDFS中、把HDFS文件加载到MySQL数据库中

第8章使用pandas进行数据清洗

8.1 NumPy的基本使用方法

数组创建、数组索引和切片、数组运算

8.2 pandas数据结构

Series、DataFrame、索引对象

8.3 基本功能

重新索引、丢弃指定轴上的项、索引、选取和过滤

算术运算、DataFrame和Series之间的运算、函数应用和映射

排序和排名、分组、shape函数、info()函数、cut()函数

THE END

林子雨编著《数据采集与预处理》教材官网

什么是y初学者入门知识

y数据库基本知识从入门到入坟

云数据库y版可弹性伸缩的托管y数据库

y数据库精选（从入门使用到底层结构）漫思

park课程综合实验案例：淘宝双数据分析与预测

林子雨编著《数据采集与预处理》教材官网