林子雨编著《数据采集与预处理》教材官网

全国高校知名大数据教师精品力作

出版社:人民邮电出版社  2022年2月第1版

ISBN:978-7-115-58063-4   定价:59.80 元

教材已经在京东、当当等各大网店上市销售

提供讲义PPT、教学大纲、教案、慕课视频、实验答案、软件、代码、课程思政案例

第2版教材书稿已经提交出版社,预计2025年1月上市销售

第2版教材书号978-7-115-65728-2,人民邮电出版社,定价69.8元

扫一扫访问本网页

样书申请

授课教师可以向人民邮电出版社申请样书,出版社联系人孙澍(手机:18911351293),或者也可以扫描下面二维码申请样书。

扫码申请样书

本书详细阐述了大数据领域数据采集与预处理的相关理论和技术。全书共8章,内容包括概述、大数据实验环境搭建、网络数据采集、分布式消息系统Kafka、日志采集系统Flume、数据仓库中的数据集成、ETL工具Kettle、使用pandas进行数据清洗。本书在网络数据采集、Kafka、Flume、Kettle、pandas等重要章节安排了丰富的实践操作,以便读者更好地学习和掌握数据采集与预处理的关键技术。

1.容易开展上机实践操作。本书采用Windows系统搭建实验环境,以Python作为编程语言,入门门槛低,很容易完成书上的各种上机实验。同时,也提供了在Linux系统中开展实验的详细指南。

2.包含丰富的实验案例。数据采集与预处理是一门注重培养学生动手能力的课程,为了提高学生的动手能力,全书提供了丰富的实验案例。

3.提供丰富的教学配套资源。为了帮助高校一线教师更好地开展教学工作,本书配套了丰富的教学资源,如讲义PPT、教学大纲、教案、实验手册以及在线自主学习平台等。

下面讲义PPT是2022年1月朴素版本。如果要获取2022年12月制作的精美版本PPT,请到下面的【下载专区】栏目中下载。

“下载专区”提供了与教材配套的各种资源的下载,包括讲义PPT、教学大纲、教案、软件、代码、数据集、实验答案等。这些资源(除软件外)的版权归作者林子雨所有,侵权必究。高校教师可以免费下载这些资源用于教学用途。

“下载专区”的百度网盘链接是:

【500道题库】

补充一些教材中没有写出来的上机操作。

建议安排28学时,这28学时仅仅包括理论授课,也就是老师在课堂讲授的学时,不包括学生上机实验学时,老师可以根据需要再额外安排上机实验学时。

章节

28学时

第1章 概述

第2章 实验环境搭建

第3章 网络数据采集

第4章 分布式消息系统Kafka

第5章 日志采集系统Flume

第6章 数据仓库中的数据集成

第7章  ETL工具Kettle

第8章 使用pandas进行数据清洗

第1章 概述

1.1 数据

数据的概念、数据类型、数据组织形式

数据的价值、数据爆炸

1.2 数据分析过程

1.3 数据采集与预处理的任务

1.4 数据采集

数据采集概念、数据采集的三大要点、数据采集的数据源、数据采集方法

1.5 数据清洗

数据清洗的应用领域、数据清洗的实现方式、数据清洗的内容

数据清洗的注意事项、数据清洗的基本流程、数据清洗的评价标准

1.6 数据集成

1.7 数据转换

数据转换策略、平滑处理、规范化处理

1.8 数据脱敏

第2章 大数据实验环境搭建

2.1 Python的安装和使用

Python简介、Python的安装、Python的基本使用方法、Python基础语法知识

Python第三方模块的安装

2.2 JDK的安装

2.3 MySQL数据库的安装和使用

关系数据库、关系数据库标准语言SQL、安装MySQL、MySQL数据库的使用方法

使用Python操作MySQL数据库(连接数据库、创建表、插入数据、修改数据、删除数据)

2.4 Hadoop的安装和使用

Hadoop简介、分布式文件系统HDFS、Hadoop的安装、HDFS的基本使用方法

第3章 网络数据采集

3.1 网络爬虫概述

什么是网络爬虫、网络爬虫的类型、反爬机制

3.2 网页基础知识

超文本和HTML、HTTP

3.3 用Python实现HTTP请求

urllib模块、urllib3模块、requests模块

3.4 定制requests

传递URL参数、定制请求头、网络超时

3.5 解析网页

BeautifulSoup简介、BeautifulSoup四大对象、遍历文档树、搜索文档树CSS选择器

3.6 综合实例

采集网页数据保存到文本文件、采集网页数据保存到MySQL数据库

3.7 Scrapy爬虫

Scrapy爬虫概述、XPath语言、Scrapy爬虫实例

第4章 分布式消息系统Kafka

4.1 Kafka简介

Kafka的特性、Kafka的应用场景、Kafka的消息传递模式

4.2 Kafka在大数据生态系统中的作用

4.3 Kafka与Flume的区别与联系

4.5 Kafka的安装和使用

4.6 使用Python操作Kafka

4.7 Kafka与MySQL的组合使用

第5章 日志采集系统Flume

5.1 Flume简介

5.2 Flume的安装和使用

5.3 Flume和Kafka的组合使用

5.4 采集日志文件到HDFS

采集目录到HDFS、采集文件到HDFS

5.5 采集MySQL数据到HDFS

第6章 数据仓库中的数据集成

6.1 数据仓库概念

传统的数据仓库、实时主动数据仓库

6.2 数据集成

数据集成方式、数据分发方式、数据集成技术

6.3 ETL

ETL简介、ETL基本模块、ETL模式、ETL工具

6.4 CDC

特性、组成、具体应用场景、需要考虑的问题

第7章  ETL工具Kettle

7.1 Kettle的基本概念

7.2 Kettle的基本功能

7.3 安装Kettle

7.4 数据抽取

把文本文件导入到Excel文件中、把文本文件导入MySQL数据库中

把Excel文件导入到MySQL数据库中

7.5 数据清洗与转换

使用Kettle实现数据排序、在Kettle中用正则表达式清洗数据

使用Kettle去除缺失值、使用Kettle转化MySQL数据库中的数据

7.6 数据加载

把本地文件加载到HDFS中、把HDFS文件加载到MySQL数据库中

第8章 使用pandas进行数据清洗

8.1 NumPy的基本使用方法

数组创建、数组索引和切片、数组运算

8.2 pandas数据结构

Series、DataFrame、索引对象

8.3 基本功能

重新索引、丢弃指定轴上的项、索引、选取和过滤

算术运算、DataFrame和Series之间的运算、函数应用和映射

排序和排名、分组、shape函数、info()函数、cut()函数

THE END
0.MySQL数据库入门看这一篇就够(超级详细,从零学起)mysql入门文章浏览阅读1.3w次,点赞69次,收藏255次。学习MySQL数据库是一个循序渐进的过程,从基本的概念到高级的操作和优化都有很多知识点需要掌握。下面是一个详细的学习指南,涵盖了从基础到高级的内容。_mysql入门jvzquC41dnuh0lxfp0tfv8ftx2631jwvkerf1mjvckrt1:8;95<46>
1.数据库快速入门数据库快速入门 本文档旨在介绍如何创建 MySQL 数据库实例、进行基本设置以及连接到数据库实例。引导新手快速了解基础场景的操作和配置及相关功能。 步骤一:创建 MySQL 数据库实例 进入交大云控制台。 点击“数据库”->“创建数据库”按钮,弹出数据库创建页面。 jvzquC41lerpwm3ulv{/gmz0ep5eqlzogpz0fnyckn4ivvqAkfC22<8
2.MySQLMySQL入门基础mysql数据库基础知识【MySQL】MySQL入门基础 本文介绍了数据库的基础概念,比较了文件存储与数据库的区别,重点讲解了MySQL的基本使用,包括连接服务器、数据库管理、数据表结构、SQL分类以及InnoDB和MyISAM存储引擎的特性。 该文章已生成可运行项目,预览并下载项目源码 文章目录 一、数据库基础jvzquC41dnuh0lxfp0tfv8r2a8=6;>8361gsvrhng1jfvjnnu1746;83927
3.MySQL数据库入门最详细的入门教学mysql使用入门教程二、MySQL基础知识 三、进入MySQL 四、数据库的基本操作 五、数据表的基本操作 六、数据的基本操作 一、前言 作者作为一名自学测试开发的爱好者,因为正在学习网页设计,考虑到后台问题,所以便自学了数据库,可能给大家总结的不是很全,但是一些必要的点肯定会讲到。现在市场上有很多图形化的数据库,没有什么可讲的,读 jvzquC41dnuh0lxfp0tfv8|gkzooa?<7758628ftvkimg8igvcomu8645:815B>
4.Mysql基础知识点汇总Mysql本文给大家汇总介绍了mysql的23个基础的知识点,这些都是学习mysql的必备知识,小伙伴们可以参考下。GPT4.0+Midjourney绘画+国内大模型 会员永久免费使用!【 如果你想靠AI翻身,你先需要一个靠谱的工具!】 1.什么是SQL语句 sql语言:结构化的查询语言。(Structured Query Language),是关系数据库管理系统的标准语言。 jvzquC41yy}/lk:30pku1jwvkerf1@75;;4ivv
5.MySQL数据库的基础知识^更上一层楼$1.数据库day01 数据库介绍: 1.随意存放在一个文件中的数据,数据的格式千差万别 tank|123 jason:123 sean~123 2.软件开发目录规范 Project: conf bin core db: 存放一个个的文件 1、2都是从本地读取的数据。 3.将所有数据存放到一个第三方的jvzquC41yy}/ewgnqiy/exr1du813B4r13815@7720nuou
6.MySQL入门教程MySQL 入门教程 MySQL是最流行的关系型数据库管理系统,在WEB应用方面MySQL是最好的RDBMS(Relational Database Management System:关系数据库管理系统)应用软件之一。 在本教程中,会让大家快速掌握MySQL的基本知识,并轻松使用MySQL数据库。 什么是数据库? 数据库(Database)是按照数据结构来组织、存储和管理数据的仓库,jvzquC41yy}/y
7.快速入门数据库快速入门 本文档旨在介绍如何创建 MySQL 数据库实例、进行基本设置以及连接到数据库实例。引导新手快速了解基础场景的操作和配置及相关功能。 步骤一:创建 MySQL 数据库实例 进入交大云控制台。 点击“数据库”->“创建数据库”按钮,弹出数据库创建页面。 jvzquC41lerpwm3ulv{/gmz0ep5eqlzogpz0fnyckn4ivvqAoqj>s|yctv,jfF6255
8.Mysql基础(入门)例如:在mysql里创建一个库createdatabasedb3;它在文件系统里就是多了一个目录,cd /var/lib/mysql/(yum安装数据库数据存储的位置) 在这里面有一个db3目录,这就是刚刚create database db3做出来的。cd db3,ls 有个初始文件,db.opt。 在数据库创建一张表createtablet3(id int);再切过去看会发现多了一个jvzquC41dnuh0lxfp0tfv8|gkzooa>8372:528ftvkimg8igvcomu86488=8;A8
9.MySQL零基础入门:从安装到实战的全流程指南mysql0基础无论是初创公司快速搭建业务系统,还是大型企业处理海量数据,MySQL都能提供可靠的支持。本文将带大家从零开始,系统且深入地了解MySQL的基础知识,为后续的进阶学习和实践打下坚实的基础。 目录 一、什么是MySQL 二、安装与连接MySQL 三、创建数据库和表 四、数据的增删查改jvzquC41dnuh0lxfp0tfv8ha32841jwvkerf1mjvckrt1:9::583;?
10.MySQL数据库入门(超详细,多图解)mysql使用教程图解MySQL数据库入门(超详细,多图解) 本文从基础知识出发,详细介绍了在DOS环境下MySQL的安装、登录及基本操作,包括数据库、数据表的创建、查询、修改和删除等操作。适合初学者快速上手。 一,前言 作者是一名双非本科大二在校学生,因为闲得无聊就自学了数据库,从软件领域来说吧,无论是C/S、B/S架构的软件,只要涉及jvzquC41dnuh0lxfp0tfv8vsa7732A9641gsvrhng1jfvjnnu1734>9536<
11.MySQL数据库基础学习入门教程(非常详细)MySQL数据库基础学习入门教程(非常详细) 本文介绍了MySQL的基础知识,包括数据库的概念,如DBMS和SQL,以及主流的数据库管理系统。接着详细阐述了MySQL的下载、安装过程,特别是社区版本的特性。安装步骤包括同意许可协议、自定义安装、配置服务器和设置root用户密码。最后,文章提供了通过命令行连接MySQL的方法,并提到了PythonjvzquC41dnuh0lxfp0tfv8}z38=67=>:;9?0c{ykenk0fnyckny03<687;?66
12.MySQL数据库介绍——初始数据库MySQL腾讯云开发者社区哈喽大家好我是网络豆云计算运维人员,本系列文章主要给大家讲解MySQL数据库的一些操作,从入门到精通,本文讲解的是MySQL数据库的认识。和我一起进入数据库的世界吧! 一.数据库基础知识 Mysql是⼀个开放源代码的数据库管理系统(DBMS) ,它是由 Mysql AB 公司开发、发布并⽀持的。 Mysql 是⼀个跨平台的开源关系jvzquC41enuvf7ygpekov7hqo1jfxnqqrgx0c{ykenk04=9;;9;