Python数据爬取与可视化
Python数据爬取与可视化
少于1000 人选课
更新日期:2025/05/15
开课平台学银在线
开课高校南华大学
开课教师李晓昀罗江琴陈星周倩芳余颖
学科专业工学计算机类
开课时间2025/03/07 - 2025/06/10
课程周期14 周
开课状态开课中
每周学时-
课程简介

    大数据时代,基于数据获取和数据分析去发现问题并做出科学、客观的决策变得越来越重要。在数据分析技术应用中,爬虫程序作为数据采集的重要手段之一,不仅在大数据、人工智能行业有广泛的应用,在其他工科、医科、商科、文科等学科也有重要应用。

    本课程的目标是教会学生使用Python程序设计语言编写程序,能够在互联网上进行不同类型数据爬取,并能够进行相应的数据预处理、数据存储、数据可视化以及简单数据分析。整门课程按照主题,分为了4个大型案例,每个案例设置了不同的情境与任务,不断地提出问题,引导学习者不断地完善改进程序,精益求精。

    课程内容安排如下:

    【预备知识1】Python语言基础

    【预备知识2】爬虫基础(爬虫编写道德规范、理解请求响应、了解HTTP、HTML、requests库)

    【案例1】单页面静态数据爬取与可视化

    【案例2】多页面静态数据爬取与存储

    【案例3】动态数据爬取与可视化

    【案例4】复杂数据爬取与可视化


课程大纲

Python语言快速入门

  • 1.1 Python语言基础语法
  • 1.2 python123平台作业说明
  • 1.3 IPO程序设计与顺序结构
  • 1.4 程序控制之分支结构
  • 1.5 程序控制之循环结构
  • 1.6 模块化思维与函数
  • 1.7 组合数据类型
  • 1.8 文件操作

爬虫基础

  • 2.1 关于爬虫的重要提示
  • 2.2 从一个请求开始
  • 2.3 HTTP那些事儿
  • 2.4 认识HTML
  • 2.5 requests简介

静态数据采集、处理与词云绘制

  • 3.1 政府工作报告爬取与预处理
  • 3.2 细说词云绘制
  • 3.3 词频统计

多页面文本数据采集与存储

  • 4.1 单章节小说爬取模块化
  • 4.2 多章节网络小说爬取
  • 4.3 多章节网络小说存储
  • 4.4 小说爬取中常见问题解决

动态数据采集

  • 5.1 任务进阶安排
  • 5.2 从一个城市开始
  • 5.3 动态查询一个城市天气
  • 5.4 动态天气查询进阶版
  • 5.5 周边景点当天天气查询
  • 5.6 周边景点7天气温折线图绘制
  • 5.7 一省全域天气查询
  • 5.8 天气数据API

文献数据采集与处理-PubMed

  • 6.1 PubMed文献信息采集与处理(用bs4)
  • 6.2 单篇文献信息获取(XPath)
  • 6.3 同一页面多篇文献信息获取(XPath)
  • 6.4 翻页获取多篇文献信息(XPath)
  • 6.5 多篇文献信息存入Excel(XPath)

2025年春季学期课堂资源

  • 7.1 Lecture1:理解数据对象&IPO编程与输入输出
  • 7.2 Lecture2:数值类型数据操作函数&如何根据条件选择求解问题的路径 & Python标准库
  • 7.3 Lecture3:字符串数据及其操作&数据脱敏
  • 7.4 Lecture 4:采集文本数据应用字符串处理方法进行处理
  • 7.5 Lecture5:如何解决重复操作问题-循环
  • 7.6 Lecture6:训练模块化思维
  • 7.7 Lecture7:PubMed多篇文献数据采集与pandas存储文件