大数据时代,基于数据获取和数据分析去发现问题并做出科学、客观的决策变得越来越重要。在数据分析技术应用中,爬虫程序作为数据采集的重要手段之一,不仅在大数据、人工智能行业有广泛的应用,在其他工科、医科、商科、文科等学科也有重要应用。
本课程的目标是教会学生使用Python程序设计语言编写程序,能够在互联网上进行不同类型数据爬取,并能够进行相应的数据预处理、数据存储、数据可视化以及简单数据分析。整门课程按照主题,分为了4个大型案例,每个案例设置了不同的情境与任务,不断地提出问题,引导学习者不断地完善改进程序,精益求精。
课程内容安排如下:
【预备知识1】Python语言基础
【预备知识2】爬虫基础(爬虫编写道德规范、理解请求响应、了解HTTP、HTML、requests库)
【案例1】单页面静态数据爬取与可视化
【案例2】多页面静态数据爬取与存储
【案例3】动态数据爬取与可视化
【案例4】复杂数据爬取与可视化
完成本课程的学习后,学习者将能收获以下基本技能:
1)熟练分析网页元素、掌握静态页面数据、动态页面数据以及json数据的分析、爬取技能;
2)掌握requests、wordcloud、matplotlib、pyecharts等第三方库的使用;
3)学会第三方库的使用技巧,未来在没有老师教授的情况下也能自主学习,完成任务;
4)培养学习者科学思维,以及互联网时代新的学习方式,为后续专业知识学习、研究及工作需要,奠定数据获取和数据分析的技术基础。
有许多小伙伴对网络爬虫特别感兴趣,但是又觉得自己没有什么编程基础,是不是就不能学习这么课程呢?这里,根据各位小伙伴的程序设计基础,给大家准备了三种方案:
1)如果具备Python程序设计语言基础,学习本课程将会较为轻松,可以直接略过第一部分【Python语言基础】,直接从【爬虫基础】开始学习。
2)如果具备C程序设计语言基础,只需要快速浏览一遍顺序结构、选择结构、循环结构、模块化思维(函数)的语法。但是数据的类型中,包含组合数据类型,这是C语言中没有的,必须先认真学习,掌握之后,再开始学习后续知识,也能够快速上手。
3)如果不具备任何程序设计语言基础,则需要认真观看完【Python语言基础】部分,并完成对应练习,理解Python语言的数据类型、程序控制结构等,具备基本程序设计能力之后,方能较快理解后续章节的相关内容。

