任务二、网络爬虫实现
一、任务描述
编写大学排名爬虫程序,从“最好大学网”获取“软科中国最好大学排名”2016、2017、2018年的国内大学排名数据,并将它们输出出来。2016年中国最好大学排名网址
目的
1、学习运用requests库编写基本URL访问过程
2、学习运用beautifulsoup4库解析和处理HTML
3、掌握编写网络爬虫的基本方法
二、任务分析
(必须有,主要分析任务需求,完成任务的思路与方法,采用的技术等,如爬虫的任务分析)
1、爬虫程序的构建需要三个步骤:
1)从网络上获取网页内容;
2)分析网页内容并提取所需数据存储到恰当的数据结构中;
3)输出数据或进一步处理数据。
因此,采用requests 库爬取网页内容,使用beautifulsoup4 库分析网页中数据,提取并存储大学排名数据,由于大学排名是一个典型的二维数据,因此,采用二维列表存储该排名所涉及的数据。
2、为了解析页面上的数据,首先需要观察页面的特点,即找到拟获取数据在HTML页面中的格式,通过查看网页源码,可以发现,每个大学排名的数据被封装在在一个<tr></tr>之间的结构中。这是HTML表示表格中一行的标签,在这行中,每列内容采用<td></td>表示。因此,要获取其中的数据,需要首先找到<tr></tr>标签,并遍历其中每个<td></td>标签,获取其中的数据并存入列表中。
3、将二维列表中的数据按一定的格式输出
三、实现过程与方法描述
(必须有,描述实现任务的具体方法步骤)
1、安装requests库和beautifulsoup4库
pip install requests
pip install beautifulsoup4
2、导入requests 和beautifulsoup4库
四、遇到的问题与解决情况
(可选,主要说明你在这个任务中遇到哪些问题?你是如何通过分析问题产生的原因并解决这些问题的?)
1、遇到的问题
2、原因分析
3、解决方法
五、功能扩展
(可选,实现了任务要求外的功能,或者采用了不同的技术方法,主要说明实现了哪些扩展的功能,具体实现的方法,产生的结果)
1、功能
2、方法
六、运行结果
(必须有,几个主要的运行结果界面截图,可3~6个,适当的调整图片大小,且居中对齐,并在图片下面对图片做简要的标注,如:)
图1 2016年中国大学排名
七、总结与反思
(必须有,对任务完成情况做一个总结,并说明你在这个任务中理解掌握了哪些知识?有什么体会,受到哪些启发?对你今后的学习或者解决问题有什么意义等)
版权所有:编程辅导网 2021 All Rights Reserved 联系方式:QQ:99515681 微信:codinghelp 电子信箱:99515681@qq.com
免责声明:本站部分内容从网络整理而来,只供参考!如有版权问题可联系本站删除。