「学术论文」基于Python的网络爬虫技术研究

作者:王碧瑶
来源:《数字技术与应用》2017年第05期

摘要:专用型的网络爬虫能够得到想要的返回结果,本文就以拉勾网作为例子,对基于Python的网络爬虫技术进行研究和分析。

 利用模块化的设计来对网络爬虫系统进行开发,一个通用的爬虫架构需要有爬虫调度端,URL管理器,网页下载器,网页解析器这4个模块。爬虫调度端去启动、停止或者监视爬虫运行情况,URL管理器去对将要爬取的URL和已经爬取过的URL进行管理,网页下载器将URL管理器指定的URL网页下载下来存储为字符串,字符串传送给网页解析器进行解析,并将其中未被抓取过的URL送入URL管理器中。

公司名、地址以及薪水等都需要被抓取然后保存到文件中。拉勾网加载职位信息采用异步加载方式,所以对一系列网络请求分析之后,发现是positionAjax.json请求去响应职位信息,网页存储职位信息采用的是json格式,并且json的层级结构为content-positionResult-result,所以采用json格式读取这种层级结构下的数据。其次就是分页的设计,在json格式content-positionResult-totalCount下存储着该种搜索下职位信息的总个数,发现每页的职位个数为15,只要totalCount/15就可以得出爬取的页数。

「学术论文」基于Python的网络爬虫技术研究-讯岚社区
「学术论文」基于Python的网络爬虫技术研究
此内容为免费资源,请登录后查看
0积分
24小时即使响应售后服务
免费资源
已售 30
© 版权声明
THE END
喜欢就支持一下吧!
点赞7 分享
评论 抢沙发

请登录后发表评论

    暂无评论内容