Python大神5 分钟掌握智联招聘网站爬取数据库,快来围观!

2018-03-01 11:03:55来源:https://www.jianshu.com/p/af5162b3b587作者:Python学习人点击

分享






前言

本次主题分两篇文章来介绍:

一、数据采集

二、数据分析

第一篇先来介绍数据采集,即用python爬取网站数据。

1 运行环境和python库

先说下运行环境:

python3.5

windows 7, 64位系统

python库

本次智联招聘的网站爬取,主要涉及以下一些python库:

requests

BeautifulSoup

multiprocessing

pymongo

itertools

2 爬取的主要步骤

根据关键字、城市、以及页面编号生成需要爬取的网页链接,小编推荐一个学Python的学习裙【五八八,零九零,九四二】,无论你是大牛还是小白,是想转行还是想入行都可以来了解一起进步一起学习!裙内有很多干货和技术分享

用requests获取相应的网页内容

用BeautifulSoup解析,获取需要的关键信息

将爬取的信息存入MongoDB数据库中,插入新记录或更新已有记录

用multiprocessing启动多进程进行爬取,提高运行效率





3 文件组成

信息配置文件“zhilian_kw_config.py”

爬虫主运行文件“zhilian_kw_spider.py”

在配置文件中设置需要爬取的信息,然后运行主程序进行内容抓取。

配置文件“zhilian_kw_config.py”的内容如下:





爬虫主运行文件“zhilian_kw_spider.py”的内容如下:














最新文章

123

最新摄影

闪念基因

微信扫一扫

第七城市微信公众平台