通过Python来抓取拉钩的招聘信息,然后加以分析,对北京的Python职位地域分布、薪资范围、福利待遇等维度出一个简单的分析报告。使用Python的requests工具到招聘网站爬取我们想要的数据,分析和可视化也使用Python的相关模块来实现,主要有如下:
Python版本:Python 3.x
requests:发起请求,从网站抓取数据
math:数学运算函数,向上取整,这里主要用于分析数据
time:时间模块,主要是控制爬虫不会因为频繁请求而被网站拉进小黑屋
pandas:数据抓取后使用该模块保存为csv文件到本地
matplotlib:可视化画图
pylab:设置画图能显示中文
wordcloud、scipy、jieba(字符串分割成单词):生成中文词云