对各大招聘网站进行人才信息的采集,采集数据存储在mysql中,数据量:2千万/月
详情描述:
1. 像大街网这样更换登录cookie的网站,通过判断响应回来的状态码判断是否更换cookie,需要更换
cookie,发送搜索页的请求获得新的cookie,携带新的cookie获取数据
2. 多数网站有封ip的机制,比如智联招聘、拉钩网等,自己封装了个ip代理池,解决ip的可用性,并且定期更换ip代理池的ip数量
3. 将爬取到的数据存入到redis中提高存储和查询效率,随着数据量越来越大,将部分数据存入到mysql中
4. 利用Django和echarts将数据按照分类进行可视化处理