python数据采集技术栈:
1. scrapy,bs4,requests
2. scrapy-splash
3. xpth规则解析
4. js逆向
5. 异步/分布式数据采集 asyncio/多线程/协程等
6. 三大主流数据库: mysql mongo redis
7. 定时任务采集
8. 布隆去重/数据库去重
1. 全国新闻资讯采集,定时获取全国主流网站新闻资讯信息,整合展示
2. 招聘网站数据获取并用于分析研究(个人信息不采集)
3. 房屋信息获取(个人信息不采集)
4. 公众号数据获取(非商用)