精通: Python基础、Office、HTML
熟练:CSS、JS、Ajax、Scrapy、Xpath、Re、Requests、Selenium、MySQL、Redis、Mongodb,Postgresql
熟悉:Django、Pandas、Numpy、Matplotlib、HDFS、Tesseract、Sklearn、Git
1) 项目概况:
招标网站:财政厅浙江政府采购网、各县市区公共资源交易网、温州招标网
温州政彩云、温州国企采购平台
关键字:调查、清查、普查、建库
采集内容:数据来源、发布时间、招标公告、招标网址
2) 遇到问题及解决方案如下:
1. 分析目标网站真实request地址和response内容,使用IP代理池试水网站反爬虫级别,检测是否有投毒数据。
2. 采用IP代理池及随机User-Agent反反爬
3. 采用re获取网页数据
4. 保存数据到Excel中
5. 使用logging模块编写监控程序进行爬虫监控,并根据日期定向输出日志到log文件