系统名称③: 网站爬虫信息采集开发项目
主要架构:Selenium + Requests + Xpath
项目内容:
✿ 对1688网站进行搜索关键字,然后对前100页的数据进行迭代爬取,使用selenium模拟登陆
✿ 自建代理ip池,并通过http协议远程周期动态拨号更换新的IP,使用fake_useragent模块随机生成UA,并加上cookie和rerfer用来应对阿里巴巴的反爬限制技术
✿ 对网页字段逻辑进行xpath处理,而后生成的业务数据写入到json文件,而后POST发布到第三方的API接口上交付
✿ 使用merry库处理出现的各种异常信息,用正则表达式判断网页内容是否被反爬和处于异常登录、验证等限制情况
✿ 从知乎、百度知道、微信公众号、头条等社交工具搜索关键字,采集相关产品服务的资讯信息