一:项目需求
1放入链接,点击固定的位置,然后爬出我们所需信息,爬出来信息之后进行我们的规则来进行筛选我们所需要的数据,再将这个数据对接到一个商标局数据库当中再次的筛选出来最后的数据。然后将这个数据自动保存成表格
2需要对接IP池,爬数据的速度要控制在5秒以内,然后并发爬取1000个 相当于5秒内 我可以爬出5000条的数据。然后当我们爬出了固定的数据的量之后(例如爬了3万条数据的时候就已经在开始筛选了,然后是不干扰爬数据的操作),爬虫需要稳定和效率要达到我们所需要的效果
3然后需要做不同的站点,所以版本不能够固定。
4 ip问题 会遇到网址的反爬虫 会有验证码
5之前的程序员他遇到在公司可以运行操作 但是在家里不行
6 程序是并线进行的 可以多开程序
7 呈现以网页版的形式
二:接任务需求
1需要是有经验的人士来做这个项目
2最好是全职的人员
3项目完成之后需要提供售后服务1个月,1个月后如果再出现的问题,我们会根据需求而进行一定的酬薪。