一:项目需求
爬取的数据需要弄成网页版
我们是需要爬取亚马逊的数据
软件的交接方式是网页版跟源码 需要会前端
1:爬虫的细节操作
1我们输入一条链接他们实行爬取这条链接的所有数据 然后底下有5个跟卖商品然后再进入这5个跟卖商品爬取里面的所有链接数据 最后经过我们设置的规则进行筛选!筛选出来以后的数据去美国商标局查询这个有没有商标
2需要对接IP池,爬数据的速度要控制在1秒以内1条数据,
然后一台电脑可以多开并发爬取数据,爬虫需要稳定和效率要达到我们所需要的效果 可以多电脑进行
3然后需要做不同的站点,所以版本不能够固定。
4 ip问题 会遇到网址的反爬虫 会有验证码
5之前的程序员他遇到在公司可以运行操作 但是在家里不行
6 程序是并线进行的 可以多开程序
7 呈现以网页版的形式
2:页面的规则
1:在网页版放链接 我们会设定规则进行筛选(比如多少万名以内的链接 比如多少评论以内的链接)
2:筛选出来的数据对接到一个商标局 然后进去查询他有没有商标,如果没有商标的话就将这个数据保存到数据库 等我们导出来!
3:所有的数据都可以进行导出
二:接任务需求
1需要是有经验的人士来做这个项目 做过亚马逊的优先
2最好是全职的人员