1. 负责规划、设计和开发分布式爬虫系统,进行多平台多终端信息的抓取和分析;
2. 基于抓取系统的数据抓取、清洗工作;
3. 负责抓取、清洗的算法研究、设计与开发;
4.拥有良好的代码习惯,结构清晰,逻辑性强,有丰富的面向对象设计及编程能力;
5. 能够解决封账号、封IP采集等问题,解决网页抓取、信息抽取等问题;
6. 熟悉Appium、Selenium、PhantomJS 、WebDriver等技术;
7. 熟悉 Web 前端技术,包括 HTML、JS、Jquery、XPath、正则表达式等;
8. 熟悉 Linux,熟悉 Mysql、Nosql等数据库;
9. 熟悉 HttpClient 等通信框架;
10. 熟悉 pyspider, Scrapy、爬虫框架;
1. 微博爬虫
单机scrapy爬虫日采集数量1000w以上
2. app爬虫
抖音,美国亚马孙爬虫稳定运行。
远程云Windows主机批量管理; 下载,运行定制软件; 软件可以找我定制;包括数据采集,定时完成任务 需要云主机服务商合作
爬取亚马逊商品信息; 按照客户要求进行商品信息汇总; 多线程并发爬取; 相关商品数据可视化抓取; 数据可视化网页开发
社群营销及新媒体运营 硬件高度集成,不存在刷机,跟真是手机一样,运行环境稳定,又在微信基础上,延伸了群控抖音,qq,facebook,whatsapp等。