1、本科及以上学历,计算机相关专业,3年以上网页及APP数据采集经验;
2、熟悉爬虫原理,分布式架构,精通一种开源爬虫框架及原理,熟悉主流爬虫技术,如协议破解、脱壳、模拟点击、AST解混淆等,能够解决封账号、封IP、验证码等问题;
3、熟悉Go/Python任意语言,熟悉MySQL,Redis等;
4、熟悉Selenium/Puppeteer/PhantomJS至少一种工具的使用。
5、熟悉xpath/正则表达式/代理池等爬虫相关技术;
6、具有良好的沟通和团队协作能力,具备良好的数据基础,工作条理清晰,善于学习。
1、负责网页及APP页面解析和结构化抽取,数据清洗、海量数据存储和读取等;
2、负责抓取数据的深度提取和挖掘;
3、负责维护和优化爬虫程序,实时监控爬虫与警报反馈;
4、探索和研究高效的数据抓取和存储解决方案;
5、参与研究策略优化,提升抓取效率和质量。
1、本科及以上学历,计算机相关专业,3年以上网页及APP数据采集经验; 2、熟悉爬虫原理,分布式架构,精通一种开源爬虫框架及原理,熟悉主流爬虫技术,如协议破解、脱壳、模拟点击、AST解混淆等,能够解决封账号、封IP、验证码等问题; 3、熟悉Go/Python任意语言,熟悉My
1. 设计、开发并维护现有的网络爬虫系统,以支持公司的数据采集需求。 2. 实现网页内容的自动抓取和解析,处理各种网络异常、JS 逆向、验证码破解 和反爬虫机制等。 3. 对抓取的数据进行清洗、去重和结构化处理,保证数据质量。 4. 持续监控爬虫系统的运行状态,及时调整策