1.负责网站数据的采集工作2.爬虫数据提取清洗.配置,爬虫系统的维护与优化3.设计爬虫策略和防屏蔽规则,提升网页抓取的效率和质量岗位要求:1.熟悉Python编程语言,有较强的代码能力,能够分析代码性能并进行优化2.有一定的爬虫经验,熟悉主流反爬策略并能够突破反爬限制(防屏蔽规则,解决封账号.封IP.验证码等)3.精通HTML.XPath.正则表达式.AJAX等技术,熟悉HTTP.HTTPS等网络协议及数据抓包.分析4.熟悉crapy,requet,elenium等开源爬虫框架,熟悉队列,调度等5.主动性和责任心强,有良好的团队合作精神,善于沟通
抓取腾讯 优酷 爱奇艺 的电影 电视剧 动漫 少儿数据。
抓取微博或知乎的网站数据。
抓取任意招聘网站数据或京东商城数据。