1,熟悉python爬虫;掌握正则表达式,xpath,等网页信息抽取技术;熟悉常见的反爬虫机制,验证码识别,headers认证和cookie等。
2,熟练掌握应用seleium+chrome实施动态HTML信息的抓取。
3,熟练掌握MYSQL数据库,应用python高效完成数据的抓取,处理,入库。
3,熟悉ETL架构,熟悉主流ETL开发工具:kettle,能高效完成数据的清洗,转换,校验等相关开发任务。
4,熟练掌握linux系统。
1,对多个商超网站信息的抓取,获取相关的门店产品信息,其中包括部分电商网站的信息抓取。
2,负责对爬取的多个网站信息进行清洗转化,主要有数据格式的统一,数据字段的规范,对信息缺失的数据进行区分处理,数据信息的关联。