有两年python开发经验,熟悉Linux系统,熟悉多线程、多进程、网络通信编程相关知识;
分析结构化和非结构化数据,并对数据抓取、信息提取、去重、清洗;
精通正则表达式、搜索策略、算法、数据聚类、重组技术
熟悉网页抓取原理及技术,能够总结分析不同网站,网页的结构特点及规律;
熟悉HTML、JS、正则表达式、Jsoup或jQuery等,从结构化和非结构化数据中解析数据;
熟悉Mysql、Redis、Nosql等数据库;
熟悉PhantomJS或Headless Chrome、Selenium 、WebDriver等技术;
有验证码破解,反爬,分布式爬虫架构,数据挖掘,搭建数据仓库经验;
阿里巴巴数据采集
企查查登陆验证
企查查数据采集
百度地图商家信息采集
慧聪网商家信息采集
360地图商家信息采集
美团商家信息采集