爬过各大新闻内容,如:网易、新浪、澎湃、搜狐等等;
后台编码模拟各大新闻网站的登陆发帖点赞操作;
爬过新浪微博、facebook、twitter;
爬过工商网所有工商数据、天眼查、企查查等;
爬过菁优网、橡皮网题库;
爬过高考录取招生数据,如中国教育在线/优志愿/计桥/阳光高考等;
爬虫经验丰富,有实力解决各种爬虫封锁限制,包含JS加密破解、APP反编译等;
独立完成过后台爬虫管理系统(前端后台数据库一个人全部做完)。
在公司担任爬虫开发工程师。曾设计开发公司的爬虫管理平台,分布式爬虫的开发,新闻通用爬虫的开发。
能够针对客户和领导的需求设计开发适合当前工作场景的爬虫,对分布式爬虫,定时自动化爬虫有比较深刻的理解。
有大规模数据抓取的经验,能够解决大部分生产中遇到的爬虫技术难点。
熟练掌握selenium+phantomjs爬虫开发工具,能够解决分布式爬虫,验证码,封ip,需要登录,滑动验证码等反爬手段
数量掌握scrapy爬虫框架,celery异步调度框架,熟悉kafka消息队列
针对传统临床科研工作中数据获取与数据处理的痛点,我们设计了医疗科研平台,以提供科研数据获取的效率,丰富科研数据分析的方法,帮助对医院科研课题一体化管理,降低人力要求及时间消耗。 科研平台担任开发经理角色,协调产品与研发之间的工作。科研平台
公司信息采集系统,分为日常和临时采集两部分。 各大新闻内容,如:网易、新浪、澎湃、搜狐等等; 后台编码模拟各大新闻网站的登陆发帖点赞操作;