熟悉Linux常用指令
了解Shell脚本,熟悉Python脚本
了解基本的前端技术,HTML、CSS、JS、Ajax请求等
掌握网页抓取的思想,熟悉 Urllib库、Requests库
掌握Scarpy框架、Scrapy-redis分布式爬虫框架及Scrapy通用爬虫
掌握PC端自动化Selenium与PhantomJS和手机自动化Appium的使用
掌握Xpath、BeautifulSoup等页面解析工具
掌握Scrapyd与Spiderkeeper爬虫部署与可视化工具
掌握Filder抓包工具的使用方法
熟悉常见的爬虫,反爬虫策略
熟悉Flask框架,了解Django Web框架
了解numpy,pandas,matplolib等模块的使用
熟悉MySQL、SQLite 数据库,MongoDB、Redis等非关系型数据库
熟悉版本控制工具Git的使用
知识产权管理系统
软件环境:Centos + Python3 + Flask + SQLAlchemy + Nginx + Uwsgi
项目描述:此系统包括用户商标管理系统和用户专利管理系统两个部分。其中商标管理系统包括商标导入、商标监控、商标分析等模块,专利管理系统包括专利导入、专利监控、年费管理、专利分析等模块。
项目职责:
1.Flask搭建整体项目结构,参与讨论用户模型类的设计
2.负责商标导入模块接口的开发
3.负责商标监控模块接口的开发
4.负责短信通知接口的开发
5.负责商标数据分析模块接口的开发
6. 负责专利数据分析模块接口的开发
7.系统的维护优化、排查并解决问题以及后续验收等相关工作
权大师商标数据的抓取
软件环境:Centos + Python3 + Selenium + Apscheduler + MongoDB + Redis
项目描述:每周八台阿里云机器分布式抓取大约20多万更新商标数据。
项目职责:
1.负责权大师数据抓取的设计与开发
2.负责爬虫项目的部署和优化
技术描述:
1.通过Selenium对模拟浏览器
2.配置IP代理池
3.配置随机请求头User-Agent
4.通过第三方对极限验证码进行识别
5.通过mitmproxy改写js,屏蔽对Selenium的检测
6.通过redis对分发待抓数据
7.每台机器30个线程同时抓取
8.通过Xpath对网页进行解析
9.所抓数据存入MongoDB