1、熟练运用 Python 语言,熟悉 Python 常用标准库和第三方库。
2、熟悉 MySQL、MongoDB 等数据库。
3、理解进程、线程、协程。
4、熟悉爬虫程序的编写,熟悉各种反爬策略。
5、能使用 Scrapy框架、selenium 工具爬取网页,能使用re、xpath 、BeautifulSoup等对爬取的 数据进行解析。
项目一:杭州女装网商品采集开发 项目简介:使用 requests 库以及 flask 框架、多线程制作的对杭州女装网商品采集,对接相关产品库,爬取相关数据。 开发环境:Windows + Pycharm + Flask + Redis + Python + requests + centos 个人职责:相关需求分析,代码设计,杭州女装网平台 js 代码分析,相关代码的编写,代码部署及对接 技术实现: 1. 根据需求分析编写项目的结构设计 2. 分析破解杭州女装网使用的极验滑动验证 3. 引入超级鹰第三方平台解决该平台使用的点触验证问题 4. 使用 selenium 自动化工具获取 cookie 5. 使用 redis 进行数据的存储和转发 6. 使用相关接口返回给产品库数据,进行存储。
项目二:天猫、淘宝、1688、拼多多等网站的 feader 开发 项目简介:以 feapder 爬虫框架以及 flask 框架,对接相关产品库,制作的天猫、淘宝、等网站的商品 数据的爬取。 开发环境:Windows + Pycharm + Flask + Redis + Python + feapder + centos 个人职责:相关需求分析,代码设计,相关平台 js 代码分析,相关代码的编写,代码部署及对接 技术实现: 1. 根据需求分析编写 feapder 框架的结构设计 2. 相关网站的逆向破解 3. 代理 ip 的反反爬策略 4. 使用 redis 进行数据的存储和转发 5. 使用相关接口返回给产品库数据,进行存储。
项目一:ALM负债管理系统 项目简介: ALM(Asset-Liability Management):即资产负债管理,ALM平台涵盖产品开发、投资管理、风险控制、财务规划等保险业务全流程,为ALM管理提供有效的量化模型支持,将ALM全流程进行规范有效的整合和管理。平台包
项目一:杭州女装网商品采集开发 项目简介:使用 requests 库以及 flask 框架、多线程制作的对杭州女装网商品采集,对接相关产品库,爬取相关数据。 开发环境:Windows + Pycharm + Flask + Redis + Python + requests +
内容:使用基于 Redis 的 Scrapy - Redis 组件实现分布式爬虫,将爬取到的数据储存到 Redis 中。使用 scrapy 框架,通过在 DownloaderMiddlewares 下载器中间件中添加 UserAgentMiddleware 中间件更换请求头等