熟悉Flask、Django等主流web开发框架
熟练掌握MYSQL、Oracle关系型数据库和Redis、MongoDB非关系型数据库及数据库索引
熟悉Linux(CentOS)系统的常用命令及操作,会编写部分Shell脚本
熟悉RESTful Api,深刻理解MVC概念,了解服务框架理念以及实现技术
熟悉缓存、消息队列等相关技术
熟悉同步、celery异步等网络编程模型,多线程, 协程等并发模型
熟练应用PyCharm、svn、Git等开发工具,有良好的代码规范
熟悉Nginx、Docker的部署及操作
熟悉爬虫的基础知识与requests应用
掌握常见的爬虫、反爬虫知识及应对措施,利用Xpath,Regex对数据进行提取
掌握简单的Selenium和Phantomjs
掌握scrapy-redis分布式框架并进行开发
了解HTML5、JavaScript、css、jQuer、Ajax、VueJS、Angular等前端技术
项目名称:餐饮信息爬虫
项目描述:本项目主要爬取是对目前主流的外卖app进行商品数据采集,清洗,存入数据库,数据用途主要用来监控餐饮价格,用户消费及评论,好为客户服务。
项目模块:1. spider模块:处理需要的数据和请求地址
2. 中间件模块: 设置代理IP和User-Agent
3. 管理模块:数据库交互并保存数据
责任描述: 使用到的技术:Scrapy框架,python与MongoDB交互,
运用redis进行url去重,防止同一页面反复抓取,支持断点续爬。
1. 分析网页面代码,提出稳定有效的爬虫建议
2. 使用Xpath(lxml),正则(re)进行页面分析并提取数据,清洗,入库。并提供给数据部门
3. 使用scrapy-redis进行分布式爬取
4. 用户json,csv和redis进行信息存储