熟悉linux开发环境,熟练掌握Python语法
熟悉Python多进程、多线程
熟练使用Scrapy框架,Scrapy-redis分布式组件
熟练使用Selenium抓取网页动态加载数据
熟悉各类网站的反爬机制和验证码机制
掌握网页抓取原理及技术,熟悉基于RE、XPath、BeautifulSoup4等网页信息抽取技术
熟练使用Mysql、Mongodb,redis等数据库
熟悉前端HTML、CSS、JavaScript、ajax
熟悉Django web开发框架
熟悉HTTP/HTTPS、TCP/IP等网络通讯协议
项目名称:携程旅游
项目描述:主要抓取携程旅游所有组团旅游信息 。它包括(旅游地点、旅游时间、旅游报价、出游人数、评分等)
开发环境:Ubuntu、Pycharm
使用技术:
1.Scrapy框架创建爬虫项目
2.判断页面静动态提取相应数据,通过xpath、jsonpath获取数据
3.使用Scrapy-Redis实现分布式
4.使用MongoDB数据库,将数据保存到MongoDB中
5.使用ip代理池、动态请求报头、限制请求频率等方式反反爬虫
主要职责:
1. 网页结构分析,采用scrapy框架搭建爬虫程序的架构
2. 编写程序完成网页的爬取,根据客户需求,负责网页信息抽取、数据清洗工作
3. 对抓取的数据进行抽取、清洗、去重,并做持久化存储
4. 爬虫程序的性能优化,及时处理网站升级后反爬问题
类似项目:去哪儿、途牛旅游网…
====================================================================
项目名称:我爱我家
项目描述:主要抓取所有房源信息 。它包括(房源的各种信息、出租方式与租金、以及出租人姓名与联系方式)
开发环境:Ubuntu、Pycharm
使用技术:
1. Scrapy框架创建爬虫项目
2. 判断页面静动态提取相应数据,通过CSS获取数据
3.使用MongoDB数据库,将数据保存到MongoDB中。
主要职责:
1. 网页结构分析,采用scrapy框架搭建爬虫程序的架构
2. 编写程序完成网页的爬取,根据客户需求,负责网页信息抽取、数据清洗工作
3. 对抓取的数据进行抽取、清洗、去重,并做持久化存储
4. 网络信息搜集方向的研究与开发,应用海量网页抓取、信息精准抽取等搜索核心技术,构建高可用性、高可扩展性的网络信息搜集平台
5. 爬虫的应用策略和网站的防爬机制,解决各类验证码识别机制,提升网页抓取的效率和质量;
类似项目:汽车之家、北京租房…
====================================================================
项目名称:生鲜网站
项目描述:果蔬购买搭上互联网快车,方便使用者购买,拓宽果蔬销售渠道。本项目主要为前台的页面展示和后台的管理。
开发环境:Ubuntu、Pycharm
主要负责:
1.用户模块.
a. 用户注册(密码加密、数据存储、邮箱验证…)
b. 用户登录(数据校验、记住用户名…)
c. 首页显示 (数据判断、返回前端数据…)
2.全文检索
使用技术:
1.Django框架创建项目
2.sha1模块对用户密码进行加密
3.mysql进行数据存储
4.celery异步发送邮件
5.itsdangerous对邮件url加密限时
类似项目:电商项目…
角色 | 职位 |
负责人 | python爬虫、后台开发工程师 |
队员 | 后端工程师 |