1.精通Python编程语言,熟练Python标准库和流行的三方库使用
2.熟练使用Python流行的爬虫框架和工具,如:scrapy、selenium等
3.熟悉常见的反爬虫技术和破解方法
4.熟练使用正则表达式、xpath、css选择器等网页抽取技术
5.熟悉HTML/XML/CSS/JavaScript/Ajax等前端技术
6.熟悉MySQL数据库使用
项目名字:租房查询及推荐系统 项目类型:爬虫,数据分析
项目描述:该项目是根据客户需求对各大租房网站进行数据抓取统计,根据抓取的租房价格,地理位置,及其他基本参数的分析,找出不同地区的房源分布情况并制成图表更直观性的展示房源,价格分布区域,方便顾客进行选择;建立机器学习模型,为用户推荐某个地区最符合用户需求的房源信息,以便用户能更准确,用时少的解决所需问题。
个人职责:
1.分析网站url的跳转,获取每个租房详情页url;
2.使用scrapy框架,利用selenium爬取自如的房产信息,其中使用pytesseract进行图像识别及运用百度OCR对价格加密部分进行处理;
3.运用re、xpath进行页面解析和信息提取;
4.负责使用itemloader进行数据清洗,保存到数据库中;
5.负责后期爬虫系统维护及定时更新爬取数据
技术要点:自如网的价格图片处理