熟练掌握Python编程语言,有良好的代码编程习惯,掌握面向对象编程思维,熟悉Linux开发环境
● 熟练掌握网页抓取原理及Xpath、正则表达式、样式表选择器等页面解析技术
● 熟练掌握Scrapy框架的使用熟练掌握反爬原理及反反爬技术,熟练使用Scrapy-Redis 分布式爬虫及部署,了解Scrapyd,Gerapy分布式爬虫框架
● 熟练掌握动态IP代理池的搭建与使用
● 熟练掌握Python多线程、多进程、协程开发
● 熟悉正则表达式的编写及Python内置re模块的使用,熟悉jieba+Counter关键字的抓取及统计
● 熟练使用MongoDB、Redis 等非关系型数据库的应用场景和使用,熟悉Postgresql、es数据库
● 熟练使用Selenium实现页面动态内容抓取
● 熟练操作Excel表格
● 熟悉MySQL关系数据库及基本的SQL语句的编写
● 熟悉页面js、css加密与构造加密等信息熟悉html
商业地产精算
项目描述: 此项目为公司产品其中一个模块,主要为各大开发商进行地产精算和价值预估
项目职责:
1. 调研各大房源网站,挑选合适的网站针对各个网站不同的情况采集不同的房源
2. 针对赶集网、房天下、58同城采集其中的二手房、出售商品、出租商铺、出售写字楼、出租写字楼、出租房
3. 针对贝壳网、楼盘网分别采集新楼盘与二手楼盘
4. 对采集到的数据进行清洗、统计、生成统计表格
5. 编写数据采集状况,统计各类房源的均价与数量
技术要点:
1.破解58字体加密文件
2.采集各个城市下区县的url,在修改url分类字段,将全国区县URL存入redis依次爬取,可以做到随时停止随时启动,并且可以同时开启多个进程,大大提高爬取效率与采集灵活性
3.房天下每种分类房源的页面解析都不同,在写解析函数时通过获取url关键字将页面解析分类
4.解决页面重定向问题