1.擅长使用PYTHON开发爬虫与网页,
2.熟悉Scrapy框架+redis+Selemiun进行分布式爬虫,懂得获取AJAX数据,成功爬取douban,bosszhipin,拉钩,今日头条新闻网数据,
并且用mongodb和mysql数据库进行了保存,用pandas和numpy进行了数据清洗.有实际项目经验,可以写详细指示性文章.
3.熟悉使用django-web +mysql+bootstarp+REST framework。属于restful前后端分离
4.熟悉mysql.mogodb.数据库ORM操作
https://github.com/a371057600/xfz.git
项目一:完整的全栈性多功能教育网开发
1.项目概况:本项目为一个通用型WEB网站.主要分为3个部分.
● CMS后台管理,
● COURSE课程详情展示,
● NEWS信息展示.
2.项目大体框架:
● 前台页面是用BOOTSTARP前端开发框架+AJAX搭建
● 后端框架是PYTHON-DJANGO,后台CMS没有使用DJANGO官方的ADMIN,重新写了一个XFZAUTH后台页面,功能架构是基于AdminLTE搭建.
● 数据库使用的是MYSQL,用DJANGO-ORM去操作数据库,并且对查询进行了一定的优化.引入了mecached进行查询优化.短信验证码储存.
● 在与前端交互数据中,使用了DJANGO-rest_framework进行了数据序列化,提高了运行效率和降低了前后端交互的难度.
●部署用了nginx+uwsgi,后期使用supervisor对项目进行进程管理.
项目二:分布式爬虫,爬取搜房网全国数据并进行归类整理成了JSON文件.
1. 房天下分布式爬虫:
● 主要功能是爬取房天下网站的全国各地城市的房子的信息
● 信息包括,房源地址,房子的大小,房子的总价,每平方米的单价
● 由于信息量非常巨大,如果用单机爬取效率可能会很低,最后使用了分布式爬虫
● 核心是scarpy框架,后期可以对接SCRAW,直接把数据爬取到MYSQL,MONGODB数据库中进行分发,也能直接爬到CSV里进行数据分析
● 运行与部署都非常的简易,运行成本非常的低,几乎是即插即用.
2. 使用了SCARPY框架进行核心搭建
3. 利用rides进行了分布式部署到服务器上面.
4. 最后爬取的数据,用PIPLINE进行了JSON格式存储.
项目细节:
1.项目实际可以进行复用,大部分代码都是通用型代码,只要进行更改就可以用到其他不同的项目上去
2.SCARY的好处是,后期利用PIPLINE引入数据库比如MONGODB,MYSQL都会非常的简单
3. 在分布式爬取的时候,Rides的作用是防止爬取重复数据,但是实际测试的时候,还是会有BUG,经过其他人的测试发现会有重复数据出现
4. 数据爬取下来后还没有进行数据清洗,但是已经可以进行发布和使用,重要信息已经已表格的形式进行了具体的格式化处理.
5.反爬方面,并没有做太大的攻克,因为房天下并没有对反爬虫有很好的设定,所以并没有使用反爬策略.
6. 除了这个项目外,本人还用SCRAW成功爬取了今日头条的新闻.使用了Selenium 自动化反爬了头条页面中的AJAX设置.