能够熟练使用python编程,有良好的编码习惯,熟练使用python相关库;
熟练使用requests爬虫库以及scrapy爬虫框架;
熟练使用xpath,css,bs4等解析方式,熟悉JSON数据解析;
熟悉一些网站的反爬机制,以及Cookie模拟登陆和一些简单的验证码识别机制
对pyspider有一定的了解;
熟练的使用Django框架;
熟悉Linux环境及常用服务;
对Web前后端技术和服务架构有基本的了解;
对HTML、CSS、JavaScript等前端语言有一定的了解;
熟练使用mysql、SqlServer数据库,并且对MongoDB数据库有足够的了解;
能够使用scrapy + Redis数据库部署分布式爬虫。
根据微博用户,爬取推荐用户的信息以及微博帖子;
该项目通过scrapy爬虫框架爬取Instagram网站的用户信息,并将信息进行持久化存储,最终获取Instagram大量的用户信息;
写过淘宝商品信息、亚马逊欧洲站商品信息、1688通过以图搜索的商品信息;
写过一些租房网站。
根据微博推荐用户,爬取推荐用户的信息以及微博帖子,通过当前用户的关注人进行拓展爬取,获取更多的用户数据,并保存到数据库中。 利用Cookie池进行微博的模拟登陆; 通过用户的关注进行大量用户数据的爬取; 进行爬取数据的清洗; 数据存储数据库。
通过爬取亚马逊欧洲站获取相应商品销量排行靠前商品的图片,然后在通过图片在1688上面以图搜索,获取搜索结果排名前80的商品信息。