上海其它兼职程序员

ID：144832

Alive

爬虫开发工程师

公司信息：
上海澜思信息科技有限公司

工作经验：
6年

兼职日薪：
600元/8小时

兼职时间：
下班后
周六
周日
可工作日远程

所在区域：
上海
静安

技术能力

1、根据需求分析所要爬取的数据，并分析目标网站的结构和反爬机制。
2、通过requests、scrapy、selenium、splash、xpath、css等技术编写爬虫进行数据抓取，app以Charles、mitmdump、Appium抓取。
3、对爬取到的数据进行清洗，分表存储，主要以MySQL、MongoDB数据库为主。
4、编写IP代理池，定时检测IP可用性，剔除低质量代理IP，IP以Redis存储。
5、监测爬虫的稳定性及数据的准确性，优化爬虫程序。
6、使用Django编写接口等。

项目经验

爬取房地产交易中心新房数据：
项目描述：
项目用以爬取新房信息，数据量在400万左右，每天需要爬取4轮以上，以保证数据的实时性，总爬取量每天约2000万条。

1、采用页面渲染来抓取数据，目前使用scrapy-splash, 相对于selenium阻塞式速度更快。
2、组建splash负载均衡，减小单个splash服务的压力。
3、提取付费代理，搭建IP代理池，数据库使用redis有序集合，以分数来判断IP是否可用，默认分数为50，满分100，使用aiohttp异步请求库定时检测代理IP，IP可用分数加1，不可用分数减4。
4、所爬取的数据存储到mongodb数据库，并以阿里云DataWorks将每日更新的数据同步到MySql数据库。

除此之外还有微信公众号、新浪微博、平安车险、京东app等爬取经验。

相似人才推荐

联系需求方端客服

热门标签列表

程序员接私活程序员兼职企业外包外包案例

热门城市人才

北京兼职程序员上海兼职程序员广州兼职程序员深圳兼职程序员杭州兼职程序员成都兼职程序员天津兼职程序员重庆兼职程序员武汉兼职程序员西安兼职程序员南京兼职程序员长沙兼职程序员苏州兼职程序员厦门兼职程序员福州兼职程序员合肥兼职程序员济南兼职程序员青岛兼职程序员大连兼职程序员长春兼职程序员沈阳兼职程序员哈尔滨兼职程序员石家庄兼职程序员太原兼职程序员无锡兼职程序员南昌兼职程序员洛阳兼职程序员郑州兼职程序员南宁兼职程序员珠海兼职程序员宁波兼职程序员昆明兼职程序员东莞兼职程序员贵阳兼职程序员温州兼职程序员佛山兼职程序员中山兼职程序员海口兼职程序员常州兼职程序员兰州兼职程序员呼和浩特兼职程序员乌鲁木齐兼职程序员海外兼职程序员其他兼职程序员山东兼职程序员远程兼职程序员

热门城市职位

北京程序员招聘上海程序员招聘广州程序员招聘深圳程序员招聘杭州程序员招聘成都程序员招聘天津程序员招聘重庆程序员招聘武汉程序员招聘西安程序员招聘南京程序员招聘长沙程序员招聘苏州程序员招聘厦门程序员招聘福州程序员招聘合肥程序员招聘济南程序员招聘青岛程序员招聘大连程序员招聘长春程序员招聘沈阳程序员招聘哈尔滨程序员招聘石家庄程序员招聘太原程序员招聘无锡程序员招聘南昌程序员招聘洛阳程序员招聘郑州程序员招聘南宁程序员招聘珠海程序员招聘宁波程序员招聘昆明程序员招聘东莞程序员招聘贵阳程序员招聘温州程序员招聘佛山程序员招聘中山程序员招聘海口程序员招聘常州程序员招聘兰州程序员招聘呼和浩特程序员招聘乌鲁木齐程序员招聘海外程序员招聘其他程序员招聘山东程序员招聘远程程序员招聘

热门人才推荐

热门职位推荐

iOS工程师Android工程师前端工程师后端工程师嵌入式工程师UI设计师产品经理测试工程师运维工程师游戏工程师运营/编辑其它

找人才 | 接项目 | 招聘专员 | 京ICP备16030138号-1 | Copyright © 2015-2025 猿急送