ID:244518

z

python爬虫工程师

  • 公司信息:
  • 北京智游网安科技有限公司
  • 工作经验:
  • 3年
  • 兼职日薪:
  • 600元/8小时
  • 兼职时间:
  • 下班后
  • 周六
  • 周日
  • 所在区域:
  • 成都
  • 双流

技术能力

1. 熟练在 Linux、Windows 平台上的 python 编程,精通爬虫与反爬虫技术,能独立完成大规模爬虫采集、数据处理、 清洗入库等工作,熟练使用常用的 Linux 命令;
2. 熟练使用分布式网络爬虫开发;熟悉HTTP协议、Python BeautifulSoup、re、json、css 选择器、xpath 等模块进行数据 解析提取;
3. 熟练使用 Selenium+PhantomJS(headless)实施动态 HTML 抓取、以及登录验证;
4. 熟练使用MySQL、Postgres、Redis 和 MongoDB数据库;
5. 熟练 Scrapy 框架,以及编写各种中间件, 熟练使用 scrapy-redis 分布式爬虫的构建;
6. 熟练解决动态登录、js逆向、加密破解、验证码破解等;
7. 熟练使用python Tornado、flask框架编写一些简单的web服务以及相应接口;
8. 熟练使用pandas提取、整理、输出数据。

项目经验

1.Android、Ios应用信息采集
环境:scrapy、xpath、re、mongo、postgres、flask、aapt
1).收录市面上各个应用市场信息作为采集渠道,如应用宝、豌豆荚等。
2).基于scraoy爬虫框架开发完成一套数据采集、apk包下载、apk包解析上传文件服务器、;通过对所收录的各个应用市场 进行编号,以及后续调度服务通过应用市场编号调度爬虫程序运行。
3).页面数据存储在mongo后、推送下载任务至redis,下载服务通过获取下载队列中的id下载apk 包体并调用aapt解析apk 包内信息后,将包上传至fdfs文件服务器,ios app除开几个第三方渠道采集的越狱app,由于无法获取官方下载地址,暂 时无下载。
4).其中页面中数据分布为,源码中直接获取数据、ajax请求获取json数据、js逆向获取下载地址等关键信息;
5).整合采集表数据、下载表数据、解析表数据,将各个应用市场相同的app聚合为一条数据、后续推送至检测系统进行漏洞 病毒检测并将最终数据推送至前端页面展示。

2.天眼查企业信息采集
环境:selenium、xpath、js登录
1).selenium模拟登陆天眼查账号,本地处理其中登陆滑动验证,对接第三方打码平台-超级鹰处理点选式验证码;
2).通过指定企业名称以及企业关键字进行搜索采集,返回的数据为json数据,整体数据存储在mongo后,提取所需要的字 段信息,存储至postgre,并关联app开发者和企业数据。

3.微信小程序
环境:夜神模拟器、Anyproxy、Atx-Agent、Requests、ThreadPoolExecutor、threading
1).夜神模拟器登录微信号,通过anyproxy和js函数进行拦截获取当前cookeis和headers,推送至redis;
2).通过全国各地点坐标进行请求定位后,获取周边小程序列表,拼接详情页面url、cookie、小程序id构造请求获取详情页 面;
3).数据存储mongo中,通过微信小程序id进行去重,并且推送至前端展示。

信用行为

  • 接单
    0
  • 评价
    0
  • 收藏
    0
微信扫码,建群沟通

发布任务

企业点击发布任务,工程师会在任务下报名,招聘专员也会在1小时内与您联系,1小时内精准确定人才

微信接收人才推送

关注猿急送微信平台,接收实时人才推送

接收人才推送
联系需求方端客服
联系需求方端客服