ID:187552

XQ

爬虫工程师

  • 公司信息:
  • 深圳市豪恩声学股份有限公司
  • 工作经验:
  • 6年
  • 兼职日薪:
  • 500元/8小时
  • 兼职时间:
  • 下班后
  • 周六
  • 周日
  • 可工作日远程
  • 所在区域:
  • 深圳
  • 龙华

技术能力

爬虫:
数据抓取、清洗、存储,实时更新同步增量爬取
数据情感分析, 分词, 词频统计, 可视化等
功能自动化开发, 测试
Linux/windows开发环境
requests,selenium,urllib, pyautogui模块及scrapy/scrapy_redis框架
xpath,re,BS4,CSS等解析库
语言处理库SnowNLP, 分词库jieba, NLTK, mecab
OCR, selenium, 打码平台等破解验证码技术
常见的反爬手段和解决方法(图片验证码,IP/账号限制, js加密参数等)
爬虫的多线程、多进程等异步并发抓取数据的应用
Pycharm, Vim, Sublime/Nodepad++ , Postman, HBuilder, Fiddler, PL/SQL Developer, Toad等常用工具使用
Git/Github代码管理
有分布式爬虫部署和大规模爬取数据经验, 框架搭建,分布式爬虫功能设计
Fiddler/chrome抓包、HTML结构分析、js的定位与分析
数据库:
Mysql,Oracle关系型数据库
MongoDB,Redis等NoSQL数据库
SQL语句,数据的crud(增删改查),DQL、DML,DDL对数据库、表的操作
数据库性能优化 (缓存,读写分离,SQL语句优化,索引建立与事务的应用等)
Web开发:
Django,flask等web框架
HTML,CSS,JavaScript及jQuery,vue.js等web客户端技术
http/https协议,TCP/IP网络传输协议,socket使用
多线程/多进程/协程原理及应用方法与场景
项目部署,上线,运营维护及shell常用命令

项目经验

豪恩APP电商网评
项目描述:
1、简介:AMAZON/BESTBUY/JD/TMALL等9个网站电子产品及销售排行榜(耳机,音箱等)的评论数据爬取与分析
2、模块/框架:requests, selenium
3、提取和保存数据:xpath, re与jsonpath, Oracle数据库
4、其他:
1)多进程,线程异步抓取
2)代理IP,服务器VPN安装
3)数据分析使用的第三方库有: SnowNLP(中文情感分析), jieba(中文分词), NLTK(英文分词), mecab(日文分词)
5、具体工作内容:
独立负责整个项目的爬虫与数据分析
1)数据的爬取,过滤清洗及存储
2)数据的实时同步,每日更新增量抓取
3)数据分析:评论关键词(情感分析,分词,词频统计)
4) 功能测试,服务器部署上线与维护

EIP系统出货数据自动上传功能开发
项目描述:
1、简介:实现EIP系统自动导出每日出货数据,自动上传到客户系统的功能开发
2、技术方案:selenium, pyautogui, Oracle数据库
3、具体工作内容:
独立负责整个功能的自动化处理
1)自动登录EIP系统配置相关数据信息
2)调用后台API导出并下载出货数据文本
3)自动登录客户系统依照指定步骤完成上传文本操作
4) 上传的数据及结果存储
5) 邮件提醒相关部门人员上传结果的反馈

微众银行企业柜面系统征信报告和风险系统企业税银报告提取
项目描述:
1、提取内容:目标企业征信报告所有信息
2、模块/方法:基于selenium驱动Chromedriver浏览器访问
3、提取数据:通过selenium操作定位标签元素
4、其他特殊处理:登录时滑块验证码处理,采用显性等待处理查找元素和点击事件
5、具体实现步骤:
1)发送请求,完成登录,跳转页面
2)输入企业必要信息,点击生成报告
3)将征信和税银报告表格(Excel格式)转化为Json格式(使用xlrd模块)

天眼查和风险信息网企业信息爬取
项目描述:
1、爬取内容:目标企业所有显示的信息
2、模块/提取数据方法:基于requests发送请求获取网页数据,使用lxml解析库提取数据
3、其他处理:代理IP设置,访问PC移动端绕过登录时的验证
4、具体实现步骤:
1)携带参数(企业名称)直接请求搜索页面,提取目标企业的url链接
2)对提取的url发送get请求,使用 lxml库提取所有数据
3)按照公司规定字段层级关系转化为Json数据格式
4) 调用企查查接口合并所有数据并提供接口返回
5) 接口设计文档撰写

案例展示

  • AMAZON,京东,天猫评论抓取

    AMAZON,京东,天猫评论抓取

    1、耳机,音箱等的各大电商评论数据挖掘 2、各大电商网站的电子产品(耳机,音箱等)销售排行榜信息及评论数据挖掘 3、评论数据分析(清洗,去重,存储,好差评鉴定分析,关键词统计等)

  • 国知局专利信息抓取

    国知局专利信息抓取

    国家知识产权局专利检索数据挖掘 1.专利数据抓取 2.专利文件下载 3.邮件提醒 4.专利信息数据分析

  • 采购部门原料每日网上报价抓取

    采购部门原料每日网上报价抓取

    1.抓取汇率、原油及各原料(塑料、铜、铝、不锈钢)每日价格 2.数据过滤清洗,存储 3.可视化

查看案例列表(含更多 0 个案例)

信用行为

  • 接单
    0
  • 评价
    0
  • 收藏
    1

发布任务

企业点击发布任务,工程师会在任务下报名,招聘专员也会在1小时内与您联系,1小时内精准确定人才

微信接收人才推送

关注猿急送微信平台,接收实时人才推送

接收人才推送
联系需求方端客服
联系需求方端客服