ID:313017

饕餮 身份已认证

暂无

  • 公司信息:
  • 湖南师范大学
  • 工作经验:
  • 2年
  • 兼职日薪:
  • 500元/8小时
  • 兼职时间:
  • 下班后
  • 周六
  • 周日
  • 可工作日远程
  • 所在区域:
  • 东莞
  • 全区

技术能力

框架与库
Selenium:利用Selenium模拟真实用户操作,处理动态加载内容和JavaScript渲染的页面,确保数据的完整性和准确性。
Scrapy:运用Scrapy框架实现大规模网络爬虫的构建与部署,高效爬取和解析网页数据。

解析库:熟练掌握BeautifulSoup4(bs4)和XPath,用于从HTML和XML文档中快速提取所需信息。

网络请求库:运用requests和aiohttp进行HTTP/HTTPS请求的发送与接收,支持同步和异步请求,提高爬虫性能。

JavaScript处理
ExecJS:通过ExecJS在Python环境中执行JavaScript代码,处理需要JavaScript渲染的页面。
Node.js环境代码移植:具备将浏览器环境中的JavaScript代码移植到Node.js的能力,实现后端自动化和数据处理。
AST抽象语法树解混淆:运用抽象语法树(AST)分析技术,解析和还原混淆的JavaScript代码,以应对复杂的反爬虫机制。

加密与解密
对称加密与非对称加密:熟悉AES、RSA等加密算法,能够处理网站使用的加密数据,确保数据的安全传输和存储。
摘要算法:使用SHA、MD5等摘要算法验证数据的完整性和真实性。

逆向工程与Web技术
逆向Webpack:具备分析和逆向Webpack打包后的JavaScript代码的能力,以获取原始源代码和逻辑。
WebSocket:支持WebSocket协议的爬虫开发,实现实时数据的获取和传输。
Protobuf:熟悉Protocol Buffers(protobuf)数据序列化协议,能够解析和生成protobuf数据,以支持更高效的数据传输和存储。
熟练掌握python逆向,包括md5, RSA,及其他逆向工程
具备爬取大型网站数据的经验

项目经验

具备各大网站的数据抓取及保存能力,包括海内外的购物网站,项目招标网站,以及相关的报道文章内容的抓取,可实现js数据的逆向抓取。

案例展示

  • 南京公交线路抓取

    南京公交线路抓取

    使用python语言对南京公交线路的信息进行抓取。期间调用了requests 库实现对数据的请求,在对其进行数据提取,最后利用xlrd, xlwt等库,实现对数据的本地保存。

  • 虎扑球员信息的抓取

    虎扑球员信息的抓取

    使用python语言,以面向对象的方式实现对虎扑球员信息的提取。期间调用了requests库等其他所需的库,最终实现了数据的多表保存

查看案例列表(含更多 0 个案例)

信用行为

  • 接单
    0
  • 评价
    0
  • 收藏
    0
微信扫码,建群沟通

发布任务

企业点击发布任务,工程师会在任务下报名,招聘专员也会在1小时内与您联系,1小时内精准确定人才

微信接收人才推送

关注猿急送微信平台,接收实时人才推送

接收人才推送
联系需求方端客服
联系需求方端客服