ID:279162

~

python开发

  • 公司信息:
  • 慧科讯业(北京)网络科技有限公司
  • 工作经验:
  • 1年
  • 兼职日薪:
  • 500元/8小时
  • 兼职时间:
  • 下班后
  • 周六
  • 周日
  • 可工作日远程
  • 可工作日驻场(离职原因)
  • 可工作日驻场(自由职业原因)
  • 所在区域:
  • 北京
  • 海淀

技术能力

1.对Python爬取数据较为熟练,善于处理爬取后的数据以及处理反爬,例如封ip问题等。
2.掌握JavaScript结合selenium自动化提取数据。
3.熟悉掌握Python爬虫脚本开发,掌握Vscode和Pycharm的使用,掌握Python与Excel的交互
4.通过调整频率,配置请求头信息,cookies保持,使用代理ip池等手段应对一些网站的反爬
5.通过异常处理来处理网站分页解析不兼容的问题
6.利用BlockingScheduler设置定时任务进行数据的回溯

项目经验

**《基于Python的网络爬取并转存pdf》**

- **开发工具**:Python,redis,FTP

- **责任描述**:设计爬虫框架,编写解析规则

- **项目描述**:此项目以私募基金业务网站为例,实现了数据标题,详情页链接以及时间等信息的获 取,通过详情页链接进一步对二级页面解析从而获取详情页内容,用户也可将详情页以pdf形式转 存到本地

- **技术路线**:利用翻页获取网页接口数据的url,加上User-Agent,Content-Type等请求头以及 payload参数,**利用post请求对接口数据进行获取** → 将详情页的MD5以及详情页url作为键值对**存入redis** → 通过**遍历提取**redis中的详情页url,**利用pdfkit生成**以其MD5作为文件名的文件 → 利用**FTP服务器**与远程客户端建立连接并进行文件传输

- **问题以及解决方案**:

​ 为加快迭代速度,创建线程池,在线程池中进行响应数据的获取,实现了阻塞操作异步执行,降低了系统的开销,提高了程序接近一倍的运行效率。

信用行为

  • 接单
    0
  • 评价
    0
  • 收藏
    0
微信扫码,建群沟通

发布任务

企业点击发布任务,工程师会在任务下报名,招聘专员也会在1小时内与您联系,1小时内精准确定人才

微信接收人才推送

关注猿急送微信平台,接收实时人才推送

接收人才推送
联系需求方端客服
联系需求方端客服