ID:156446

热心市民李哲

python爬虫

  • 公司信息:
  • 上海合合信息科技有限公司
  • 工作经验:
  • 2年
  • 兼职日薪:
  • 500元/8小时
  • 兼职时间:
  • 周六
  • 周日
  • 所在区域:
  • 上海
  • 闵行

技术能力

熟练python语言,深入理解OOP编程思想
熟练使用Python Web框架Django,Tornado框架,了解Flask框架
熟练Django项目uwsgi服务器、分布式等项目部署操作
熟练使用Scrapy爬虫框架
熟练Linux/Windows平台
熟练使用MySQL/MongoDB数据库
熟练前端技术,Html,CSS,JS,JQuery
熟练基于urllib,urllib2,Requests,Selenium 各模块的数据抓取,了解scrapy-redis分布式组件
利用Xpath,BeautifulSoup,Re 的数据清洗
熟悉基于Socket 的网络编程,熟悉HTTP、HTTPS,TCP/IP等协议
熟悉验证码识别、模拟登陆、数据清洗、去重、入库、IP代理池等
有使用pycharm,sublime,vim等开发工具和fiddler抓包工具的使用
有反爬虫策略

项目经验

抓取该项目中所有的文章的内容,需要我们首先获取到所有文章,其次便可以获取到文章中的所有的内容(作者、标题、评论、发布时间、标签以及评论内容等),获取数据时要需要进行解码操作,将获取到正确的数据存储到MONGO中。
1、使用fidder抓包;
2、分析页面结构,获取所有文章中的内容;
3、使用正则以及XPath来解析所有数据;
4、将数据根据文章的名称存储到mongoDB中;
5、设置代理IP绕过网站反扒机制;

信用行为

  • 接单
    0
  • 评价
    0
  • 收藏
    0
微信扫码,建群沟通

发布任务

企业点击发布任务,工程师会在任务下报名,招聘专员也会在1小时内与您联系,1小时内精准确定人才

微信接收人才推送

关注猿急送微信平台,接收实时人才推送

接收人才推送
联系需求方端客服
联系需求方端客服