ipe公众研究中心以及附属爬虫平台

基本信息

案例ID:132616

技术顾问:🌴꯭ 萌꯭ 萌꯭ 东꯭🌴 - 5年经验 - 上海某知名公司

联系沟通

微信扫码,建群沟通

项目名称:ipe公众研究中心以及附属爬虫平台

所属行业:企业服务 - 行业细分软件

->查看更多案例

案例介绍

相关技术和工具:python2.7/3.5、Ajax、jQuery、AngularJs、MySQL、nginx、qiniu(七牛云图片)、tornado、Tinymce、template.js、fiddler(工具)、Charles(工具)、XPath、 re、scrapy、jsonpath 、selenium 、logging、 confluence、asyncio、gevent、kafka
项目描述:该项目是爬取各个政府公开信息整合到一个手机app作信息公开,环境保护
负责模块:
负责框架底层搭建:负责tornado 底层框架的搭建,模板,url路由映射,静态文件,登陆装饰器,日志处理(logging),常用库(redis,pymysql)数据访问层的封装
使用tornado.gen模块 和asyncio模块请求第三方地址, I/O多路复用模式
根据网页页面哈希值监测网站是否改版, 监测程序的可用性和爬取数据的正确性
负责给蔚蓝地图APP提供RESTFulAPI风格接口, 展示抓取数据源, 各项污染指标信息, 信息公开
负责抓取全国各个省市和政府网站的水质年报,月报,小时报,以及各个断面和湖泊的ph值,氨氮值,溶解氧等各个指标做信息公开,用到requests(headers认证),XPath, re等解析提取, scrapy(静态页面),selenium+phantomjs
Fiddler 抓取分析常规页面请求响应报文,模拟请求通过正则匹配等获取可用信息入库
Charles 抓取分析 Flash网页类型报文,siverlight 等其他非json数据格式等网站
运用IP代理池,拨号等手段防止爬取被屏蔽封IP,运用第三方打码平台或者OCR识别验证码破解反爬
rabbitmq 配合 Logging 分类记录日志,及时查看爬取统计和结果信息
抓取数据监控:当爬虫程序异常,爬取网页发生页面变动或者数据格式异常进行邮件预警,及时排查问题
做信息公开官网展示的反爬措施,前后端分离,js混淆,headers认证,json加密,接口地址隐藏,访问频率限制,加验证码等等
接口文档编写,markdown语法,数据库文档字段注解
gevent 协程多任务的方式异步请求获取数据,IO多路复用,减少需要快速获取接口实时同步数据时间

相似案例推荐

其他人才的相似案例推荐

  • 安美网页

    安美网页

    项目描述:用户自主建站的平台,卡片式板块,用户自主编辑并实时

  • 12

    12

    发发嘎嘎附件啊冷风机安吉flag拉篮拉嘎嘎嘎老规矩拉杆夹拉嘎

  • 金万维官网

    金万维官网

    金万维公司官网,主要展示公司旗下产品,实现产品拥有独立产品页

  • 机床流水线开发和燃气监测管理系统

    机床流水线开发和燃气监测管理系统

    SCADA和MES系统,流水线自动化工具加工,以及燃气监测管

  • 滑县取水管理系统

    滑县取水管理系统

    负责整个滑县取水的管理系统开发,现在一直正常运营,统计水流和

  • 手机回收系统

    手机回收系统

    项目描述: ● 手机回收系统主要的功能有:用户进入首页选择

  • 深圳市客服全方位系统

    深圳市客服全方位系统

    1、主要负责服务调度相关模块如停电信息集市,服务调度报表,快

  • 深圳供电局95598小程序

    深圳供电局95598小程序

    1、开发营配监控和微信停电地图的功能 2、使用h5嵌入高德

  • ERP-AP

    ERP-AP

    ERP-AP是一个应付系统,是属ERP系于统的一个分支,由华

  • 天兔

    天兔

    天兔是一个主要供华为业务人员使用的通过手机端建立线索,机会点

  • 智慧税务大脑

    智慧税务大脑

    智慧税务大脑运用机器学习、odps、流式计算等大数据加工技术

  • 标签平台

    标签平台

    目前税务数据较为分散,无法直观的描述纳税人信息。随着生产服务

发布任务

企业点击发布任务,工程师会在任务下报名,招聘专员也会在1小时内与您联系,1小时内精准确定人才

微信接收人才推送

关注猿急送微信平台,接收实时人才推送

接收人才推送
联系需求方端客服
联系需求方端客服