熟练使用MySQL,PGSQL,Redis,MongoDB数据库;
熟练使用RabbitMQ消息中间件进行收发消息,了解其中的问题并加以解决;
熟练使用selenium+phantomjs和chrome浏览器抓取动态页面;
熟悉scrapy框架的使用,有django开发经验;
熟练使用多种中文文本情感分析并加以分类给出标签正、负、平;
熟练应对反爬虫策略:封Ip、ajax加载、cookie模拟登录,图片滑块验证等;
企业工商信息采集
项目简介: 在东方财富网爬取的一些国内上市公司名称和新三板的一些挂牌公司名称、投资界vc投资机构抓取的投资机构名称,还有在百度排行榜收集到的按行业排名的公司的名称,按照这些公司名称去企查查、微猫、百度企业信用等网站去爬对应的公司的基本信息以及法律诉讼、经营状况、经营风险、企业发展、知识产权和企业图谱、股权结构图等信息的爬取;
责任描述:
1、 负责设计表结构、分析各网站结构,制定抓取方案;
2、 负责数据的提取、处理、入库以及准确性测试;
3、 负责定期对已采集到的企业信息的更新迭代;
4、 解决爬取过程中的反爬措施,对反爬策略的设计及优化,提升抓取效率和质量。
舆情系统需要的信息采集
项目简介: 爬取的网站类型包括:央及媒体、自媒体、论坛等,将公司名称作为关键词去各央及媒体网站如:中工网,中国网,海外网、经济网等搜索对应的新闻资讯;自媒体网站如:一点资讯、新浪新闻、今日头条等抓取包括账号信息,发帖人信息以及帖子热度,还包括一些电商网站、视频网站、招聘网站、论坛、微信等。
责任描述:
1、负责设计表结构,制定抓取方案;
2、负责对网站进行关键词搜索抓取、入库;
3、负责解决各种反爬措施并优化抓取策略加线程以提升爬取效率;
4、负责对各网站信息的更新迭代和爬虫系统的维护。