Python:
(1)精通Python爬虫技术,能针对各种反爬虫技术(包括验证码,滑块等)进行破解。精通scrapy框架,request,selenium,urllib等技术。
(2)熟悉各种机器学习、深度学习、强化学习算法,熟悉特征工程方法,熟悉sklearn,keras,TensorFlow,pandas等开源包。
(3)熟悉Django rest framework技术,熟悉flask
数据库:
熟悉MySQL,mongodb,redis,elasticsearch等多种数据库,熟悉elasticsearch搜索技术。
Java:
熟悉ssm框架,熟悉设计模式。
前端:
熟悉vue框架,熟悉html,css,js等技术
(1)爬取顺企网,黄页88,电信黄页,慧聪网等多个网站企业名录,对名录进行去重,获取去重后的5000w企业名录。项目使用Python语言开发,构建基于redis的分布式爬虫,多线程异步爬取,最终数据存入mongodb。
(2)爬取国家企业信用信息公示系统,商标网,企查查,天眼查,水滴信用,政府招投标采购网,icp备案查询网等多个网站,获取企业各个维度的详细信息,并形成自动更新机制,不断更新企业名录及详细信息。项目使用Python开发,架构为基于scrapy redis的分布式爬虫,使用代理池,cookie池进行爬取。数据库为mongodb分片集群。
(3)基于Python的机器学习算法,为爬取的企业详情进行行业地域分类
(4)基于Django+vue+echart对企业数据进行可视化分析。
(5)舆情爬虫,爬取新浪,搜狐,网易,腾讯等新闻网站整站新闻,并存入elasticsearch数据库,建立舆情查询系统。