1、掌握python、java、c++、lua、html等编程语言;
2、掌握oracle、mysql、mongo等数据库;
3、掌握ElasticSearch全文索引,加快数据的搜索响应速度;
4、具备良好的架构意识,使用python编写过爬虫框架、支持分布式,现已经在160台服务器上实用,且稳定运行;
5、开发文本聚类算法 、新闻正文提取、情感分析算法,准确率均在95%以上;
6、带领团体,历经4个月,为公司创造千万价值。
7、有良好的编程规范。
1、微信爬虫
微信手机客户端爬虫,爬取公众号信息以及所有 文章、阅读量、点赞量和评论内容
项目地址:https://github.com/liubo0621/wechat-spider
2、舆情爬虫
基于文本密度提取新闻正文,支持分布式
项目地址:https://github.com/liubo0621/distributed-spider
3、互联网舆情智能推荐项目
搜集全网舆情,根据关键词库、筛洗与自己相关舆情,利用文本聚类技术,聚出每日热点。可针对某一事件,进行专题分析。专题分析包括:
(1)网民情感正负面占比
(2)溯源分析
(3)事件传播趋势
(4)微信、微博报道情况
(5)导出报表
(6)推送至微信
(7)...
项目性能如下:
(1) 单服务器日均抓取不少于300万个网络链接,用于采集互联网舆情信息;
(2) 垃圾数据清理(舆情正文提取),用于过滤网页中的广告、外链等不相关信息,单服务器日均处理不少于300万个网络链接,垃圾清理平均准确率大于95%;
(3) 全文检索,用于系统中对舆情热点、舆情信息的快速检索,平均10亿条舆情信息检索效率不超过3秒;
(4) 热点汇聚,用于系统中舆情热点自动汇聚分析与推送,单服务器日均处理不少于300万条网络舆情信息,汇聚平均准确率大于95%;
(5)情感分析(正负面研判),用于系统中对舆情文章及评论内容的正负面自动研判,平均准确率大于95%。
角色 | 职位 |
负责人 | 高级python工程师、项目经理 |
队员 | 产品经理 |
队员 | 前端工程师 |
队员 | 后端工程师 |
工程师超级棒,解决问题赞赞咱!期待再次合作,推荐猿急送平台哦~