抓取与反爬经验。新浪微博pc端,wap端。从高级搜索功能,博主home页为入口,实现帐号粉丝数,关注数,标签,信用分等价值数据提取。帐号博文历史数据和增量数据抓取,评论信息,博文全文包括图片和视屏短链信息等。当然对于电商,论坛和新闻和视频字幕类数据均有抓取经验。对于大众点评,美团外卖等舆情类数据有两年抓取经验;熟悉fiddler抓包和apk反编译破解 app数据抓取;
同时能基于CppJieba和四大词库实现分词,词性标注,命名实体,自动摘要,热词提取分析和情感分析等NLP功能。
参与公司抓取两套产品整体迭代;日常负责微博,新闻和论坛类抓取;参与团中央青年之声文本服务开发迭代;参与新华网NLP文本平台的维护和迭代;