常用Python的Requests模块、selenium模块以及基于scrapy框架实现代替人工自动数据信息的采集与整理。同时熟练掌握Requests模块并结合xpath、Regular Expression以及BeautifulSoup等解析库实现高效数据爬取。深刻理解多进程、线程以及异步协程操作,并有其充足经验。曾采用分布式爬虫扩充ip池进行过百万数据量的数据爬取。熟练使用numpy、stata进行数据分析与matplotlib数据可视化进行多维度全方面分析。CSS、HTML5、Javascript知识丰富。熟练掌握其基于大规模互联网语料和自然语言处理机器学习算法中的LSTM(Long Short-TermMemory)、BERT等深度神经网络分类模型,自然语言处理中情感分析api的调用与分词打标的进行。
1.采用Selenium自动化对知乎进行多进程问答爬取,获得特定主题的问答数目万余条
2.采用Scrapy框架结合ip池、账号池与分布式爬虫技术爬取微博评论百万条,并获得评论用户的公开个人信息
3.采用基于大规模互联网语料和自然语言处理机器学习算法中的LSTM(Long Short-TermMemory)、BERT等深度神经网络分类模型所得评论进行分词、打标、以及情感分析。