1、熟悉基本自然语言处理算法,包括但不限于LSTM、CRF、BERT等模型算法
2、熟悉Python(matplotlib、numpy),C/C++,Pytorch语言
3、熟悉scrapy爬虫框架,有数据采集经验
4、 思维敏捷,踏实可靠具有良好的逻辑分析能力、良好的沟通及组织能力
5、掌握简单数据可视化工具
6、掌握基本数据库操作如neo4j、sql、mongodb
使用scrapy爬取过多个网站,包括但不限于IMDB电影网站、微博网站、汽车之家网站等。
掌握简单的数据可视化工具如Echarts。
基于scrapy框架和mongo数据库,实现了微博数据爬取,具体来说包括了:1. 爬取关键词含有“公益”、“捐赠”、“慈善”的话题2. 爬取每个话题的汇总信息-总阅读量、原创人数3. 爬取每个话题下微博内容、点赞、评论数。并使用了动态ip技术反爬。
基于scrapy框架和mongo数据库爬取了IMDB上一千多步电影的详细信息和演员、导演、编剧的详细信息。并对数据进行了简单可视化和分析。