1.熟悉整个爬虫的设计及实现流程,有网络爬虫、网页信息抽取开发经验,
2.熟悉反爬虫技术,有分布式爬虫架构经验;熟悉Linux操作系统,
3.使用pip或anaconda搭建开发环境;熟练使用python语言,熟练使用Python常用模块及web框架。
4.熟悉NLP热门各类算法:CNN RNN LSTM Transformer Bert
5.了解应用NLP领域的文本分类、情感分类、自动摘要、语句分割、实体识别、知识图谱
项目名称:服务型对话机器人
项目简介:针对输入语句,建模得到最相似问题,输出答案
主要工作:文本数据预处理(已有预料进行无监督聚类Kmeans),输入句子放入模型(句向量距离<=n) 得到最相似问题topn,输出相应答案(爬虫百度搜索,若失败返回礼貌用语),模型迭代验 证、参数修改
主要库/工具:pandas/gensim/jieba/re/json/t-sne/SIF句向量表示
项目名称:新闻人物言论提取
项目简介:针对海量新闻文本,建模提取出其中人物及言论
主要工作:文本数据预处理(pandas/numpy/jieba/re),pyltp语义解析模型(Ner,Denpendency Parsing),输出语句并判断情感倾向(bert情感分类)模型调优(参数调整,句向量优化)
主要库/工具:pandas/LSTM/tensorflow
1、爬取微博热搜评论,用于舆情分析需求 2、分析微博评论生成逻辑,制定爬取策略 3、python代码编写,运行,调优,爬取所需信息
1、爬取优美库相应图片,用于图像识别算法数据库 2、分析图片网站源码,指定爬取策略 3、编写python代码,调优,直至完成数据爬取
1、爬取优美库相应图片,用于图像识别算法数据库 2、分析图片网站源码,指定爬取策略 3、编写python代码,调优,直至完成数据爬取