熟练应用jieba、Hanlp、LTP、THULAC、StanfordNLP、NLTK、practnlptools 等中英文NLP 工具进行分词、命名实体识别、依存分析、语义角色分析等,对大量的中英文语料库进行了处理,具有较为丰富的语料预处理经验。 利用神经网络模型包括BiLSTM+CRF、BiGRU+CRF、Transformer、Bert 等实现了中文分词、命名实体识别、语义角色标注任务具有较强的编程能力。熟练使用Python 进行编程,使用过SVM、随机森林、线性判别分析、集成学习等传统监督模型进行分类,使用过K-Means、DBSCAN 等方法进行聚类,也使用过多种神经网络模型。使用过PCA、SVD、因子分析、FastICA 等几种线性降维方法,以及几种流行学习等非线性降维方法。
采用C#编程实现了Word 签章,在大学软件设计竞赛中获得第三名。熟练使用Java 进行自然语言语料预处理,利用Hanlp 进行中文文本的分词,词性标注以及句法依赖分析,利用StanfordNLP 进行英文分词、词性标注、命名实体识别等。较为熟练的使用C#进行界面编程。