熟练使用Python和R语言进行数据分析及可视化;
掌握自然语言处理的基本方法,会使用“jiebaR”,“tm”,“RTextTools”等R语言包进行文本处理,如情感分析等;
了解并掌握基本的机器学习及深度学习理论及方法,会使用R语言“e1071”中机器学习相关的算法工具,如“svm”,“naiveBayes”,“knn”等;
了解基本的分布式系统架构,有独立搭建Hadoop分布式平台及SparkR数据处理平台经验;
熟悉Linux系统的基本操作和基本的SQL语言。
使用python编写爬虫,采集网站数据
使用shiny编写交互式数据分析可视化网页
基于R对文本数据的进行LDA主题建模,并对标注语料进行情感分析。
整合生信同事编写的脚本(Perl+R)到工具中,实现生信结果的可视化。用户输入样本编号及相关条件,可以查看该条件下的CNV指标图及表格。 独立完成
用户输入条件后,工具自动输出该样本Sanger验证结果图片,并提供下载功能。简化工作流程,提高工作效率。 独立完成。