爬虫开发,包括框架使用,反爬技术,监控技术,多进程或分布式架构;
自然语言处理技术,包括文本分类,实体识别,语义等价问题;
自然语言处理模型复现,Bert,Roberta,XLNet等模型的改造和使用;
虚假新闻检测挑战赛top4;
开源工具爱好者,NLP比赛爱好者;
熟悉深度学习框架,包括tensorflow,pytorch;
熟悉常用工具sklearn,gensim;
熟悉linux后端command line;
熟悉python及相关库使用;
熟悉pgsql,mysql,mongodb,redis等数据库使用;
了解rabbitmq消息队列的使用;
分布式爬虫数据监控系统;
自然语言处理论文复现;
CCF情感分析大赛2019 rank 80/2785;
虚假新闻检测挑战赛 top 4/521;
新闻关键词挖掘;
法律文书关键词挖掘;
商标文字相似性检测;
法律文书数据爬取;
知乎豆瓣数据爬取;
新闻门户网站数据爬取;
新闻文本后处理;
接单包括:
1.垂直网站数据一次性爬取,项目议价具体看网站反爬难度,希望长期合作服务项目另议
2.自然语言技术,包括企业技术支持,论文复现,模型相关咨询,毕业设计代写
UCPH Msc 在读,时间比较空闲,有合作想法的都可以通过邮箱联系
熟悉NLP领域内的任务及模型,英文雅思6.5阅读paper无障碍,欢迎讨论相关技术或者组队比赛
本项目在 Celery 分布式爬虫的基础上构建监控方案 Demo,在编写 Statsd + InfluxDB 方案代码进行调研过程中,转向了 Prometheus 的怀抱 ,使用 Grafana 对监控序列进行可视化,爬虫部分完成对下载和解析进行简单解耦
使用tensorflow复现抽取式摘要论文 熟悉NLP深度学习的各个任务下的主流模型 熟悉深度学习框架的使用 包括keras,pytorch,tensorflow 和常见的自然语言处理包 包括gensim,sklearn等 和常见数据分析包 包括pand
智源&计算所虚假新闻挑战赛的task1 False News Text Detection 初赛成绩 top-4,复赛成绩 top-12 模型无特别之处,直接用的LM base (roBERTa 和 XLNet),科大讯飞训练的版本 用large的batchs