猿急送>

其他Python兼职程序员

ID：187052

Adrian 身份已认证

数据挖掘工程师，爬虫工程师，python工程师

公司信息：
平安

工作经验：
1年

兼职日薪：
600元/8小时

兼职时间：
下班后
周六
周日
可工作日远程

所在区域：
其他
全区
海外

技术能力

爬虫开发，包括框架使用，反爬技术，监控技术，多进程或分布式架构；
自然语言处理技术，包括文本分类，实体识别，语义等价问题；
自然语言处理模型复现，Bert，Roberta，XLNet等模型的改造和使用；
虚假新闻检测挑战赛top4；

开源工具爱好者，NLP比赛爱好者；
熟悉深度学习框架，包括tensorflow，pytorch；
熟悉常用工具sklearn，gensim；
熟悉linux后端command line；
熟悉python及相关库使用；
熟悉pgsql，mysql，mongodb，redis等数据库使用；
了解rabbitmq消息队列的使用；

项目经验

分布式爬虫数据监控系统；
自然语言处理论文复现；
CCF情感分析大赛2019 rank 80/2785；
虚假新闻检测挑战赛 top 4/521；

新闻关键词挖掘；
法律文书关键词挖掘；
商标文字相似性检测；
法律文书数据爬取；
知乎豆瓣数据爬取；
新闻门户网站数据爬取；
新闻文本后处理；

接单包括：
1.垂直网站数据一次性爬取，项目议价具体看网站反爬难度，希望长期合作服务项目另议
2.自然语言技术，包括企业技术支持，论文复现，模型相关咨询，毕业设计代写
UCPH Msc 在读，时间比较空闲，有合作想法的都可以通过邮箱联系
熟悉NLP领域内的任务及模型，英文雅思6.5阅读paper无障碍，欢迎讨论相关技术或者组队比赛

案例展示

爬虫监控分布式系统

本项目在 Celery 分布式爬虫的基础上构建监控方案 Demo，在编写 Statsd + InfluxDB 方案代码进行调研过程中，转向了 Prometheus 的怀抱，使用 Grafana 对监控序列进行可视化，爬虫部分完成对下载和解析进行简单解耦
NLP自然语言处理论文复现

使用tensorflow复现抽取式摘要论文熟悉NLP深度学习的各个任务下的主流模型熟悉深度学习框架的使用包括keras，pytorch，tensorflow 和常见的自然语言处理包包括gensim，sklearn等和常见数据分析包包括pand
虚假新闻挑战赛top分享

智源&计算所虚假新闻挑战赛的task1 False News Text Detection 初赛成绩 top-4，复赛成绩 top-12 模型无特别之处，直接用的LM base (roBERTa 和 XLNet)，科大讯飞训练的版本用large的batchs