猿急送>

北京后端兼职程序员

ID：259692

ヤオ・チー身份已认证

无

公司信息：
无

工作经验：
1年

兼职日薪：
500元/8小时

兼职时间：
下班后

所在区域：
北京
海淀

技术能力

首先，我熟练掌握requests库，可根据需求定制化请求协议，能够使用相关库和框架进行网络爬取，包括Beautiful Soup和Requests等。我熟练掌握Beautiful Soup、lxml、正则表达式或XPath等网页解析技术等技术，可以有效提取目标网站上的航班信息。
其次，我具备动态网页处理的经验，能够使用Selenium等工具模拟浏览器行为，确保爬取到完整的航班信息，尤其对于涉及JavaScript动态加载的网站。
此外，我对数据库操作有一定了解，能够将抓取到的数据存储到适当的数据库中，如MySQL或MongoDB。我还懂得数据清洗和处理，使用工具如Pandas确保数据质量。
了解反爬虫策略，能够通过使用代理IP和模拟用户代理等方式规避封锁，同时确保爬虫行为符合法律和道德标准。我具备解决技术问题、监控爬虫运行并进行错误处理的能力，确保兼职任务高效稳定地完成。

项目经验

1.完成微博特定领域微博千万级并发代理爬虫的设计与开发
2.完成基于seleium的淘宝爬虫的设计与开发
3.完成美团优选https加密信息的爬取

案例展示

BLENet 语料库

项目描述：参加国家社科基金项目，主要参与项目语料库构建。项目职责：负责该项目后期的语料库框架搭建、数据爬取、信息检索系统构建。项目结果：搭建了项目语料库 BLENet完成了 2011~2022 千万级语料的分布式爬取、网站搭建等。
联合实体和关系的知识图谱构建技术

项目描述：使用联合实体和关系的知识图谱构建技术，并尝试将该技术应用到具体的行业领域。项目职责：组织项目开展，收集整理数据，确定法律图谱标注规范，研究法律和医疗知识图谱构建算法，完成图谱应用实践。项目结果：确立了法律关系实体语言标注规范，构建了医疗信息服务平台和 CLF 法