首先,我熟练掌握requests库,可根据需求定制化请求协议,能够使用相关库和框架进行网络爬取,包括Beautiful Soup和Requests等。我熟练掌握Beautiful Soup、lxml、正则表达式或XPath等网页解析技术等技术,可以有效提取目标网站上的航班信息。
其次,我具备动态网页处理的经验,能够使用Selenium等工具模拟浏览器行为,确保爬取到完整的航班信息,尤其对于涉及JavaScript动态加载的网站。
此外,我对数据库操作有一定了解,能够将抓取到的数据存储到适当的数据库中,如MySQL或MongoDB。我还懂得数据清洗和处理,使用工具如Pandas确保数据质量。
了解反爬虫策略,能够通过使用代理IP和模拟用户代理等方式规避封锁,同时确保爬虫行为符合法律和道德标准。我具备解决技术问题、监控爬虫运行并进行错误处理的能力,确保兼职任务高效稳定地完成。
1.完成微博特定领域微博千万级并发代理爬虫的设计与开发
2.完成基于seleium的淘宝爬虫的设计与开发
3.完成美团优选https加密信息的爬取
项目描述:参加国家社科基金项目,主要参与项目语料库构建。 项目职责:负责该项目后期的语料库框架搭建、数据爬取、信息检索系统构建。 项目结果:搭建了项目语料库 BLENet完成了 2011~2022 千万级语料的分布式爬取、网站搭建等。
项目描述:使用联合实体和关系的知识图谱构建技术,并尝试将该技术应用到具体的行业领域。 项目职责:组织项目开展,收集整理数据,确定法律图谱标注规范,研究法律和医疗知识图谱构建算法,完成图谱应用实践。 项目结果:确立了法律关系实体语言标注规范,构建了医疗信息服务平台和 CLF 法