熟练掌握python语言的使用
Pandas, NumPy (用于数据清洗和分析)
Scrapy (深入使用,搭建过分布式爬虫系统)
熟悉MySQL, PostgreSQL, MongoDB数据库的使用
熟悉使用Git(团队协作和项目管理)
掌握Linux操作系统基础知识
项目名称: 公共数据集爬取工具
开发了一个基于Scrapy的爬虫工具,用于自动抓取政府、教育机构等公开的数据集。
利用BeautifulSoup和lxml解析器处理HTML和XML数据,提取有用的信息。
实现了数据下载和存储的管理机制,确保数据集的完整性和一致性。
项目部署在内部服务器上,为公司内外多个项目提供了数据支持。