负责爬虫的设计和开发;
负责网页信息抽取技术的研究和开发
设计爬取、调度和抽取算法,优化系统
负责抓取数据的深度提取和挖掘
在读全日制大学软件工程专业
熟悉Python及Python抓取框架
从事过网络爬虫和类似任务的研究开发工作
精通网页抓取原理及技术的实现细节,熟悉基于规则的网页信息抽取,精通正则表达式,从结构化的和非结构化的数据中获取信息对网页抓取、信息抽取、去重、清洁、匹配有一定经验
爬取过各种电商、图站、BOSS直聘等相关网页资源爬取
NASA、Pixabay、DigitalCollection图库的爬取