现有网页爬虫需求,需要爬取网页上的信息内容按照规范化的字段进行保存,并整理为json格式进行交付,
交付内容包括:
1. 按照需求说明文档整理的json文件
2. 爬取的html网页文件
3. 爬取的数据量说明文件
4. 爬取数据所用的源代码
具体需求说明文档将在沟通时提供。
合作方式:
项目制,由于本项目要爬取的网页数量较多,会提供给工程师待爬取的网页清单,
第一次合作可以先爬取1个网页,进行试验,然后再进一步流程化操作。
按批次交付(比如10个网页交付一次,每周交付一次)、按批验收,按批打款。