猿急送>

上海后端兼职程序员外包

William WANG華

职位ID:105523

python爬虫工程师

合作方式：
项目制全国远程

预估日薪：
500

预估总价：
1000元

预估工时：
2天

所在区域：
全国远程

需求描述

要求爬取一个外文网站的公版免费书，gutenberg.org，数量比较多，但格式一致。要求如下：1，爬书籍的概要，比如书名，分类，作者，出版社，书号，作者介绍，图书介绍这些基本信息，书的封面的图片，存到books_info表中；2，爬取书籍正文，一段一段存到表中，表明sections，如果遇到图片，将图u片下到云盘，应该下到oss，在数据库保持图片链接，图片按照约定规则命名；在存的时候，需要识别出文章目录，比如第一章第二章，第一节第二节，目录信息也要存到同一个表中。此过程可能要求存一些样式信息。3，除了上述二个表，还有二个表要存，一个叫books_content，将一本书的文本存到一个字段中mediumtext，第二个叫table_text，因为为了提高速度，初步定义一个表放500本书，因此要求爬虫自动分表，自动建表，每500本书另起一张表，同时在table_index中注明表的对应关系。4，爬取时可能要进行一点格式化，比如同一个自然段里面要去除回车换行符。5，爬取shelves，就是书籍分类关系。6 爬取css。

要求你很精通爬虫，熟练操作mysql数据库。
最后除了爬取这个网站的书籍外，要交代码。爬取书籍可以在我的服务器操作。系统是ubuntu。阿里云的。
希望你逐段爬取，直接存库。关键点在于如何识别出哪些段落属于章节标题。

已完成

相似职位推荐

联系需求方端客服

热门标签列表

程序员接私活程序员兼职企业外包外包案例

热门人才推荐

上海后端兼职程序员外包

python爬虫工程师

需求描述

相似职位推荐

信用行为

完善简历

发布任务

微信客服