要求爬取一个外文网站的公版免费书,gutenberg.org,数量比较多,但格式一致。要求如下:1,爬书籍的概要,比如书名,分类,作者,出版社,书号,作者介绍,图书介绍这些基本信息,书的封面的图片,存到books_info表中;2,爬取书籍正文,一段一段存到表中,表明sections,如果遇到图片,将图u片下到云盘,应该下到oss,在数据库保持图片链接,图片按照约定规则命名;在存的时候,需要识别出文章目录,比如第一章第二章,第一节第二节,目录信息也要存到同一个表中。此过程可能要求存一些样式信息。3,除了上述二个表,还有二个表要存,一个叫books_content,将一本书的文本存到一个字段中mediumtext,第二个叫table_text,因为为了提高速度,初步定义一个表放500本书,因此要求爬虫自动分表,自动建表,每500本书另起一张表,同时在table_index中注明表的对应关系。4,爬取时可能要进行一点格式化,比如同一个自然段里面要去除回车换行符。5,爬取shelves,就是书籍分类关系。6 爬取css。
要求你很精通爬虫,熟练操作mysql数据库。
最后除了爬取这个网站的书籍外,要交代码。爬取书籍可以在我的服务器操作。系统是ubuntu。阿里云的。
希望你逐段爬取,直接存库。关键点在于如何识别出哪些段落属于章节标题。