职位ID:105523

python爬虫工程师

  • 合作方式:
  • 项目制 全国远程
  • 预估日薪:
  • 500
  • 预估总价:
  • 1000元
  • 预估工时:
  • 2天
  • 所在区域:
  • 全国远程

需求描述

要求爬取一个外文网站的公版免费书,gutenberg.org,数量比较多,但格式一致。要求如下:1,爬书籍的概要,比如书名,分类,作者,出版社,书号,作者介绍,图书介绍这些基本信息,书的封面的图片,存到books_info表中;2,爬取书籍正文,一段一段存到表中,表明sections,如果遇到图片,将图u片下到云盘,应该下到oss,在数据库保持图片链接,图片按照约定规则命名;在存的时候,需要识别出文章目录,比如第一章第二章,第一节第二节,目录信息也要存到同一个表中。此过程可能要求存一些样式信息。3,除了上述二个表,还有二个表要存,一个叫books_content,将一本书的文本存到一个字段中mediumtext,第二个叫table_text,因为为了提高速度,初步定义一个表放500本书,因此要求爬虫自动分表,自动建表,每500本书另起一张表,同时在table_index中注明表的对应关系。4,爬取时可能要进行一点格式化,比如同一个自然段里面要去除回车换行符。5,爬取shelves,就是书籍分类关系。6 爬取css。

要求你很精通爬虫,熟练操作mysql数据库。
最后除了爬取这个网站的书籍外,要交代码。爬取书籍可以在我的服务器操作。系统是ubuntu。阿里云的。
希望你逐段爬取,直接存库。关键点在于如何识别出哪些段落属于章节标题。

信用行为

  • 发布项目
    25
  • 订单总数
    20
  • 退款单数
    9

完善简历

工程师完善技术能力和项目经验,更易接到订单

发布任务

企业点击发布任务,工程师会在任务下报名,招聘专员也会在1小时内与您联系,1小时内精准确定人才

微信客服

需求方请加需求方端客服沟通需求,工程师请加工程师端客服浏览推送职位

需求方端客服
工程师端客服
联系需求方端客服