Scrapy爬虫框架、Scrapy-Redis分布式爬虫框架、Requests、Selenium爬虫框架、Scrapyed、Scrapyweb、Postman和Kafka等。
Flask web框架,MongoDB数据库、Redis数据库、Flask-sqlalchemy和Neo4j数据库等。
项目一
项目名称:
Findchips、Bom2buy、ICnet和Arrow、Digikey等40个网站爬虫
项目内容:
使用Scrapy-Redis爬虫框架,设置代理IP登录相关网站,查询电子元器件相关型号的供应商型号、供应商ID、库存批号、包装类型、价格阶梯、制造商等信息,存储到Redis数据库,通过Kafka推送使用Flink流处理框架接收并处理。
相关技术:
Scrapy爬虫框架、Scrapy-Redis分布式爬虫框架、Requests、Selenium爬虫框架、Scrapyed、Scrapyweb、Postman和Kafka等。
项目二
项目名称:
爱企查网站爬虫
项目内容:
获取企业的工商注册信息包括法定代表人、统一社会信用代码、工商注册号、登记机关、注册地址和经营范围等,存 储到MySQL数据库。
相关技术:
Scrapy-Redis分布式爬虫框架、Requests、Selenium爬虫框架、Scrapyed、Scrapyweb、Postman和Kafka等。
项目三
项目名称:
电子元器件查询分析工具网站
项目内容:
搜索相关电子元器件型号的库存、制造商和价格阶梯等信息,点击型号获取型号基础信息,查看库存排行柱状图、价格阶梯柱状图和交易类型饼图,推荐相关关系的型号等。
相关技术:
Flask web框架,MongoDB数据库、Redis数据库、Flask-sqlalchemy和Neo4j数据库等。
Scrapy Engine(引擎):负责Spider、ItemPipeline、Downloader、Scheduler中间的通讯,信号、数据传递等。 Scheduler(调度器):它负责接受引擎发送过来的Request请求,并按照一定的方式进行整理排列,入队,当引擎需要时,交
Scrapy Engine(引擎):负责Spider、ItemPipeline、Downloader、Scheduler中间的通讯,信号、数据传递等。 Scheduler(调度器):它负责接受引擎发送过来的Request请求,并按照一定的方式进行整理排列,入队,当引擎需要时,交