此作品对知乎的心脏用药的相关结果做了一个总结,一共10页,每页20条信息。我是开发者角色,其中我使用selenium的动态网页爬取技术打开知乎网页,然后又使用beautifulsoup进行了页面解析。然后我又使用了前端的vue框架和bootstrap的技术给获取的信息进行了分页处理,在每个详情页又使用了js技术获取下一条或者上一条信息和返回列表功能.
1. 通过webdriver实例化一个浏览器对象【谷歌浏览器】
2.遇到selenium能被知乎识别的反爬问题,使用自己打开的一个浏览器,绕开反爬
再用selenium接管这个浏览器这样就可以完成反爬的处理。
3. 通过urllib模块输入相关问题,然后直接通过selenium,下拉网页到最后
4. 通过beautifulsoup的语法获取相关超链接和标题
5. 通过requests模块向这些超链接发送请求,然后获取返回页面的源码后用xpath语法获取需要的数据,
然后存入mysql数据库
6.建立前端的vue-cli脚手架,通过bootstrap和vue的相关指令生成前端页面
7.通过pdo和数据库连接返回所需的数据,然后和vue框架进行前后端的交互
8.将相关的vue框架和后端的php文件上传到阿里云服务器