掌握python语法基础;Linux基本使用;MySQL、MongoDB及Redis数据库基本使用;网络编程基础及阻塞解决方法;Web前端;
网络爬虫分析与代码实现 ;Django框架;了解数据分析等
东莞废弃物数据爬取_1
要求:
项目公告数据更新https://www.dgrecycle.com/Trade_Announcement/AnnouncementList.aspx?mid=1107131&fid=0时间范围:2022-8-10至今
思路:
使用selenium爬取,打开浏览器后在20s内手动选择查询条件并点击查询。
根据总页数获得需要点击"下一页"的次数,依次循环获得每一页的内容。
外内容与里内容表头手写。
获得外内容的每一行,并点击该行详情页同时获得该行对应的里内容。
当所有内容爬取完后,将外、里表头拼接为总表头,外、里内容拼接为总内容后,将总表头与总内容写入csv里并保存。