一、功能亮点
灵活控制:设置全局停止标志 stop_flag,借助 keyboard_listener 函数和 threading 模块,可在运行中通过键盘输入 0 随时停止爬取,便于用户掌控进度。
自动翻页:程序从第二页起自动循环爬取。滚动页面到底部确保加载完成后,依据当前页码动态构建下一页按钮的 CSS 选择器进行定位。若定位失败,会使用通用选择器继续尝试,若仍未找到则提示可能到最后一页,等待用户决定是否继续。
异常处理:面对数据加载超时,有重试机制,最多重试 2 次。若连续失败,提示用户可输入 0 停止,增强了程序稳定性。
数据规范:爬取的数据以 utf - 8 - sig 编码存入 data.csv,避免中文乱码。涵盖昵称、产品、评分等字段,评论长度限制在 500 字符内,方便后续分析。
二、技术实现
基于 Python 开发,利用 DrissionPage 库模拟浏览器操作,实现页面访问、元素定位和网络请求监听;用 csv 库将数据存储为规范的 CSV 文件。
三、应用价值
为商家了解消费者反馈、优化产品和营销策略提供数据支持;为市场研究人员分析市场趋势和竞品情况提供参考,助力电商领域的数据挖掘与决策。