掌握pycharm notepad Charles wireshark Xshell Navicat Postman Chrome等工具
掌握 pandas numpy selenium requests json re等爬虫相关模块
掌握scrapy Django 等框架使用
电商爬虫:当当 、苏宁、淘宝
其他爬虫:小红书、微信、微博、B站、抖音、百度贴吧、知乎等
使用到的模块 requests、pandas、re、openpyxl、datetime、time等
如果需要提升爬取速度,可以使用ThreadPoolExecutor对爬虫进行改造,改造成多线程爬虫
反爬措施:使用随机请求头、动态cookie、使用代理转发、降低请求速率
对小红书、微信、微博、B站、抖音的相关文章、视频、用户数据、关键词搜索等数据进行抓取、并解析,生成Excel文档并入库,然后生成词云图和分析图(柱状图、折线图等)
利用pandas读取Excel里面的url,通过split切取自己想要的userID,然后进行拼接,使用线程池把需要请求的URL全部放进去,使用多线程异步发送请求提取爬虫效率,获取返回的JSON数据,然后对JSON数据进行清洗,拿到自己想要的数据