Python
数据爬取: 使用爬虫技术从互联网上抓取所需的数据,通过网络请求获取网页信息,解析HTML或XML文档,提取所需的数据等。数据处理: 清洗和预处理爬取到的数据,去除重复数据、处理缺失值、转换数据类型、处理异常数据,以便后续的分析等。数据存储: 将清洗和预处理后的数据存储到数据库或者其他持久化存储介质中,以便后续的分析使用。分析统计: 对爬取到的数据进行分析和统计,发现数据的规律、趋势、模式等,并提供相应的可视化展示 数据应用:对分析后的数据进行机器学习和人工智能的相关应用如预测、分类、聚类等。
1.zf公开信息网站(农产品,植物等),没有反爬
2.某博(内容,评论,热搜榜)
抖某音(评论)
B某站(视频,评论,弹幕)A
携某程(景点信息JS逆向,景点评论)
马某蜂窝(旅游目的地,评论,详情页)
7.某宝(商品信息)
8.某东(商品评论)
某点评(美食评论,css反爬)g
10.豆某瓣评论
11.贴某吧评论
12.其他电影票房等等