1、编程语言与工具:会使用Python(Pandas、NumPy、SciPy、Scikit-learn、TensorFlow/Keras),掌握SQL语言,能够进行数据清洗、处理与分析。
2、数据库管理:熟悉MySQL数据库管理,能够编写高效SQL查询,进行数据库设计优化,确保数据的安全与高效访问。
3、数据分析方法与模型:具备扎实的统计学基础,熟练运用线性回归、逻辑回归、决策树、随机森林等统计模型与机器学习算法进行数据分析与预测。同时,对聚类分析、时间序列分析等高级分析方法也有知道。
4、数据可视化与报告:可使用Matplotlib等工具进行数据可视化,能够设计美观、信息丰富的图表。具备良好的报告撰写能力,
1、小型搜索引擎:通过协程异步爬虫的得到新浪网上的近期新闻,然后将这些数据通过倒排索引的方式保存到数据库中,最后通过flask框架作为后端框架进行页面设计,通过关键词搜索即可得到相应的结果,在其中还使用到数据缓存等一系列数据。
2、以图搜图的搜索引擎:通过TensorFlow库中的CNN的一些库对图片的一些特征值进行提取,然后将其嵌入式向量文件得到,然后依旧通过flask框架做后端,然后上传自己的图片,最后使用mobilenet这个轻量级模型对后续进行向量比对,给出相似的图片。
我则是首先利用爬虫爬取1000幅图像,然后在其中找到与给定图片相似的图片,在其中实现两种方式:一种是以图搜图,另一种则是用文字搜索图片。将搜索到的结果进行美化后的展示,基于flask这个轻量级框架搭建一个页面展示。
我决定做一个新闻搜索引擎,因为现在是一个信息爆炸的时代,对于新闻内容的准确、迅速获取变得越发重要。我希望通过整合几大新闻网页来源,为用户提供一个方便、高效的平台,让他们能够轻松地搜索和获取获取到自己感兴趣地新闻内容。对于这个系统我们则是通过对于新浪网进行10000个网页地爬取,进