一、需求描述:
kmeans聚类算法有不少可以改进的地方,目前需要在传统kmeans算法的基础上进行优化和改进,可以给出参考优化方向:
(以下优化方向只是建议,如果你有更好的优化方向,可以按照你的要求来)
1、对质心进行优化,选择初始质心之间有一些策略,比如尽量远离,有助于反应数据的分布
2、改进迭代过程 有几个方向,一个改进复杂度,比如数据的访问用KD树来索引,一个是改进目标函数(原始目标函数就是使同一类的离质心距离最小),有一个思路是时刻更新质心,比如移动一个样本到最近的类别,就立刻更新相应的两个类质心,这样改变了每轮都要对所有样本更新label的繁琐过程。
3、对聚类中的无效特征进行优化
英文文本中会有体育,政治,经济等等类型的新闻,该程序要能对万余篇乃至更多的英文文本进行特征聚类,可视化聚类前后的结果 不得抄袭,得有方法和技术上的创新,不得抄袭别人的内容(英文文本数据我会提供)
验收标准:一份传统kmeans的聚类和一份改进后的kmeans聚类,改进后的聚类如果比传统聚类效果好,可以验证
要求:希望你熟悉精通python语言,熟悉python第三方库,熟练使用各种机器逻辑算法,对算法有很好的掌握。