为什么常识

文档向量直接通过距离聚类和通过LSI降维后再聚类效果会有怎么样的差异?

生活词典 changshi.cidiancn.com

阅读: 137

文档向量直接通过距离聚类和通过LSI降维后再聚类效果会有怎么样的差异?在文献检索领域,LSI是经典的降维手段。但我有一个理论问题没有解决,而且从实践看貌似情况有点复杂。问题是“文档向量直接通过距离聚类和通过LSI降维后再聚类效果会有怎么样的差异?” 我的实践效果是这样的:当构成文档向量空间维度的关键词比较稀疏时,直接聚类和LSI降维聚类效果都不好;然后我们添加更多关键词,而关键词和关键词的关联相对丰富,这样可以把隐含的话题(topic)揭示出来,这个时候LSI降维聚类效果会比直接聚类效果好;再然后,添加更多关键词,反倒聚类效果都不好了。 有什么理论上的依据可以解释我的实践结果吗?2 个答案

答案 1:

传统的聚类方法比如k-means对于高维数据的效果是很差的。因为在高维度下距离的度量包含了大量随机扰动的结果。用PCA(或者LSI)降维以后那些随机扰动所在的分量都被滤掉了,所以聚类会有提高。总的来说引入很多没有信息量又带来噪声的维度总是会让聚类变差的。 另外统计工具经过发展之后已经能够处理高维的聚类问题了,比如LDA或者人工神经网络一类的方法。

答案 2:

同意劳兄的看法,鄙人一点浅显的看法是在高维空间中任何两点间的距离都是很远的,那么即便聚类后作为特征仍然未必很好。而SVD类的工具要有效地多。

分享常识给亲友.

下一篇:如果把现有 PC 性能提高 1000 倍,会发生什么? 下一篇 【方向键 ( → )下一篇】

上一篇:西方游戏公司在-频频折戟? 上一篇 【方向键 ( ← )上一篇】