姓 名 班级学号 指导教师 译文出处 , 著 , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , ,, , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , 聚类 分析 简介 聚类分析与分类数据分组类似。
然而,与数据分类不同的是,所分的组预先是不确定的。
相反,分组是根据在实际数据中发现的特点通过寻找数据之间的相关性来实现的。
这些组被称为聚类。
些作者认为聚类分析作为种特殊类型的分类。
但是,在本文两个不同的观点中我们遵循更传统的看法。
提出了许多有关聚类的定义 类似元素的集合 。
不同聚类中的元素 是不样的。
在 聚类 中的点之间的距离比在 聚类 中的个点 和聚类之外 任何点之间的距离要小 。
与 聚类类似的术语 是 数据库 分割,其中 数据库中的元组记录 被 放在起。
这样做是为了分割或 划分成 数据的数据库组件 ,然后给用户个普遍的看法。
这样本文 我们 就 不区分分割和 聚类 。
个简单聚类分析 的例子见 例 这个例子 说明了决定如何做聚类并不 是容易的 。
正如图 所示,个给定的数据集 合 可能 汇 聚不同的属性。
这里显示了 个地域的住宅群。
楼的 聚类 类型是基于家庭的位置。
家庭地理位置 相近 , 彼此都聚集在起。
在第二个 聚类 ,家庭 的分类 是基于 房子 的大小分类 。
聚类已被用于许多应用领域,包括生物学,医学,人类学,市场营销和经济学。
聚类分析的 应用包括植物和动物分类,疾病分类,图像处理,模式识别,文献检索。
最先 使用 聚类分析的 领域是生物分类学。
最近的 使用 包括 通过 研究 日志的数据来检测 其 使用模式 。
当聚类 分析 应用到现实世界的数据库,许多有趣的问题 将 出现 异常值 的 处理是困难的。
这里的元素 通常 不属于任何 个集合 。
它们可以被看作是孤立集 合 。
但是,如果聚类算法试图找到更大的集 合 ,这些异常值将被迫 放 在 个集合内 。
此过程可能会导致结合两个现有 的聚类来 建立 出 贫 乏的聚类,并且新建立 的聚类本身会出现 异常。
数据库的动态数据意味着 聚类 成员可能会随时间而改变。
解 释 每 个聚类 的 意义可能是困难的。
通过分类,类的标签提前了。
然而,聚类 可能并非如此。
这样 ,当聚类过程 生成 了 个聚类集合 ,每个集合 的确切含义可能不 非常明显 。
下面是其中个领域专家是需要为每个 聚类分配个标签或解释。
对于 聚类问题没有 准确 的答案 。
事实上, 也可以找到很多答案 。
该聚类 所需的确切数目是不容易的 确定 。
同样,个领域的专家可能需要。
例如, 假设我们 有经过 实地考察采集的植物数据。
分析之前 没有任何 有关 植物分类 的 知识,如果我们试图 将这些数据 划分为类似的分组, 我们不知道应该建立多少分组 。
另个相关的问题是 聚类分析应该使用 什么样的数据。
与分类过程中的学习不同, 分类有些先验知识, 知道每个分类的属性 , 而 在聚类 分析中 ,没有 有 监督的学习 来促进这过 程。
事实上, 聚类分析 可以看作 无监




























1、该文档不包含其他附件(如表格、图纸),本站只保证下载后内容跟在线阅读一样,不确保内容完整性,请务必认真阅读。
2、有的文档阅读时显示本站(www.woc88.com)水印的,下载后是没有本站水印的(仅在线阅读显示),请放心下载。
3、除PDF格式下载后需转换成word才能编辑,其他下载后均可以随意编辑、修改、打印。
4、有的标题标有”最新”、多篇,实质内容并不相符,下载内容以在线阅读为准,请认真阅读全文再下载。
5、该文档为会员上传,下载所得收益全部归上传者所有,若您对文档版权有异议,可联系客服认领,既往收入全部归您。
