1、“.....因此需要通过优化算法对聚类数和最佳初始簇中心点进行估。临界网格也可选择基数为的网格担当,实践证明,在数据量较大的时候,基数在到之间选择常得到聚类效果佳的划分。文中我们设临界网格为网格,即网格数尽量与数据点数致。令,则每维划分数,这里为提高聚类效率,让向下取整。确定值之后,将每维基于网格密度的均值算法簇中心点识别的研究论文原稿的运动为改变常态做了功,这里称为贡献。使状态偏离常态越远,贡献就越大。描述贡献值最简单的方式将贡献值函数设置为线性函数,将空盒子的贡献值设为,基数为的盒子设为,基数大于的盒子设为。为更符合贡献值的变化曲线......”。
2、“.....个盒子是空的意味着另个盒子多个球,空盒子越多说明另外有盒子装得越满,分布越不均匀,聚类越容易,因此对聚类的贡献越大。另外换个角度看,盒子装得越满,说明空盒子变的更多,有球的盒子之间的空盒子越多,空隙越大,聚类变容易,对聚的质量和算法的效率。利用网格的贡献值进行网格划分为便于空间定位和网格统计量的计算,改进的算法先对数据作归化,然后采用均匀划分方法。设每维上划分长度相同的个区间,则划分产生个网格。那么值该取多大呢这里引入网格贡献值的概念来获取最佳的网格划设待分析数据集合的属性数为,数据对象数量为......”。
3、“.....则可看作维欧式空间中的数据点集。设每个数据点为,则,。基于网格密度的均值算法簇中心点识别的研究论文原稿。摘要传统的均值聚数据集应该分为几类,选取点不同,结果也可能不同,这种依赖性导致聚类结果的不稳定。且均值算法常采用误差平方和准则函数作为聚类准则函数,导致结果容易陷入局部最优,难以获取全局最优解,然后不断对数据点的分簇进行调整,因此在数据量大时,时间开销非常往有较大偏差,直接导致的分簇结果基于上述问题,本文提出了种基于网格和密度的值与最佳初始簇类中心自动识别的方法。经理论和实验证明,该方法在很大程度提高了聚类结果的质量和算法的效率......”。
4、“.....数据对象数量为,以欧式距离作我们设临界网格为网格,即网格数尽量与数据点数致。令,则每维划分数,这里为提高聚类效率,让向下取整。确定值之后,将每维划分成个小区间,由于数据已归化,于是每维的取值范围为,为保证每个数据点落到唯的网格中,设第个划分区间为闭区间,其他数,将空盒子的贡献值设为,基数为的盒子设为,基数大于的盒子设为。为更符合贡献值的变化曲线,般采用核函数的变化形式进行描述称基数为的网格为网格,则网格的贡献值为。这里将网格称为临界网格,易知当网格划分和临界网格确定后,全基于网格密度的均值算法簇中心点识别的研究论文原稿......”。
5、“.....典型基于划分方法均值算法均值算法由于年提出,是经典聚类算法之。近几十年来被广泛应用于生物统计图像处理信息检索客户分类等各领域。针对该算法的完善改进和扩展,人们做了大量的长时间研究工的完善改进和扩展,人们做了大量的长时间研究工作。均值算法的优点包括执行效率高伸缩性强设计思路简单明了等。但同样均值算法也存在着定缺点,主要有,对于任意形状的数据往往效果较差值需要人工指定,而这个值是很难估计的。很多情况下,我们事先并不知易,因此对聚类的贡献越大。另外换个角度看,盒子装得越满,说明空盒子变的更多,有球的盒子之间的空盒子越多......”。
6、“.....聚类变容易,对聚类的贡献也越大。自然的引入單元网格贡献值的概念,用表示。容易想到将包含数据点数为的单元网格贡献值设。因为均匀状态的为数据对象的差异程度的度量,则可看作维欧式空间中的数据点集。设每个数据点为,则,。典型基于划分方法均值算法均值算法由于年提出,是经典聚类算法之。近几十年来被广泛应用于生物统计图像处理信息检索客户分类等各领域。针对该算况下为左开右闭区间,。然后遍历数据点集,将数据点依次放入所属的网格中,并统计网格基数。遍历完成后,将稠密网格按基数降序排序生成稠密网格降序列表摘要传统的均值聚类算法只能通过人工参数设定值和初始簇中心点......”。
7、“.....簇之间的空隙越大,类别特征越明显。我们称基数大于临界网格的网格为稠密网格,基数小于或等于临界网格则称为稀疏网格。临界网格也可选择基数为的网格担当,实践证明,在数据量较大的时候,基数在到之间选择常得到聚类效果佳的划分。文元网格基数全部为,对形成密度差没有任何贡献。直观上看,个盒子个球是常态,正常情况应该就是这样,谈不上贡献。把球从个盒子拿到另个盒子的运动为改变常态做了功,这里称为贡献。使状态偏离常态越远,贡献就越大。描述贡献值最简单的方式将贡献值函数设置为线性函基于网格密度的均值算法簇中心点识别的研究论文原稿义......”。
8、“.....现实中几乎不可能出现。实际上数据分布往往是不均的,个盒子可能装好几个球,也可能是空的。我们在盒子和球的数量对应的条件下考察者的关系。个盒子是空的意味着另个盒子多个球,空盒子越多说明另外有盒子装得越满,分布越不均匀,聚类越计。但对于如何确定和各个簇中心的位置范围,目前尚无明确的理论指导,本文则针对此问题展开讨论。基于网格密度的均值算法簇中心点识别的研究论文原稿。利用网格的贡献值进行网格划分为便于空间定位和网格统计量的计算,改进的算法先对数据作归化,然后采分成个小区间,由于数据已归化,于是每维的取值范围为,为保证每个数据点落到唯的网格中......”。
9、“.....其他情况下为左开右闭区间,。然后遍历数据点集,将数据点依次放入所属的网格中,并统计网格基数。遍历完成后,将稠密网格按基数降序排序生成稠密进行描述称基数为的网格为网格,则网格的贡献值为。这里将网格称为临界网格,易知当网格划分和临界网格确定后,全部网格的贡献值总和越大,簇之间的空隙越大,类别特征越明显。我们称基数大于临界网格的网格为稠密网格,基数小于或等于临界网格则称为稀疏网的贡献也越大。自然的引入單元网格贡献值的概念,用表示。容易想到将包含数据点数为的单元网格贡献值设。因为均匀状态的单元网格基数全部为,对形成密度差没有任何贡献......”。
1、手机端页面文档仅支持阅读 15 页,超过 15 页的文档需使用电脑才能全文阅读。
2、下载的内容跟在线预览是一致的,下载后除PDF外均可任意编辑、修改。
3、所有文档均不包含其他附件,文中所提的附件、附录,在线看不到的下载也不会有。