1、“.....例如对于不满足数据库定义第范式的数据结构问题,需要把源数据通过对比和字段拆分,比如表示航道宽度的拆分为下限的和上限的并分别存储在两个字段中将存在数据字段格式问题的数据记录转换为标准规范格式,比如在对时间字段进行标准化时,可以尝试通过数字位,选择数据库中存储与丢失记录相似或最近的对象记录进行填补。浅析海洋数据成果质量问题与清洗方法论文原稿。字段类型的规范标准规范需要定义各个海洋对象属性的字段类型字段大小字段所使用的单位以及字段取值的阈值范围。对象名称的规范针对同对象在不同单位出现不同名存储的情况,规范标准需要规定最终具有命名权利的机构,其它单位要根据确定规浅析海洋数据成果质量问题与清洗方法论文原稿据记录的相似度和重复性情况,通过分析后对判定为重复记录的数据进行合并......”。
2、“.....常见的插值法主要有均值填充法和热卡填充法。对于实时监测数据发生的少数数据属性丢失或者记录丢失情况可以选用均值填充法,选择丢失数据邻近关系最大的组记录计算均值,然和上限的并分别存储在两个字段中将存在数据字段格式问题的数据记录转换为标准规范格式,比如在对时间字段进行标准化时,可以尝试通过数字位数去识别年份,通过数值范围去区别月份跟日期,或者可能出现的年月日组合情况去识别时间并转换为日期格式存储对于属性单位不致的情况,首先要确定标准的单位制式,然后根据单位之间的差距进行换算处理,比如米和选择使用。海洋数据去噪对于海洋数据记录中存在离散型噪点问题可以分为不满足数据属性字段规范性约束条件数据和离散型噪点数据。对于明显不满足数据属性字段规范性约束条件的数据,可以通过设定相关属性字段的值域范围边界,在数据交换过程对于属性值超出边界的记录进行过滤......”。
3、“.....海洋数据清洗方法人工智能处理针对海这类问题通常发生在半结构化和非结构化类型的数据源中,数据管理单位没有把海洋对象的属性进行完全区分,导致原本是两种或以上的属性字段被记录在个属性字段中。海洋数据属性字段格式规范不统指的是些数据源中海洋对象的属性字段格式存在随意性,标准规范不统。比如在非结构化数据源中对于日期格式的定义有些是年月日,有些是日月年。这类问题通常发和海洋元数据等,这些数据集合的存储结构模式存在着结构化数据半结构化数据以及非结构化数据,其中非结构化数据所占的比例巨大。由于存在着大量的数据质量问题,这些数据在进行整合應用分析前需要进行清洗以保证正确的分析结果,本文主要探讨了当前海洋数据成果中存在的质量问题以及对应这些问题的清洗方法......”。
4、“.....比如在航道对象中定义的宽度属性存在上下限的范围,根据数据库的第范式规则应该定义两个字段分别用于填写宽度上限和宽度下限,而些数据源中则把航道的宽度数据使用个字段进行表示上下限。这类问题发生的原因可能是由于监测设备出现了据存在的些结构问题格式问题缺失问题噪点问题等,进行了技术清洗和规范整合。关键词海洋数据治理数据清洗中图分类号文献标识码文章编号引言随着信息时代的发展,各类海洋数据成果的数量也呈现几何级别的增长趋势,海洋数据目前主要可以分类为海洋基础地理数据海洋基础资料数据海洋管理专题信息海洋业务运行数据海洋综合信息产品和海洋元数据等,这些填补被过滤的记录。这类问题通常发生在半结构化和非结构化类型的数据源中,数据管理单位没有把海洋对象的属性进行完全区分,导致原本是两种或以上的属性字段被记录在个属性字段中......”。
5、“.....标准规范不统。比如在非结构化数据源中对于日期格式的定义有些是年月日,有些是日月浅析海洋数据成果质量问题与清洗方法论文原稿果存在的问题类型主要可以分为以下种情况海洋数据结构存在问题指的是些海洋数据集合中的海洋对象数据结构不满足关系型数据库的范式定义。比如在航道对象中定义的宽度属性存在上下限的范围,根据数据库的第范式规则应该定义两个字段分别用于填写宽度上限和宽度下限,而些数据源中则把航道的宽度数据使用个字段进行表示上下限针对这些不同源端数据存在的些结构问题格式问题缺失问题噪点问题等,进行了技术清洗和规范整合。关键词海洋数据治理数据清洗中图分类号文献标识码文章编号引言随着信息时代的发展,各类海洋数据成果的数量也呈现几何级别的增长趋势,海洋数据目前主要可以分类为海洋基础地理数据海洋基础资料数据海洋管理专题信息海洋业务运行数据海洋综合信息产品充数据......”。
6、“.....选择历史数据源中与丢失时间段情况相似度最高的记录进行填补。对于实体对象数据出现的属性丢失或者记录丢失,可以采用热卡填充法,选择数据库中存储与丢失记录相似或最近的对象记录进行填补。除上述两种常见的插值法外,还存在回归填补法多重填补方法最近邻法有序最近跳数或者异常,导致入库数据存在问题。海洋数据记录的重复存储指同数据记录被进行重复存储。比如外高桥码头被同时存储为两条数据记录。这类问题在结构化半结构化和非结构化的数据源中常见,主要由于缺乏对于数据对象的主键定义,导致数据库中存在重复记录。摘要随着上海市水务海洋数据中心的建设运行,每天都要汇聚全市多个涉海部门的大量海洋类监测数据集合的存储结构模式存在着结构化数据半结构化数据以及非结构化数据,其中非结构化数据所占的比例巨大。由于存在着大量的数据质量问题......”。
7、“.....本文主要探讨了当前海洋数据成果中存在的质量问题以及对应这些问题的清洗方法。海洋数据成果存在的质量问题目前海洋数据成果存在的问题类型主要可年。这类问题通常发生在非结构化类型的数据源中,因为非结构化数据缺乏些必要的数据类型,导致存储相关数据时根据输入者的习惯确定相关格式,导致出现了很多不符合规范格式的数据。浅析海洋数据成果质量问题与清洗方法论文原稿。摘要随着上海市水务海洋数据中心的建设运行,每天都要汇聚全市多个涉海部门的大量海洋类监测数据。针对这些不同源端数邻法基于贝叶斯的方法等,可以根据海洋数据的实际情况进行选择使用。海洋数据去噪对于海洋数据记录中存在离散型噪点问题可以分为不满足数据属性字段规范性约束条件数据和离散型噪点数据。对于明显不满足数据属性字段规范性约束条件的数据,可以通过设定相关属性字段的值域范围边界......”。
8、“.....后续可以采用插值浅析海洋数据成果质量问题与清洗方法论文原稿问题可以通过插值法进行修正和补充,常见的插值法主要有均值填充法和热卡填充法。对于实时监测数据发生的少数数据属性丢失或者记录丢失情况可以选用均值填充法,选择丢失数据邻近关系最大的组记录计算均值,然后使用均值进行填充属性或者插入缺失记录对于缺失较大规模的监测数据属性或者数据记录,比如丢失了段时间的数据,可以选用热卡填充法进行补数去识别年份,通过数值范围去区别月份跟日期,或者可能出现的年月日组合情况去识别时间并转换为日期格式存储对于属性单位不致的情况,首先要确定标准的单位制式,然后根据单位之间的差距进行换算处理,比如米和千米差了倍,假设使用米作为标准单位,需要对使用千米的数据乘以等对于无效数据记录可以根据每年海洋数据的更新频次进行判别,如果出现较长范的对象名称对其数据进行调整......”。
9、“.....对于数据的更新机制沟通反馈机制数据质量评估机制以及考评机制需要作出明确规定。海洋数据清洗方法人工智能处理针对海洋数据结构问题海洋数据属性字段格式规范问题海洋数据属性单位规范问题以及无效的海洋数据记录问题,需要根据可能出现的情况,在数据交换过使用均值进行填充属性或者插入缺失记录对于缺失较大规模的监测数据属性或者数据记录,比如丢失了段时间的数据,可以选用热卡填充法进行补充数据,在历史数据库中根据丢失数据日的自然状况如风速风向温度等设定排序条件,选择历史数据源中与丢失时间段情况相似度最高的记录进行填补。对于实体对象数据出现的属性丢失或者记录丢失,可以采用热卡填充法千米差了倍,假设使用米作为标准单位,需要对使用千米的数据乘以等对于无效数据记录可以根据每年海洋数据的更新频次进行判别,如果出现较长年份未更新的情况......”。
1、手机端页面文档仅支持阅读 15 页,超过 15 页的文档需使用电脑才能全文阅读。
2、下载的内容跟在线预览是一致的,下载后除PDF外均可任意编辑、修改。
3、所有文档均不包含其他附件,文中所提的附件、附录,在线看不到的下载也不会有。