相关动态
数据集
2024-11-10 23:08

数据集,是观远数据系统中承载数据、使用数据、管理数据的基础,同样也是构建数据分析的基础。您可以通俗地将其理解为数据库表。在观远数据中您可以基于数据集进行分析卡片的制作、通过智能ETL进行数据处理、创建视图数据集等。

数据集

进入“数据中心”的数据集管理界面,点击右上角的“新建数据集”按钮,您可以通过多种方式接入数据,创建数据集,也可“新建文件夹”,管理多个数据集。具体方式可查看《数据接入》相关文档。

当前观远数据平台数据集基本类型如下:

文件数据集:通过上传文件方式创建的Excel、CSV数据集;

数据库数据集

抽取数据集:通过抽取数据库的数据而创建的数据集;

直连数据集:通过直接接入数据库而创建的数据集;

ETL数据集:经过ETL智能处理后输出的数据集;

Web Service数据集:通过Web Service创建的数据集;

存储过程:通过接入存储过程数据而创建的数据集;

实时数据集:是指通过实时数据接入及融合方式而创建的数据集;

视图数据集:也称动态数据集,是指观远数据提供的基于SparkSQL的可参数化执行的动态数据集,可在非直连数据集上进行动态关联与计算;

Universe数据集:使用Universe(数据开发平台)数据创建的数据集;

高性能数据集:是指通过一键式数据导入ClickHouse,实现分区设定,优化查询效率,自动更新的数据集;

其他数据集——

反馈填报数据集:通过表单填报的数据创建的数据集;

分析结果数据集:经过数据分析输出数据结果而创建的数据集;

卡片数据集:是指基于某数据卡片而创建的数据集(例如:数据集a创建了卡片b,根据卡片b创建了卡片数据集c,那么c就是卡片数据集)。

其中,卡片数据集也可以由已经创建好的图表类型的卡片直接转换生成。在仪表板页面,点击卡片右上角展开下拉菜单,选择“生成卡片数据集”,输入数据集名称、储存路径、描述信息等,点击“确定”即可。

注意:只有具有数据集编辑权限、卡片编辑权限,且为该仪表板资源的所有者能够看见“生成卡片数据集”选项。

用户可以根据“名称”、“描述”、“权限”、“类型”、“更新状态”等条件,进行数据集查询搜索。

权限分为:我是所有者、仅是使用者;

类型分为:2.1.2中介绍的类型;

更新状态分为:排队中、更新中、更新成功、更新失败;

进入“数据中心”的数据集管理界面,然后点击某一个数据集,进入数据集详情页面。在数据集的详情页面,您可以查看数据集的详细信息,设置数据集的模型结构、权限控制以及数据更新方式,以及打开制作数据卡片界面,进一步基于该数据集来制作看板。以下将以 “数据库数据集”为例,向您详细介绍数据集的相关内容。

2.2.1.1 描述信息

创建数据集时,在确认数据表信息时可以添加描述信息;在数据集的详情页面,能够看到已添加的描述信息,也可进行编辑。

在数据集添加描述信息后,数据中心列表页新增了描述信息列。

使用页面左上角搜索栏时,可以切换按名称/描述/全部搜索,搜索关键词将在结果中高亮显示。

2.2.1.2 数据明细

进入数据集详情界面后,您首先看到的就是“概览”信息。观远数据支持预览数据集明细,提供1000行数据预览。在此基础上,您可以进行新建计算字段操作,点击右上方的“新建计算字段”,即可打开“计算字段编辑器”,选择函数、字段/参数,并设置新的“字段名称”。

您还可以进行分组归纳操作,具体步骤为:点击预览的右上角“新建计算字段”右侧的小箭头,打开“分组编辑器”。为您想要建立的新字段命名,选择想要分组归纳的字段和分组方式。设置未分组元素显示为“合并条目”或“单独的条目”,最后点击“保存”。

此外,还可以进行筛选数据和导出的操作(导出介绍可具体查看2.5)。

2.2.1.3 数据结构

点击“数据结构”后,您可以看到该数据集的描述信息,输入字段名进行搜索,点击编辑,然后为字段选择分组。

您还可以进行批量修改字段名操作。

具体操作为:第一步,点击“批量修改字段名称”。

第二步,点击弹窗中蓝色着重显示的“下载模版”按钮,下载Excel文档。

第三步,在Excel中维护好所需修改的字段名后,在上述弹窗中点击上传或进行拖拽上传,若格式正确,字段名无误,即可完成对字段的批量修改。修改好之后,下游引用此数据集的计算字段、ETL节点将会自动继承修改好的字段名。

第四步:新建的计算字段或分组字段的“字段公式”列会出现带有设置图标的操作框,点击即可对计算公式或分组进行编辑。

注意:非新建的计算字段或分组字段,无输入框、不能编辑。

进入数据集的详情界面后,点击“卡片”,可以查看基于该数据集进行制作的仪表板、数据大屏等信息,还可进行多项操作。具体操作如下:

a.点击“批量切换数据集”,选择多个数据集进行切换。

b.点击右上角的“新建卡片”,直接进入分析环节。

在数据集详情页的“数据权限”界面,您可以设置是否启动列权限和行权限,并针对不同的关联用户/用户组设置不可见的字段。为了方便快速进行数据权限控制,你可以选择“调用模板”。设计好的行列权限,还可以设置是否对该数据集所有者和管理员生效。

观远数据提供细致到行列级别的权限控制,针对企业不同角色可以设置不同的用户权限,有效保障数据安全,提高管理效率,详情可查看“权限控制”相关文档。

进入数据集的详情界面后,您将看到该数据集的模型结构。模型结构,是指数据集的数据层级关系与数据流转的逻辑结构,不同类型的数据集的模型结构有所差异。点击“模型结构”,即可看到该数据集的数据源、数据账户、ETL、数据库查询SQL、动态指标等模型结构信息。

以数据库数据集为例,可以查看数据库查询SQL。以ETL数据集为例,可以查看其原始数据集,在ETL详情模块还可前往查看其ETL模型信息。

以直连数据集(通过直连数据库创建的数据集)为例,点击右上角的“修改”,即可进入模型结构的调整界面:

a.选择账户:可以选择另一个数据账户,也可以新建一个数据账户。

b.选择查询表:可以输入或选择您想要查询的数据表SQL查询,也可以进行图形建模,具体操作方式与该数据集的创建过程是一致的。

在数据集详情页的“关联创建”界面,您可以查看该数据集参与创建的ETL、实时数据集、视图数据集等关联信息。点击对应的ETL等,还可以直接进入该ETL的相关数据集界面展开进一步操作。

在数据集详情页的“高级选项”界面,您可以将普通数据集转换为“高性能查询表”(也称高性能数据集)。(高性能数据集为付费增值服务,具体使用详情可联系您的观远顾问)。

普通数据集:适用于数据量小于1000万行的数据集,建议更新频率不超过每天4次。

高性能查询表:适用于数据量大于等于1000万行以上的数据集,可大大加速卡片端数据查询的效率,但在功能层面会有所限制,比如不能使用窗口函数。高性能查询表生成和更新需要花费更多的时间,建议更新频率不超一天一次。需要根据具体使用场景,为高性能查询表设置合适的分区字段,以便进一步优化查询效率。一般我们建议以日期字段作为分区字段。

具体操作为:点击右上角的“编辑”按钮,进入转换界面。

数据集类型,可以选择“高性能查询表”,然后配置“分区字段”与“分区方式”。

最后,点击“确认”即可开始模式切换。数据集数据量大的时候,数据导入到ClickHouse需要花费一定的时间,请耐心等候。数据集更新也会触发ClickHouse内的数据重新导入,建议高性能查询表更新频率不超过一天一次。

从文件导入数据的数据集,可以进行追加/替换数据的操作。数据集详情页面右上角可以选择“追加数据”或“替换数据”。更多具体操作在从文件导入数据的相关文档中已有详细说明,查看《从文件导入数据》

数据集的更新方式可分为手动、实时、定时等。更新方式的设置主要有三种情况:

第一种,在新建数据集时,即可初次设置该数据集的数据更新方式,具体操作可查看《从数据库接入数据概述》。

第二种,在该数据集详情界面的“数据更新”栏目,可以对其进行修改。具体如图所示:

a.对于直连数据集类型,可以设置“缓存有效周期”为手动更新/每天/每周/每月,如为定时更新还可具体设置几时几分。勾选“支持实时卡片数据”,默认时长为1分钟。勾选“URL触发”后即可点击“复制链接”来复制URL(详细说明,查看数据更新URL触发机制)。

b.对于抽取数据集类型,可以设置去重主键、增量更新、数据更新周期、URL触发等,具体操作与创建数据集时一致,可查看数据接入相关文档)。

c.对于卡片数据集类型,例如:数据集A创建了卡片B,根据卡片B创建了卡片数据集C,具体更新情况为:

关于卡片数据集的结构:如果卡片B修改,卡片数据集C不会自动同步,需要手动更新才会同步。

关于卡片数据集的数据内容:原始数据集A更新,会触发卡片数据集C的数据更新。

第三种,点击数据集详情界面右上角的“更新”按钮,手动触发数据集的即时更新(更新方式分为添加新数据、覆盖旧数据两种模式)。

可以在更多中查看数据集更新历史,记录默认保留3个月,如需保存更长时间,请联系观远工作人员进行调整。

在数据集详情页面的“数据更新”栏目,如果开通了“24h定时更新任务密度图功能”,功能开启后,当数据库连接方式为直连数据库,缓存有效周期选择每天/每周/每月时,可展示定时更新任务密度图。

如需使用该功能,请联系观远人员协助开启。

数据仅用做设置更新时间参考,与实际运行任务可能存在少许偏差,请勿用于直接统计。

同时,可以在“管理员设置-运维管理-参数配置”中,设置“1h内数据集定时更新数量限制”,系统默认为无限制。

由于外部数据库、网络等相关的随机因素影响,数据可能会更新失败。可在管理员设置中对“数据库数据集”进行“失败重试设置”。数据库数据集能够在自动更新失败时,第一时间进行重试,最大程度避免随机因素对于底层抽数的影响,确保业务人员的看数效率。

2.3.3.1 管理员操作

从平台右上角九宫格的菜单栏进入“管理员设置”。

在“运维管理-参数配置”处,点击右上角“编辑”,在“数据集参数设置”中找到“数据库数据集更新支持失败重试”,该功能默认为关闭状态。

点击启用该功能,可设置为5/10/15分钟三个级别的重试间隔,默认进行1次失败重试。

2.3.3.2 编辑用户操作

在数据集详情页面的“数据更新”栏目下,可启用“失败重试”功能,默认为跟随全局。

注意:当数据集层面进行设置后,优先级高于全局层面设置。

数据集创建完成后,若不设置存放路径,则默认会放在「数据集」的根目录下。您可以通过创建文件夹的形式,按照不同的主题或者目标来管理数据集。创建步骤如下:

a.点击右上角的“新建文件夹”;

b.在“新建文件夹”弹窗中,输入文件夹名称,然后选择文件夹放置的位置;

c.确定点击保存。

例如,我们可以通过文件夹的形式进行轻数仓的构建与管理,如图所示:

数据集的所有者,是指对数据集具有管理权限的用户/用户组,通常为该数据集的创建者。数据集使用者,是指对该数据集具有查看和使用权限的用户/用户组。管理数据集所有者/使用者,有以下两个入口:

入口一:点击数据集操作栏的“…”按钮,可以管理该数据集的所有者和使用者。选择“使用者管理”,可授权新的使用者,或移除已授权的使用者。“所有者管理”界面和操作方法与之类似。不同之处在于,所有者不允许添加只读用户。

所有者一般为数据集创建者,所有者可以将该数据集分享给其他用户使用,该用户即成为使用者。

使用者仅有该数据集的使用权限,无法对数据集本身进行增删改相关操作。

入口二:点击某个数据集,可进入该数据集详情页面。点击所有者和使用者后面的“+”按钮,弹出管理窗格,可授权新的所有者、使用者,或移除已授权的所有者、使用者。

数据集的所有者与使用者权限异同

数据集资源的权限分为所有者和使用者。

数据集的所有者,可以对数据集批量更新、移动、删除等。

数据集的访问者,可以使用数据集创建卡片和ETL,同时可以浏览数据集的基础信息,但无法修改。

详细说明如下表:

数据集文件夹和数据集的右侧操作栏,均可点击“删除”按钮,将数据集文件夹或数据集进行删除。需要注意的是,如果想要删除某个文件夹,需要先将该文件夹下的数据集全部删除,再进行操作,即非空文件夹不能删除。

管理员操作:

第一步,在系统界面右上角九宫格图标后,点击“管理员设置”,在“系统管理”中选择“高级设置”。

第二步,在“其他”类目下开启允许数据集另存为按钮。

特别注意:

管理员天然支持“另存为”,只有数据集的所有者且有数据账户的使用权/所有权允许“另存为”操作(仅数据账户类型的数据集)。

用户“另存为”之后,该用户默认为该数据集的所有者。

若管理员关闭了允许数据集“另存为”按钮,则“另存为”功能入口不展示。

数据集所有者(且有数据账户的使用权/所有权)操作:

第一步,在数据中心中选择数据集。进入数据集列表页或数据集详情页,进行“另存为”操作。

第二步,点击“另存为”后,填写新数据集名称和“另存为”目录即可。

数据集“另存为”之后的操作:

数据集名称:XXXXX_副本(同路径下不允许重名)。

保存位置:

默认为当前数据集所在目录内;

可以保存在有权限的文件夹(有使用权或者所有权的文件夹)。

另存为需要携带的内容:

新建计算字段;

数据结构、注释等信息;

模型结构;

数据权限;

数据更新策略。

支持范围

目前,允许文件数据集、ETL输出数据集、数据库、卡片数据集、Web Service、账户数据集、FTP/SFTP 数据集、存储过程、填报数据集、实时数据集、视图数据集、Universe 数据集进行“另存为”。

进入“数据中心”的“数据集”列表界面,可以进行数据集的导出,主要有以下两个入口:

入口一:选中某一个数据集,点击右侧的“数据集导出”按钮,导出CSV格式的数据集。

入口二:点击数据集,进入数据集详情界面。点击“导出”按钮,将该数据集以CSV格式导出。

注意:

a.数据集导出的格式默认为CSV文件;

b.若无数据集的所有权,则不允许导出数据。

在数据集详情页的预览中,支持对预览数据进行筛选。如果设置了筛选条件,则点击“导出”会导出筛选后的数据;如果没有设置任何筛选条件,则点击“导出”会导出原数据集内容。

具体有两种筛选方式:

方式一:设置具体的筛选规则:

a.点击右上角的“筛选数据”,进入“筛选规则”编辑弹窗,点击“新建”;

b.进入“规则编辑器”,选择字段;然后根据页面提示,对筛选类型(共3种类型:自动、选择、范围)进行设置。

方式二:点击“筛选数据”右边的小箭头,选择“选择列”,即可勾选想要导出的列。

对数据集中的数据设置一定的清理规则,只保留符合一定规则的数据,过滤掉不满足需求的数据,可以高效获得符合需求的数据。进入数据集详情页面后,点击右上角的“···”操作栏,点击“数据清理”,即可进行操作。

a.打开数据清理弹窗后,点击“新建”按钮,即可进入“规则编辑器”。

b.在“规则编辑器”中,选择字段,然后选择规则类型,设置清理的规则。

c.点击预览,可查看“待清理数据预览”,确认无误后点击“确定”。

需要注意的是,实时数据集、视图数据集、直连数据集不支持进行数据清理,其他从文件导入数据、数据库接入数据的数据集,支持数据清理。

数据集支持从测试环境迁移到生产环境,此操作限管理员可用。具体介绍可前往《一键迁移》了解。

    以上就是本篇文章【数据集】的全部内容了,欢迎阅览 ! 文章地址:http://zleialh.xhstdz.com/quote/71150.html 
     栏目首页      相关文章      动态      同类文章      热门文章      网站地图      返回首页 物流园资讯移动站 http://zleialh.xhstdz.com/mobile/ , 查看更多   
发表评论
0评