跳到主要内容
版本:Next

数据管理

文件管理

“数据管理 > 文件管理”,在业务范围是训练+推理、训练下可用

文件数据展示

文件数据支持列表模式和缩略图模式两种展示方式。
1.单击“文件管理”,查看用户目录、公共目录和样本数据,默认为列表模式,显示用户目录文件列表。公共目录包括全局共享和组共享,用户目录和公共目录的文件列表显示项均为名称、拥有者、类型、大小、创建时间。 列表模式下数据展示如下图:
image
可以单击右上方模式切换的图标,切换为缩略图模式,如下图:
image
缩略图模式下数据展示如下图:
image
文件管理用户目录可以对接多存储,用户目录左侧的目录树将使用存储名分级展示如下图,其中主存储展示在第一个。
image
2.路径导航栏上方有快捷文件操作按钮,包括上传、新建、复制到、重命名、删除,打开更多,可以查看其余文件操作按钮。
3.单击“文件管理 > 公共目录”下的文件夹,显示全局共享和组共享文件,普通用户可以查看所属公共目录下文件。全局共享下有默认的defaultShare目录,管理员可以在全局共享下,将目录设为公共目录后,普通用户即可查看。普通用户的组共享目录只有一个,即为绑定的用户组,文件名称与用户组名相同。
4.单击“文件管理 > 样本数据”下的文件夹,显示样本数据目录,样本数据目录可以查看文件列表,可以查看文件(包括普通文件、图片、音频、视频),可以支持文件和路径搜索,不可进行其他操作。
文件管理样本数据可以对接多存储,左侧的目录树将使用存储名分级展示,与用户目录多存储显示一致,其中主存储展示在第一个。
系统管理员通过 “系统管理 > 存储设置” 页面添加样本数据备存储,然后,用户可以在平台其他模块使用新添加存储的公共样本数据文件。
当样本数据权限开关开启后,该目录只能展示已授权给该用户的样本数据目录。需要注意的是,样本数据权限开关开启状态下,样本数据的备存储数据同样需要系统管理员授权后才可以使用。
5.列表模式下,可在文件列表表头对名称和创建时间进行升序或降序排序,支持用户目录、全局共享目录、组共享目录排序,不支持样本数据排序。
image

新建文件

1.单击路径导航栏上方快捷键新建,可以在用户目录新建文件。
image
2.弹出新建文件界面,在名称输入栏,输入合法文件名(与新建文件夹约束一致)。单击确定,则页面自动刷新,显示新建的文件。

新建文件夹

1.单击路径导航栏上方快捷键新建,可以在用户目录新建文件夹。
image
2.弹出新建文件夹界面,在名称输入栏,输入新建文件夹名,只能输入汉字、英文字母、数字、点、下划线和连接线,不能以连接线和点开头。
image
3.输入合法文件夹名,单击确定,则页面自动刷新,显示新创建的文件夹。

查看

可以查看普通文件、图片(支持png、jpeg、jpg、bmp格式)、音频文件(支持mp3、wav、flac格式)、视频文件(支持mp4、avi、flv、mov)。支持查看50M以下的普通文件和图片,默认支持查看50M以下的音频,默认支持查看100M以下的视频。

普通文件查看

文件显示区域,选中文件,右键单击,弹出右键菜单,单击查看,或者双击,查看文件内容。
image
弹出的编辑文件界面,可以对文件进行编辑,编辑器支持搜索/替换、撤回、复制、粘贴、剪切,单击“确定”保存。

查看图片

支持双击和右键单击查看按钮进行图片查看,支持普通图片查看和带标注的图片查看,打开的图片支持缩放。 支持当前页中上一张下一张的图片查看,单击页面的左右箭头,或者使用键盘的左右键翻动,当查看到最后一张时,单击下一张,则循环到当前页的第一张图片,如下图:
image
缩略图模式下可以展示普通图片的缩略图,如下图:
image
用户查看带标注的图片,需要满足的条件是:图片和json文件在同一级目录下,一张图片对应一个json文件,且必须同名,且标注的json文件需要满足label-studio的json格式。如:a.jpg和a.json 如果标注json文件和图片不在同一级目录下,可以在指定配置文件dataset_json_setting.json中配置标注json文件的路径,该配置模板位于全局共享目录/defaultShare下,使用时,将该模板复制到用户家目录下,并按模板中的注释配置图片和json文件路径即可。
查看效果如下图:
image

播放音频

支持双击和单击查看按钮进行音频文件播放。
image

播放视频

支持双击和单击查看按钮进行视频文件播放。
image

复制到

选择文件,右键单击,单击菜单的“复制到”或者单击路径导航栏上方快捷菜单“复制到”,弹出对话框,选择目标文件夹,文件的处理进度显示在右侧进度列表中。可通过进度列表的目录链接,进入文件列表。
image

重命名

选择文件,右键单击,单击菜单的“重命名”或者单击路径导航栏上方快捷菜单“重命名”,弹出重命名界面,在名称输入栏输入合法的文件名(与新建文件夹约束一致),单击“确定”,页面自动刷新,显示重命名文件。
image

压缩

压缩文件支持批量或单个文件进行压缩,支持压缩格式tar、tar.gz和zip, 首先选择文件,然后右键单击,单击“添加到压缩文件”或者单击路径导航栏上方快捷菜单“更多”选择添加到压缩文件,弹出压缩文件界面,在名称输入栏输入合法的压缩文件名,单击“确定”,页面自动刷新,显示压缩的文件,文件的处理进度显示在右侧进度列表中。可通过进度列表的目录链接,进入文件列表。压缩文件只可以在用户目录操作。
image
image

解压

选择压缩文件,右键单击“解压”,将压缩包解压到与压缩包同名的文件夹下,页面自动刷新,显示解压文件,文件的处理进度显示在右侧进度列表中。可通过进度列表的目录链接,进入文件列表。
image

上传文件

1.单击路径导航栏上方快捷键上传,可以上传文件。
image
image
2.单击“上传文件”,弹出提示框提示单次上传的最大文件数,单击确定,弹出加载文件界面,选择需要上传的文件。
3.选中要上传的文件,支持选择多个文件,单击打开,文件处理列表中显示多条上传文件的进度。上传完成,页面自动刷新,列表中显示上传完成的文件。
4.上传单个文件大小默认不超过20G,如果超过指定大小无法上传,请使用xftp工具进行上传。

上传文件夹

1.单击路径导航栏上方快捷键上传,可以上传文件夹。
image
image
2.单击“上传文件夹”,弹出提示框提示单次上传的文件夹,文件夹中包含的最大文件数,单击确定,弹出加载文件夹界面,选择需要上传的文件夹。
3.选中要上传的文件夹,只能选择一个文件夹,单击打开,文件处理列表中显示一条上传文件夹的进度。上传完成,页面自动刷新,列表中显示上传完成的文件夹。
4.上传单个文件夹总大小默认不超过20G,如果超过指定大小无法上传,请使用xftp工具进行上传。

下载

1.选择下载文件,右键菜单单击“下载”或者单击路径导航栏上方快捷菜单“更多”选择下载,只支持单个文件下载。只可以在用户目录下载文件。
image
2.弹出下载文件提示。

删除

1.删除支持单个文件和批量删除,首先选择删除的文件或文件夹,右键菜单,单击“删除”或者单击路径导航栏上方快捷菜单“删除”。
image
2.弹出确定删除界面,单击“确定”,删除文件,文件处理列表中显示删除文件的进度。删除完成,页面自动刷新。

共享

1.用户目录下文件的共享操作默认包含共享到组共享和共享到全局共享。选择文件,右键单击,单击菜单的“共享到组共享”/“共享到全局共享”或者单击路径导航栏上方快捷菜单“更多”选择操作。
image
2.若只有一个全局共享目录或组共享目录,文件直接共享到该目录下,不必选择目标文件夹。当全局共享或组共享的目录多于一个时,弹出对话框,选择目标文件夹,文件的处理进度显示在右侧进度列表中。可通过进度列表的目录链接,进入文件列表。
3.开启文件共享功能的用户,具有选择文件共享到用户的权限,在弹出框中输入共享的用户名即可将文件共享到用户。
image
image

取消共享

1.支持单个和批量取消共享,在全局共享或组共享目录下,选择要取消共享的文件或文件夹,这里只能取消自己共享后的文件,不能取消其他人的共享文件。右键菜单,单击“取消共享”或者单击路径导航栏上方快捷菜单“更多”选择操作。
image
2.弹出确定取消共享界面,单击“确定”,文件处理列表中显示取消共享文件的进度。取消共享完成后,页面自动刷新。

文件搜索

1.在搜索框中输入要搜索的关键字,回车或单击搜索按钮,在当前目录下全局搜索。
image
2.当搜索结果较多时,可以拖动右侧滚动条,进行展示。

路径搜索

1.单击路径导航栏中的空白处,可以切换编辑模式,支持自定义输入路径,单击前往图标或者回车后跳转到该路径下,如果输入的路径不存在,页面提示“找不到xxx,请查看拼写重试”
image
image
2.单击路径导航栏右侧的下拉小三角,可以查看最近的路径搜索记录,倒序显示,每个用户的每个目录类型下(用户目录、全局共享、组共享、样本数据)最多显示15条
image

进度操作

1.进入文件处理列表的操作包括:复制、共享、删除、取消共享、压缩、解压缩、上传。同一用户同一操作只有一个在处理,其余需要排队。
image
2.文件处理进度列表可以进行查看、删除、最小化、关闭等操作。最小化后,文件处理进度列表显示为悬浮窗,可以正常切换模块,例如开发环境、训练任务等。可以删除处理中(显示为百分比),排队中,失败,完成的进度。当关闭文件处理进度列表时,关闭后,清除所有完成的任务,如果存在文件处理任务则显示为悬浮窗。

用户目录权限归属

只有普通用户可以进行用户目录权限归属操作,只能操作自已用户目录下的文件和文件夹。
选择一个或多个用户目录下的文件和文件夹,单击路径导航栏上方快捷菜单“更多”选择“权限归属”操作,弹出二次确认页面,单击确定,可以将选中文件的权限归属为当前用户。
image
完成上述操作后,文件列表的拥有者显示为当前用户。

用户目录导入

新增外置存储后,对于平台之前已存在的用户,如果该存储上用户家目录不存在,单击备存储名称后,弹框提示:用户家目录不存在,是否需要导入?
单击确定,自动导入该用户在所有备存储的用户目录。
单击取消,不自动导入,用户自行手动操作,可以通过用户目录导入在新增外置存储上创建用户家目录。
image
导入成功后,自动刷新,进入该用户家目录下。

对象存储配置

对接Ceph对象存储配置时,才会有此功能。单击“对象存储配置”按钮,填入配置项信息。每个用户只能配置一个,可以多次配置,以最新配置的为准。不对配置项做校验,配置正确,展示文件列表,配置错误,提示配置信息问题。
image
对象存储配置字段内容如下:

字段名称字段说明字段填写注意事项
存储名称对象存储名称该值不允许界面修改,不必填
accessKey标识用户AK必填项
secretKey用户用于加密签名字符串或密钥SK必填项
endPoint访问域名,可以是IP:Port或者自定义域名必填项

数据集管理

“数据管理 > 数据集管理”,在业务范围是训练+推理、训练下可用

适用存储

数据集管理只适用于共享文件存储(NFS、Gpfs等)。对象存储(Ceph、HDFS等)不支持使用数据集管理功能。

创建数据集

单击列表右上方“创建数据集”按钮,可以创建一个数据集,必填项为名称、导入数据路径、数据类型。数据集名称由系统自动生成为dataset-后加一个4位随机字符,也可以自定义修改。 导入数据路径选择文件管理中的样本数据,数据类型包含图片、文本、音频、视频、其他,描述信息可不填,如果填写需不超过256个字符。 创建数据集时,会自动创建一个V001的版本,该版本来源于选择的导入数据集路径,导入数据路径可以选择用户目录,全局共享,组共享,样本数据的目录。每个用户最多可以创建100个数据集。

字段名称字段说明字段填写注意事项
名称数据集名称必填项,自动生成数据集名称,允许修改,不允许重名
导入数据路径数据集的文件夹目录,可选家目录、组共享、全局共享、样本数据必填项
数据类型数据类型支持图片、音频、文本、视频、其他必填项
描述数据集描述不必填

image
image
导入数据路径选择的目录在“文件管理”展示其图标为共享标识图标,区别于普通文件夹图标。
image

数据集列表查看

只展示自己创建的数据集和共享给自己版本的数据集列表,数据集列表内容包含:名称、数据类型、导入数据路径、存储名称、状态、创建时间、描述、创建用户、操作(创建版本、删除)。支持按照数据集名称模糊查询。image

注意:状态为失效的数据集由于导入数据路径不存在产生的状态。失效的数据集不能进行缓存使用,也不能进行创建版本和修改数据等操作。

创建版本

支持修改数据的处理方式,您可以单击创建版本,在该数据集下创建一个新的版本,数据集来源可以选择原始数据集或者已发布的数据集版本。创建完成后,可以对每个版本进行文件增删改操作,并发布使用。 发布后的数据集版本不能再进行文件增删改操作。如果想再次进行文件操作,必须创建一个新的数据集版本。 创建版本时,数据集名称自动带入,不可修改,来源可以选择导入的数据路径或者已发布的版本。版本由系统自动生成,按顺序填充,从V001累加到V999。版本名称可以自定义修改,不可重名。版本名称只能包含数字字母下划线连接线,不能以下划线和连接线开头,最多32个字符。 创建的版本会自动进入进度列表中,进度列表显示版本、数据集、节点名称、操作类型、存储名称、状态、操作等。

字段名称字段说明字段填写注意事项
名称数据集名称该值不允许界面修改,不必填
来源原始导入数据路径或者数据集下已发布的版本必填项
版本数据集下版本名称必填项,自动生成版本名称,允许修改,不允许重名
描述版本描述不必填

image

修改数据(增删改文件)

未发布的版本可以进行修改数据,操作类型包括:导入、删除、编辑文件。
1.导入数据可以选择文件管理中的文件,不能导入创建数据集时选择的原始数据。如果导入重名文件,提示是否覆盖。单击版本名称进入文件列表页面,单击右上方的“导入”按钮,弹出文件管理页面,选择要导入的数据,单击确定。导入的数据会自动进入传输列表中,进度列表显示导入的文件(夹)名、节点名称、类型、操作类型、大小、存储名称、状态、操作。
image
image
2.删除数据时,选中文件列表中要删除的文件,单击右上方的“删除”按钮即可,删除的数据会自动进入传输列表中。
image
image
3.编辑文件时,单击文件名称打开可编辑的文件,输入修改内容,单击确定即可。

版本发布

未发布的版本,可以单击操作栏的发布按钮进行发布。也可以在该版本的文件列表页面单击“发布”按钮操作,可以将版本发布到个人、组和全局,发布到个人只有个人可以使用,发布到组可以组内用户可以使用,发布到全局可以全局人员使用。
image
image
image
单击“发布”按钮,并选择发布方式后,若页面上方提示“该操作需要等待管理员审批,审批结果可在审批管理中查看”,则需要管理员进行审批操作。若管理员审批通过,则该版本进行发布操作;若管理员审批拒绝,则该版本不进行后续发布操作。
image

版本视图

发布的数据集版本可以进行版本视图查看,追溯来源过程。
image

版本删除

普通用户可以对发布状态、未发布状态和失效状态的数据集版本进行删除,不能对共享给自己的其他人创建的数据集版本删除。 已发布的数据集版本删除为逻辑删除,底层和数据库保留信息,只是将该版本标记为删除状态,便于其他模块(如开发环境、训练任务等)使用该数据集版本时能够追溯到使用的文件。 单击操作栏的操作按钮执行删除操作。
image

数据集删除

单击数据集操作栏的删除按钮进行数据集删除,该操作会将数据集下的所有版本永久删除,无法恢复。
image

文件列表展示

单击版本名称,展示该版本下所有的文件列表。
image

文件查看

可以查看普通文件、图片(支持png、jpeg、jpg、bmp格式)、音频文件(支持mp3、wav、flac格式)、视频文件(支持mp4、avi、flv、mov)。支持查看50M以下的普通文件和图片,默认支持查看50M以下的音频,默认支持查看100M以下的视频。

发布数据集使用

发布数据集(状态为个人,组和全局)只支持节点缓存,不支持更新。以开发环境为例,进行说明。 选择数据时,选择数据集管理,弹出所有数据集列表,展开可以显示所有已发布的版本,只能选择其中的一个版本,单击确定。
image
image

传输列表操作

1.进入传输列表的操作包括:创建版本、导入和删除。同一用户同一操作只有一个在处理,其余需要排队。
2.传输列表可以进行查看、删除、关闭等操作。

数据处理

单击列表右上方“数据处理”按钮,可以创建一个数据处理任务。 需要填写以下信息:

名称说明
任务名称任务的名称,必填参数,只接受英文字母、数字和下划线,不能以下划线开头
镜像运行任务的镜像,必填参数
运行运行模式,脚本模式或命令模式二选一,必填参数,脚本模式下只能选择py脚本
资源组运行任务所需的资源组,必填参数
集群网络类型运行任务所需的集群网络类型,必填参数
数据数据处理任务所选的数据,非必填,选择的数据只能以挂载的方式直接使用

提交完成后,跳转到任务管理,列表中有任务类型为数据处理任务的数据。
image