如何在智能告警平台CA触发测试告警
849
2023-03-18
【交易技术前沿】基于关系数据库的XBRL通用存储模型 / 罗黎明 赵安
罗黎明1,赵安21 中证机构间报价系统股份有限公司 北京 1000332 中国证券监督管理委员会 信息中心 北京 100033E-mail :luolm@sac.net.cn(联系人邮箱)摘 要:自从1998年可扩展商业报告语言(XBRL)技术诞生以来,XBRL已经在世界多个国家和地区得到广泛的应用,随着其应用领域和数据量的迅速增加,统计、分析和挖掘各类XBRL数据的需求迅猛增长,使得针对XBRL数据的通用存储成为了一个迫切需要解决的问题。本文对基于关系型数据库的XBRL通用存储模型和处理技术进行了研究,针对XBRL规范稳定、扁平化的技术特性,提出了XBRL数据通用存储框架,将XBRL数据存储分为原始数据、文件集、分类标准和实例文档等四个部分。在此基础上,提出了XBRL规范模式文件映射关系模式、分类标准和实例文档分别存储的三层映射转换存储模型。在模型中,根据XBRL技术规范的模式文件,采用对象映射的方法,设计XBRL技术规范模式文件到关系数据库的映射关系并生成XBRL通用存储的表结构、约束和数据字典。该模型实现了XBRL数据到关系数据的转换,使XBRL数据可以通过关系型数据库技术处理。在XBRL通用存储模型和框架的基础上,提出了XBRL分类标准和实例文档的存储、提取以及检索的处理方式,并对存储模型的性能进行了验证测试。关键词:XBRL;关系型数据库;分类标准;实例文档;同一性分析
1 XBRL应用发展状况及面临的问题
从20世纪90年代末开始,XBRL技术逐渐成型并探索应用于财务报表的信息报送披露领域,到2011年中,世界主要发达国家和地区已开始在经济领域各行业全面推广XBRL。特别是在证券业监管、银行业监管、财会监管领域,XBRL更是得到了广泛的应用。
1.1 XBRL应用发展趋势
随着XBRL应用的迅速推广,XBRL应用的发展呈现以下趋势:扩展分类标准的普遍应用:XBRL发展的目标是在应用范围内统一商业报告的分类标准,用相同的元素及元素间的关系描述商业报告。同时,在大部分业务领域,保证商业报告业务内容完整性是XBRL需要满足的另外一个目标。由于报告本身的业务内容存在一定的差异、标准更新需要一定的时间周期等原因,在XBRL应用中需要引入分类标准的扩展机制。美国证监会中要求企业根据所遵循的会计准则,选择US GAAP或IFRS分类标准制作报告并可按实际需要自行扩展分类标准。中华人民共和国财政部则要求试点的企业和会计师事务所子通用分类标准基础上根据报告内容制定扩展分类标准,从实践效果来看,大部分报告中扩展的元素超过了其引用公共分类标准的元素数,有的企业甚至高达近70%。数据量的快速增加:在美国证监会,每天有几十至几千份XBRL报告通过Edgard 系统提交。而在中国证券市场,每年增加近1万份上市公司XBRL电子文档。基金电子化信息披露每天有近千份基金信息披露的XBRL报告提交至监管机构,截至2014年底,基金信息披露的实例文档已经达到150万份。多分类标准、多报告的组合应用越来越广泛随着全球经济的快速发展以及XBRL在全球应用的推广,跨境、跨市场的数据分析需求正快速增长。以信息披露为目的的XBRL应用逐步从单报告的展示披露转向宏观、分类别的统计分析。如上海证券交易所、深圳证券交易所均在信息披露网站中向公众提供了基于XBRL的财务指标对比功能;证监会基金信息披露网站则需要向公众提供按照基金类型、投资组合等多个角度进行统计的数据等。随着全球经济的快速发展以及XBRL在全球应用的推广,跨境、跨市场的数据分析需求正快速增长。基于已对公众披露的XBRL数据,越来越多的研究机构需要基于海量XBRL数据进行处理。与其他非XBRL数据关联的应用需求越来越广泛:随着XBRL在监管部门、行业以及企业内部的推广应用,与其他数据关联应用将越来越普遍。在企业中, XBRL应用需要与财务系统、报表系统、ERP系统等多种以关系型数据库系统的数据关联。在市场监管部门,监管者需要将XBRL数据与其他关系型数据结合应用,以发挥XBRL数据的巨大作用。
1.2 XBRL处理技术面临的问题
2 XBRL存储技术比较研究
目前对XBRL的应用采用的存储方式大致可以分为以下几种方式,也有将其中几种方式混合应用的方法[1]。存储于文件系统中;
以大文本、二进制数据等“大对象”方式存储于关系型数据库中;按报告业务内容构建关系型数据库存储模型;存储于原生XML数据库中;
从对现有的XBRL数据存储方式的比对结果可以看出,每种方案有自己的优缺点,都是只能较好的达到XBRL数据存储的某方面的特点。本文将提供一个新的数据模型,为符合XBRL2.1规范[2]、XBRL维度规范[3]的XBRL数据提供通用、安全、高效的数据存储和查询能力,以适合XBRL数据的各种查询分析应用场景。
3 XBRL通用存储框架
原始数据存储报告、分类标准的原始和基础信息。分类标准、报告是XBRL存储的基础单位,分类标准通常是指已经发布、在报告中会引用的公共分类标准。报告则是指包含扩展分类标准和实例文档在内的完整描述一份报告的XBRL数据。在一些应用系统中,会要求保存未经修改的原始数据,本模型采用大对象的方式将XBRL文件转换存储与关系型数据库的BLOB字段中。文件集的存储对象是报告或分类标准的文件集关系的集合。为适应各种应用场景的需要,分类标准通常按照一定的组织方式对所定义的内容按文件进行拆分。在一些实例文档或扩展分类标准中,会指定引用公共分类标准中的一部分文件。依据这些引用关系而发现出来的DTS需要完整地保存在数据库中。分类标准的存储分为概念定义(包括元素、组、扩展链接角色、弧角色、复杂类型等)、名称空间的映射关系和分类标准中的各类链接关系。分类标准存储的对象包括公共分类标准和报告扩展分类标准。实例文档存储包括实例文档的文件信息、名称空间、上下文、单位、脚注以及事实数据。因涉及对维度的支持,将上下文中维度关系的定义单独存储。此外,为提高数据库的处理性能,大文本数据单独存储。
4 XBRL-关系数据库的映射
XBRL技术规范和分类标准中的模式文件均以Schema文件为基础。Schema文件具有以下特性:
XML Schema使用标准XML语法,本身就是一个XML文档,可以直接用成熟的XML文档解析器读取;XML Schema提供了丰富的数据类型,包括数字型、布尔型、日期型等等,并且可以定义新的数据类型,允许对数据进行更严格的合法性检查;XML Schema支持继承性,即可利用一个已有的 xMLschema产生一个新的 XML Sehema;XML Schema支持命名空间,保证了标记的唯一性;XML Schema的扩展性好,它的内容模型是开放的,可以随意扩充、更新等。
XML Sehema 主 要 有 sehema、element、attribute、choice、group、sequence 等保留字汇。(1) schema
## 5. 存储表的映射与生成根据分级映射的方法,基于XBRL技术规范,需要生成表的分类标准元素和实例文档元素清单如表2、表3所示。表2 需要生成表的分类标准元素
## 6 性能测试测试环境硬件设备:型号:HP DL580配置:4C 2.4GHz, 8GB内存, 3*146G SAS硬盘;操作系统:Linux数据库系统:Oracle 10G
测试数据报告数量:6495份每份报告大小:7~9MB每份报告事实数据: 3300~4000个每份报告维度信息:600~650个每份报告单位信息:20~30个入库后数据量如表4所示。
## 7 小结本文以XML结构映射技术为基础,基于XBRL技术规范,提出了XBRL规范模式文件映射关系模式、分类标准和实例文档分别存储的三层映射转换存储模型。在模型中,根据XBRL技术规范的模式文件,采用对象映射的方法,设计XBRL技术规范模式文件到关系数据库的映射关系并生成XBRL通用存储的表结构、约束和数据字典。在此基础上,将分类标准、实例文档分别存储于对应的表集合。本文提出的框架和模型实现了XBRL数据到关系数据的转换,使XBRL数据可以通过传统的关系型数据库技术处理。由于充分利用了关系型数据库的优点,该模型具备高效的数据查询能力,适合海量的数据查询,支持单个数据项的查询和整张表数据的查询。该模型从XBRL的模式文件和链接库文件出发,可以真实还原模式文件和链接库文件。该模型吸取原生XML存储的优点存储XBRL文件,保证了XBRL文档的原貌,提高了生成和备份XBRL文件的效率,便于分类标准的备份和版本控制。
## 参考文献
[1] 肖美英,王宗宗. 基于混合数据库存储的XBRL财务信息管理体系探讨[J]. 财会通讯. 2011(07).
[4] 蔡小芳,张永胜. 关系模式与XML模式的相互转换[J].计算机系统应用.2005,10:83~86.
[5] 王健兵,夏春和. 基于模式的XML文档在关系数据库中存储的设计[J].计算机工程与设计.2005,26(11):3024~3027.
[6] 姜岩,潘平,王国仁. 基于XML Schema的XML与数据库转换技术研究[J]. 沈阳工业大学学报. 2006,28(3):307~310.
[7] 郝春辉,邹静. 基于XML Schema的XML存储[J]. 计算机工程与应用. 2006(11).
[8] Han EH, George K, Vipin K. Text Categorization Using Weight Adjusted K-Nearest Neighbor Classification [C]. 5th Pacific-Asia Conference on Knowledge Discovery and Data Mining. 2000.
[9] Kanungo,Tapas,(IBMAlmaden Research Center), Mount,David M,,Netanyahu,Nathan S, Piatko,Christine D, Silverman Ruth, Wu Angela Y. An efficient K-Means clustering algorithm: Analysis andimplementation. 2002.
## 作者简介罗黎明,男,中国科学院大学计算机专业博士,全国会计信息化标准化技术委员会委员,全国金融标准化技术委员会证券分技术委员会委员,信息披露领域专业工作组首席专家,中证报价系统股份有限公司技术开发部、系统运维部总监。赵安,女,中国证监会信息中心。
发表评论
暂时没有评论,来抢沙发吧~