用友软件首页

浅谈计算机审计中电子数据的清洗

2016-2-20 0:0:0 wondial

浅谈计算机审计中电子数据的清洗

浅谈计算机审计中电子数据的清洗

  随着信息技术的发展和普及,工作已经离不开计算机审计。电子数据审计作为计算机审计的一个重要组成部分,其有关理论、技术、方法得到了广泛地研究、推广和应用,在审计中发挥了越来越重要的作用。
  众所周知,电子数据审计的基本步骤包括数据提取、数据清洗、数据转换、数据分析等四个基本步骤。其中数据清洗是转换和分析的基础,一定程度上决定着计算机审计的最终质量,数据清洗在电子数据采集中具有重要作用。因此,本文在阐述了数据清洗原理的基础上,提出电子数据采集中常见问题的数据清洗方法。

  一、数据清洗原理
  数据清洗(data cleaning),简单地讲,就是从数据源中清除错误和不一致,即利用有关技术如数理统计、数据挖掘或预定义的清洗规则等,从数据中检测和消除错误数据、不完整数据和重复数据等,从而提高数据的质量。业务知识与清洗规则的制定在相当程度上取决于审计人员的积累与综合判断能力。因此,审计人员应按以下标准评价审计数据的质量。
  (一)准确性:数据值与假定正确的值的一致程度。
  (二)完整性:需要值的属性中无值缺失的程度。
  (三)一致性:数据对一组约束的满足程度。
  (四)惟一性:数据记录(及码值)的惟一性。
  (五)效性:维护的数据足够严格以满足分类准则的接受要求。

  二、数据清洗的必要性
  从被审计单位采集到的审计数据千差万别,为了能更好的服务于审计分析和审计查证的需要,必须对采集的电子数据进行全面的清洗。
  (一)被审计单位信息系统的多样性带来了数据不一致性。开展计算机审计必然面临各式各样的迥然相异的被审计单位信息系统。被审计单位信息系统的差异,必然给审计工作带来数据的不一致性问题。主要有以下表现形式:
  1.同一字段在不同的应用中具有不同的数据类型。如字段“借贷方标志”在A应用中的类型为“字符型”,取值为“Credit/Debit”,在B应用中的类型为“数值型”,取值为“0/1”,在C应用中类型又为“布尔型”,取值为“True/False”。
  2.同一字段在不同的应用中具有不同的名字。如A应用中的字段“Balance”在B应用中名称称为“Bal”,在C应用中又变成了“Currbal”。
  3.同名字段,不同含义。如字段“月折旧额”在A应用中表示用直线折旧法提取的月折旧额,在B应用中表示用加速折旧法提取的月折旧额,等等。
  4.同一信息,在不同的应用中有不同的格式。如字段“日期”在A应用中的格式为“YYYY-MM—DD”,在B应用中格式为“MM/DD/YY”,在C应用中格式为“DDMMYY”。
  5.同一信息,在不同的应用中有不同的表达方式。如对于借贷方发生额的记录,在A应用中设计为 “借方发生额”与“贷方发生额” 两个字段,在B应用中设计为 “借贷方标志”与“借贷方发生额”两个字段。 对于这些不一致的数据,必须进行转换后才能供审计软件分析之用。数据的不一致性是多种多样的,对每种情况都必须专门处理。
  (二)被审计系统的安全性措施给审计工作带来障碍。基于安全性考虑,被审计单位的系统一般都采取一定的加密措施,有系统级的加密措施和数据级的加密措施。特别对具有一定含义的数据库的表与字段的名称,一般都要进行映射或转换。例如,将表命名为T1,T2…; 将字段命名为F1,F2 …。对于这样的数据,不进行含义的对照与清洗就不明白表或字段的经济含义,审计人员是无法处理的,各种各样的加密措施不胜枚举,这些都给计算机审计带来了障碍,也给数据清洗带来挑战。
  (三)审计目的的不同决定了审计数据的范围和要求不同。被审计单位的信息系统规模不一,数据量相差悬殊。审计人员不可能也没有必要将被审计单位的所有数据都采集过来。审计工作有自己的目的和要求,需要处理的往往是某一时段或某一方面发生的数据。这样就要求审计人员选取一定范围的、满足一定要求的审计数据。例如,在关税审计业务中,关心的只是与税收征管有关的报关单、加工贸易、减免税、货运舱单、税单等相关数据库的数据,而对于操作员授权管理等系统控制数据库,在不对系统进行评价时,可以不采集。同时,审计目的不同,对原始数据的要求也不同。在对贷款利率执行情况检查时,需要带有计息标志和利率信息的每一笔贷款的明细数据,如果这样的信息分布在被审计系统的若干张表中,换句话说,如果被审计单位不能提供完全满足审计要求的数据,就有必要对采集到的数据进行清洗转换。
  (四)数据清洗是数据分析、处理的前提。计算机软件设计一般都是基于一定的数据结构,专用的审计软件更是如此。在输入数据不满足软件处理的需求时,必须对它进行清洗,对于一些通用的审计软件,对输入数据的适应性相对强一些,但这并不意味着它可以处理不经清洗的任意数据,审计软件中有很多特定的分析方法和专用工具,这些方法和专用工具往往要求一定的数据结构。例如,在计算机固定资产折旧时,就需要用到“资产原值”、“月折旧率”、“入账日期”等信息,如果这些信息不能完全满足,就无法计算。

  三、数据清洗的主要步骤
  (一)定义和确定错误的类型。
  1.数据分析。数据分析是数据清洗的前提与基础,通过详尽的数据分析来检测数据中的错误或不一致情况,除了手动检查数据或者数据样本之外,还可以使用分析程序来获得关于数据属性的元数据,从而发现数据集中存在的质量问题。
  2.定义清洗转换规则。根据上一步进行数据分析得到的结果来定义清洗转换规则与工作流。根据数据源的个数,数据源中不一致数据和“脏数据”多少的程度,需要执行大量的数据转换和清洗步骤。要尽可能的为模式相关的数据清洗和转换指定一种查询和匹配语言,从而使转换代码的自动生成变成可能。
  (二)搜寻并识别错误的实例。
  1.自动检测属性错误。检测数据集中的属性错误,需要花费大量的人力、物力和时间,而且这个过程本身很容易出错,所以需要利用高的方法自动检测数据集中的属性错误,方法主要有:基于统计的方法、聚类方法、关联规则的方法。
  2.检测重复记录的算法。消除重复记录可以针对两个数据集或者一个合并后的数据集,首先需要检测出标识同一个现实实体的重复记录,即匹配过程。检测重复记录的算法主要有:基本的字段匹配算法,递归的字段匹配算法,Smith—Waterman算法,Cosine相似度函数。
  (三)纠正所发现的错误。在数据源上执行预先定义好的并且已经得到验证的清洗转换规则和工作流。当直接在源数据上进行清洗时,需要备份源数据,以防需要撤销上一次或几次的清洗操作。清洗时根据“脏数据”存在形式的不同,执行一系列的转换步骤来解决模式层和实例层的数据质量问题。为处理单数据源问题并且为其与其他数据源的合并做好准备,一般在各个数据源上应该分别进行几种类型的转换,主要包括:
  1.从自由格式的属性字段中抽取值(属性分离)。自由格式的属性一般包含着很多的信息,而这些信息有时候需要细化成多个属性,从而进一步支持后面重复记录的清洗。
  2. 确认和改正。这一步骤处理输入和拼写错误,并尽可能地使其自动化。基于字典查询的拼写检查对于发现拼写错误是很有用的。
  3. 标准化。为了使记录实例匹配和合并变得更方便,应该把属性值转换成一个一致和统一的格式。
  (四)数据回流。当数据被清洗后,干净的数据应该替换数据源中原来的“脏数据”。这样可以提高原系统的数据质量,还可避免将来再次抽取数据后进行重复的清洗工作。
  四、数据清洗的主要方法
  (一)空缺值的清洗。
  对于空缺值的清洗可以采取忽略元组,人工填写空缺值,使用一个全局变量填充空缺值,使用属性的平均值、中问值、最大值、最小值或更为复杂的概率统计函数值来填充空缺值。
  (二)噪声数据的清洗。
  分箱(Binning),通过考察属性值的周围值来平滑属性的值。属性值被分布到一些等深或等宽的“箱”中,用箱中属性值的平均值或中值来替换“箱”中的属性值;计算机和人工检查相结合,计算机检测可疑数据,然后对它们进行人工判断;使用简单规则库检测和修正错误;使用不同属性间的约束检测和修正错误;使用外部数据源检测和修正错误。
  (三)不一致数据的清洗。
  对于有些事务,所记录的数据可能存在不一致。有些数据不一致,可以使用其他材料人工加以更正。例如,数据输入时的错误可以使用纸上的记录加以更正。知识工程工具也可以用来检测违反限制的数据。例如,知道属性间的函数依赖,可以查找违反函数依赖的值。此外,数据集成也可能产生数据不一致。
  (四)重复数据的清洗。
  目前消除重复记录的基本思想是“排序和合并”,先将数据库中的记录排序,然后通过比较邻近记录是否相似来检测记录是否重复。消除重复记录的算法主要有:优先队列算法,近邻排序算法(Sorted—Neighborhood Method),多趟近邻排序(Multi—Pass Sorted—Neighborhood)。

如果您的问题还没有解决,可以到 T+搜索>>上找一下答案

分享到:

微博关注

bj用友软件

相关阅读

最新信息

热点文章

新闻资讯

  • 【新年首签】天津用友&通广集团签署战略协议

    【新年首签】天津用友&通广集团签署战略协议

    天津用友软件技术有限公司(以下简称天津用友)和天津通信广播集团有限公司(以下简称通广集团)就企业信息化建设事宜进行战略签约。

    参加此次会议有天津用友总经理赵永春,天津用友副总经理王成岩、通广集团副总经理马严、通广集团科技质量部部长尹刚、七一二公司技术质量部部长门国梁、七一二公司技术中心主任黄建尧等。

    image

  • 会计职场堪比宫斗剧

    会计职场堪比宫斗剧

     近几年,各种宫斗剧火爆,《甄嬛传》《芈月传》等等都脍炙人口,许多人经常打趣自己像某个人物,若是在古代能活到第几集。让人不禁想起,会计职场又何尝不是一场宫斗,每天要察言观色,明了领导的内心,就像后宫谁也不敢惹皇后一样。但当你坐上领导位置的时候,盯着你的眼睛就会很多,稍有不慎就会被取代。就像后宫的嫔妃一样,就算坐上了皇后的位置也要时刻担心有没有人觊觎。

    image

知 识 库

  • 用友软件凭证填制环节常见问题及解决方案

    用友软件凭证填制环节常见问题及解决方案

    用友软件凭证填制环节常见问题及解决方案用友软件凭证填制环节常见问题及解决方案

      用友软件的账务处理采用放射式数据处理流程,对业务数据采用集中收集、统一处理、数据共享的操作方法,凭证数据库既是数据归集的“信息仓库”,又是后续业务处理的“信息源泉”。因此,凭证填制数据的正确与否直接关系到后续账表及相关业务信息的准确性。
      在用友软件中,其基础设置及凭证管理模块为我们提供了凭证类别控制、受控科目控制、制单序时控制、支票控制、制单权限控制等功能,加强了对发生业务的及时管理和控制,通过严密的制单控制保证填制凭证的正确性。然而在实际应用中,却常因用户不理解各项控制参数的含义,以及对后续操作的影响;没有准确无误地设置相关控制参数及基础信息;没有正确完整地录入凭证辅助信息等原因,使先进的控制工具无法充分发挥效用,损失了部分数据信息,降低了软件的使用效能。对此,笔者将以用友ERP-U8.72软件为例,总结凭证填制环节的常见问题,结合典型案例,追根寻源,深入剖析其产生的原因,以便对症解决。一、凭证类别设置时常见问题
      出错信息描述:“不满足借方必有条件”,“不满足贷方必有条件”,“不满足借贷必无条件”,“不满足凭证必有条件”。
      典型案例剖析:2009年8月16日,总经理办公室支付业务招待费1 200元,转账支票号ZZR003。凭证内容如下:
      借:管理费用/招待费(660205)1 200
      贷:银行存款/工行存款(100201)1 200
      当凭证保存时,弹出出错信息框,提示“不满足借贷必无条件”。此信息说明用户之前为不同类别的凭证设置了限制条件,指定了相应的限制类型和限制科目。这样,当凭证填制时,系统就会根据所设置的凭证类别判断凭证内容是否符合限制条件,不相符时就会出现类似的出错信息。对于此类问题,用户首先应根据提示信息,认真查对所选凭证类别与所录入的业务内容是否相符,然后进一步判断究竟是凭证类别设置错误,还是会计科目选择错误?
      此案例中的凭证类别选择的是“转账凭证”,转账凭证的限制类型应为“凭证必无”,限制科目为“1001,100201,100202”,即在凭证借贷方不能出现这三个科目。而该凭证的贷方却出现了100201科目,显然违背了所设置的限制条件。进一步判断可知,此问题是因凭证类别设置错误所致的。根据业务内容该凭证类别应为“付款凭证”,而非“转账凭证”。当更正凭证类别后,问题即得到解决。经进一步分析得知,用户在填制凭证时,因为看到在业务中用到了转账支票,就认为这应该是一张转账凭证,从而导致凭证类别判断错误。而追根寻源是由于用户对业务的凭证类别判断不准,不明白凭证类别的限制条件,甚至于不清楚什么是收、付、转凭证。当问题出现时,就会因不理解凭证类别限制条件的含义而找不到问题解决的方向和方法。
      此外,对于此类问题,如果用户在认真查对后,发现凭证类别与凭证内容匹配,但仍出现出错信息,则应考虑可能是因用户粗心将凭证类别的限制条件设置有误。常见的错误有将收款凭证和付款凭证的限制类型设反了,或将转账凭证的限制类型设为“凭证必有”,或未写全限制科目。

  • 怎么审核记账凭证用友

    怎么审核记账凭证用友

    怎么审核记账凭证用友

    【用友软件U8/T6/T3反审核操作步骤】

    1、用友软件取消凭证审核步骤,依次打开总账系统→填制凭证,如下图:

    image

  • 最新文章排行
  • 热门文章排行

管理软件

关于我们 | 公司动态 | 获奖记录 | 联系我们 | 招聘信息 | 用友产品中心 | 用友云基地
Copyright ©  www.kuaiji66.com  All Rights Reserved 天龙瑞德
京ICP备11046295号-1 技术支持 北京天龙瑞德信息技术有限责任公司   北京海淀上地十街辉煌国际大厦3号楼6层 总机:010-59798025   售后:4009908488
北京天龙瑞德信息技术有限责任公司