引言
经过六十多年的发展,中国航天形成了一整套科学系统的质量管理方法,有力地支撑了以两弹一星、载人航天和探月工程为代表的重大任务的圆满完成,同时也积累了丰富的质量管理经验和大量宝贵的质量数据资源。随着我国航天事业的蓬勃发展,航天质量数据近些年呈现爆发式激增,航天质量数据来源多、数据种类多样,除传统结构化数据外,有关产品质量的文档、图像、视频等半结构化和非结构化数据不断涌现,航天质量数据已符合大数据特征。用大数据创新质量管理,能提升质量管理的精准性和智能性,及早发现异常信息并进行质量隐患的预警提醒,可大大降低质量管理的成本,预测型号产品未来的质量状况等,拓展质量管理的深度和广度,为业务部门提供支撑。但是现在航天各单位质量数据的基础管理与利用率还有待提高,离数据驱动的创新质量管理还有较长一段距离,这主要是因为:历史质量数据积压,没有规范统一的整理要求与方法手段;数据知识产权不明晰、数据内容通常为涉密级别,数据共享不够;质量大数据应用研究缺乏,影响质量数据应用的积极性。本文在梳理质量数据资源内容的基础上,给出质量数据资源整理步骤,提出航天产品质量隐患分析和单位质量能力水平评价两个方向的应用模式,为质量创新管理提供一些思路。
数据整理也叫数据准备,是在挖掘提炼数据价值的过程中进行的前期预处理工作。它看似不足轻重,实则非常重要。数据整理是为了使数据更好地服务于数据分析而对数据进行的审查和转换的过程,它是整个数据分析流程中最占精力的过程。有调查研究表明,很多大数据分析任务80%以上的工作花费在数据整理上,这给数据分析带来了巨大的人力成本,很多分析设想因为承担不起前期的数据整理工作而最终放弃。数据整理与数据抽取、转换和加载(ETL)过程有相似的地方,但二者之间存在较大差别,数据整理服务于组织内部所有的数据使用者,以对数据处理技术不熟悉的业务用户为主,但他们对业务非常熟悉,对数据背后的语义更清楚。
中国航天质量管理已历经六十多年,不是所有的数据都需要进行整理。根据航天质量发展规律及质量数据价值与资源平衡原则,应确定一个合理的数据整理开始年份,既不流失有价值的历史质量数据,也不至于浪费大量的人力、物力、技术资源去获取较低价值的数据。
航天质量数据整理的目的与核心是为了数据应用,所以数据在整理前期就应该先梳理明确本单位能够掌握的主要数据资源,然后对该数据资源的应用模式有个大致的分析,之后围绕数据的应用模式开展细致的数据整理工作。图1是数据整理工作中各种工作的前后顺序与推进关系示意,如果用于项目或工作计划,图1中每个节点之间可安排计划的工作日,如从①到②需要2个工作日,从②到③需要3个工作日等。
图1 数据整理推进与应用分析步骤示意
航天质量数据资源分为主数据、业务数据、元数据、字典数据,为利于后续数据资源的共享应用,主数据、元数据和字典数据的名称、格式与取值范围需要以集团为单位进行统一规范。
航天产品研制单位可以两条线对本单位的业务数据进行梳理,一条是以抓总产品和研制产品为主线,从产品的立项、方案设计、初样阶段、试样阶段(正样阶段)、批生产阶段、使用维护阶段全寿命周期梳理与质量保证有关的数据,如质量保证大纲要求,技术风险识别、分析与量化控制,质量与可靠性指标要求与设计保证,可靠性与寿命试验验证与分析评价,物资选用控制要求与选用控制、供应商管理及供应链风险控制、工艺设计与选用方案、新工艺、新技术、新材料攻关情况,外包外协产品选用与控制,“三类关键特性”识别与控制管理,技术评审情况,强制检验点检查结果,关(重)件与关键工序(关键过程)及特殊过程的不可检与不可测控制情况,产品数据包内容,产品验收与评审情况,质量问题及归零处理情况等涉及的数据;另一条线以研制单位的质量管理活动为主线,从质量管理体系要求的各个方面进行梳理,包括单位的质量管理体系评估数据、质量管理体系审核数据、生产现场评价数据、科研生产评估数据、质量监督数据等。
在收集数据之时需尽量依据相关数据标准进行数据采集。
应用场景的初步分析有两个主要目的:一是识别数据的利益相关方,明确利益相关者的需求,可让用户对数据资源的梳理与处理需求更加清晰,也可明确数据的状态是原始数据还是加工处理数据;二是便于用户决定数据的处理粗细程度及组织存储方式,为将来的数据挖掘做准备。
航天质量数据资源的应用场景可从两个方向进行分析,一是保证产品质量,二是提高单位的质量能力水平。围绕产品质量保证方面,可从产品质量隐患的传递与产品发生质量问题的原因分析角度切入,通过大数据的应用来阻断质量隐患的传递,降低产品发生质量问题的概率;围绕单位质量能力水平方面,可从单位的质量管理体系审核或质量管理体系评估中暴露出的不合格项入手,通过大数据的应用,来挖掘质量管理薄弱环节与产品发生质量问题之间的必然关系或关联关系,从而找到单位可以提升质量管理的精准措施。
主数据是指组织中需要跨系统、跨部门进行共享的核心业务实体数据。航天质量数据资源的主数据对象包括两类:一类是产品,包括型号、分系统、单机(设备)、零(部)组件与软件产品等,其中零(部)组件中含元器件、原材料、标准紧固件等基础产品;另一类是组织单位,对于航天组织机构来说,即集团公司、院级、厂所级三级。描述航天产品和航天组织机构基本属性的数据称为航天质量数据资源的主数据。
主数据对象是后续数据分析的主体对象,需分级分类进行规范处理与存储。主数据表达方式和格式尽量按照适用的相关标准规范进行预处理,如产品的基本属性数据可参照航天产品化数据管理要求中关于产品的基本数据项内容与格式。
很多数据模型和算法是构建在结构化数据基础上的,多源异构数据要更好地与其他数据集融合,结构化处理是必不可少的。各类业务数据中若已经是结构化的内容,可对照相关标准将其规范化。很多业务数据虽然存在于结构化数据表格中,但数据类型为文本型,还有很多业务数据存放于文档中,属于半结构化与非结构化数据,如质量管理体系评估数据属于半结构化数据,技术风险识别报告和试验报告属于非结构化数据,这些数据需要进行结构化处理。
如存在于EXCEL格式文件中的质量问题结构化数据表中的质量问题描述,属于文本类型的非结构化字段,对于该类数据的描述可以再进一步细化和规范化,例如可将质量问题描述按照时间、问题产品、问题发生地点、发生阶段、具体问题模式进行拆解,而具体问题模式还可进一步切词,提取出描述问题的关键词。
如存在于Word文档中的半结构化的质量管理体系评估信息,其非结构化数据预处理步骤示意见图2。
图2 非结构化业务数据结构化处理步骤示例
首先将相关的业务数据进行收集、汇总,如将多个文本文件整合到一个文件中,再将质量管理体系评估文件中的被评估单位、评估时间、评估要素、评估方、主要问题及建议等字段及内容抽取出来,然后将主要问题与建议进行自然语言切词,去掉虚词与停词,识别出文本中的产品和单位实体,按照一定规则或模型抽取出问题关键词或关系,然后将其进行规范化处理。
航天质量数据的主数据和业务数据中,有很多字段的内容取自数据字典,如产品的研制阶段、产品的成熟度等级等,质量问题数据中的质量问题原因分类、故障模式等。字典数据必须规范化后,主数据和业务数据才可进一步规范化。
很多数据价值的发现源自于多源异构数据之间的关联和在关联数据基础之上进行的数据分析。将多个数据集(很可能来自于多个数据源)融合到一起,可使数据内容更丰富,更容易获得新的发现,这也是大数据应用的一种有效模式。可基于构建的主数据树,建立产品与各种业务数据之间的关联关系,便于用户顺着产品一次性查找全部相关的质量数据资源。如当某产品发生质量问题时,可沿该产品便利地调出与该产品相关的所有偏离标准或正规管理的行为或状态。
大数据分析更关注相关关系,而不是因果关系。传统的质量管理方法尤其注重因果逻辑,而大数据分析的主流研究成果相对更加注重“效果逻辑”,只强调数据之间存在的相关关系,而不管这种关系在实践中如何产生。大数据分析与数据挖掘关系密切又有所不同,大数据分析主要侧重于通过观察数据来对历史数据进行统计学上的分析;而数据挖掘则是通过从数据中发现“知识规则”来对未来的某些可能性做出预测。根据之前的应用场景分析,依据业务知识经验对数据进行深入分析,通过对数据的相关特性和共性进行深度挖掘与分析,自动对产品质量状况进行评估,及时发现质量预警信息,提出决策性建议,对质量控制能更有效地进行指导,便于研制人员及时了解和迅速采取措施,将质量控制关口前移,为建立更精确化和智能化的质量管理过程服务,提高决策的科学性和有效性。
得到输出数据之后,还需将计算得出的数据选择合适的方式展示,或以图形可视化的方式展示给用户,如某单位某个管理环节的薄弱系数较高,以红色表示,某产品的哪些环节存在质量隐患最高,以红色表示;或者直接给出结论,告知某产品的综合质量隐患已经超出了阈值,提出报警等应用模式,应用模式的设计可提升数据应用的冲击力。
做质量大数据分析必须基于已有的数据基础。以下两个分析模型是基于作者单位已有的数据基础而设计的(见图3),虽然缺少产品设计、生产、试验等环节的研制过程数据,但是从各个环节反馈的问题可以一定程度地反映出产品的隐患趋势和规律及单位的质量能力水平,对于促进质量管理的精准化及了解某单位的质量能力水平有一定的积极作用。该模型可以根据数据证据的不断积累、完善和补充,不断得到修正、优化和拓展。
图3 问题产品隐患或原因分析数据基础示意图
对于某产品可以从源头要求、供应链保证、过程监控、流程与组织能力保证环节,以及相似产品质量问题等环节的数据中预测产品的风险系数,以使用阶段的质量问题与归零信息来反馈验证,并不断修正风险预测模型。
以上数据的分析主要有两个应用场景:一是在使用阶段发生质量问题的辅助归零分析,可根据问题产品的生产与设计单位在流程与组织能力保证方面的薄弱环节和风险点,在供应链保证方面的风险点,由军代表或监理代表在质量监督与质量监理过程中报出的相关问题,历史上该产品所发生的问题与相似产品发生过的质量问题原因,以及该产品发生质量问题的产品问题描述等关联与融合信息,协助问题产品的深层次原因分析,协助快速及深层次归零;另一个是用于评估某型号中关重件的风险系数,从而得到一个型号的总体风险系数,或通过风险系数计算,发现该型号关重件中应该关注的产品。
对于第1个应用场景,可将异源多构数据经处理关联融合后,在各环节设置质量问题影响因子,利用风险交叉点与使用阶段质量问题归零信息进行验证,采用监督型学习算法不断调整各环节对质量问题的影响比例,直至最优。
对于第2个应用场景,可将所有涉及该型号关重件的问题或风险信息列出,依据第1个应用场景中调校出的比例系数,预测其在使用阶段出现问题的概率。
国内对单位质量综合评价采用的指标有些不同。我国国家层面提出了一个面向全国制造业的质量竞争力指数,由两部分组成:一是质量水平,另一个是发展能力,其中质量水平由三方面考核决定,分别是标准与技术水平、质量管理水平、质量监督与检验水平。原国防科工委对军工集团公司出台了质量绩效的评价标准和评价要点,采用直接对指标评分并赋权重的办法量化军工集团公司的质量绩效,包括3个一级指标,即产品质量状况、质量工作状况和质量奖惩状况,其中产品质量状况主要由该单位的质量事故和重大事故实际发生情况决定;质量工作状况由质量政策制度落实与质量策划情况、质量管理体系建设与审核、质量成本管理、质量保障条件与队伍建设、质量信息建设与运行情况决定。
基于以上调研,提出了利用质量大数据对单位的质量能力水平进行评价的方法,即利用质量管理体系审核、质量管理体系评估、星级现场评价、科研生产评估的问题及建议数据,以及供应链保证、质量监理与质量监督发现的问题及提出的建议数据对单位进行评价。评价的基础也是治理后的数据,先将这些数据进行规范化与结构化处理,然后将问题及建议提取关键词,并且按照质量管理过程进行文本分类,如项目管理过程、技术开发过程、与顾客有关的过程、产品研制过程、外部获取产品的过程、生产与交付过程、维修过程、支持过程等,然后为每类问题设置贡献系数,也是通过监督型学习算法不断调整各类问题对质量能力水平影响的比例系数,通过参数设定,计算出该单位的质量能力水平分数。
面对具有数据来源复杂、数据类型与格式多样化、数据量大、时间跨度大等特点的航天质量大数据,需要明确数据内容,在保证数据的知识产权保护和满足保密性要求的前提下,有应用目的的数据整理可提升各单位历史数据整理的效率,而数据分析及数据挖掘的研究与应用可促进各单位收集、整理和应用共享数据的积极性。另外,我们还应该清醒地认识到,在数据整理过程中,还将面临数据的缺失与修复、数据清洗、数据质量评估等工作,每一项工作都需要深入研究适用的技术与手段,只有在实践中不断地总结经验,并以开放的态度加入到相关领域的研究中,才可找到适用的较为可行的技术路线。而且,解决数据有效利用的问题涉及利益相关方的多种需求及多样化的实现途径,需要从多学科视角建立一套科学的大数据治理体系。