一、制造业数字化转型迫切需要高质量数据集
2022年政府工作报告提出,促进数字经济发展,促进产业数字化转型,加快发展工业互联网。数据要素既是国家的战略性资源,也是产业数字化转型和发展工业互联网的基础性资源。例如,工业质检对图像识别的准确率要求高达99.99%,远高于消费互联网领域;在新一代人工智能发展的三要素—算力、算法和数据中,算力和算法决定了AI技术的成熟度,数据则决定了AI技术的可落地性,而且人工智能的算法亟需基于大规模、高质量的数据训练。目前,优于缺乏高质量数据集、共性技术数据资源库、标准测试数据集等智能制造基础数据平台,从而制约了智能制造行业的应用效果及技术提升,也阻碍了AI与实体经济的深度融合,成为智能制造发展的突出瓶颈。究其原因,主要有四个方面:
第一,制造业数据流通壁垒过高。政府与社会服务平台提供的支撑不足,在云上、云下、行业内部及利益相关方之间,仍存在数据壁垒,导致数据无法自由地流通和共享。第二,制造业数据流通意愿不强烈。数据应用对于多数企业而言处于投入大、收益低阶段,尤其是中小微制造业企业自身经营压力大,资金周转较为困难。第三,制造业数据流通标准不完善。目前尚未能在工业设备、工业参数、通信协议之间建立统一的标准,不同厂商的制造设备“方言”各异,企业设备、系统之间无法实现顺畅的数据要素流通。第四,制造业共性技术问题亟待解决。其研发的共性和外部性无法完全市场化,需要政府持续支持,否则难以为区域内企业提供公共技术服务及实现高质量数据供给。
二、国内外构建制造业数据集的关经验
(一)欧洲的相关做法
欧洲对先进制造业数据集的开发利用从战略到实践层面均予以高度重视。例如,欧盟政府与工业界、科研界、国际数据空间协会深度合作,工业数据空间(IDS)将成为欧洲乃至全球数据基础设施的关键要素,使数据在受保护的生态系统中进行安全交换和便捷链接,并能够在跨企业、跨行业间进行应用。
能源行业顶级技术联盟开发了开放地下数据空间(OSDU)实现数据和知识的全产业自由流动,通过广泛的数据共享和应用共享,有效消除不同专业领域划分带来的信息孤岛,实现数字化转型的全局性工作流设计。
西门子推出开放式物联网操作系统(MindSphere)能够将产品、工厂、系统和机器设备安全快速地连接到数字世界,传输到具有高级分析功能的工业应用进行分析,充分挖掘企业在运营过程中设备和系统所产生数据的潜在价值。
(二)我国有关方面的实践
中国信息通信研究院(中国信通院)信息化与工业化融合研究所持续研究国内外工业数据安全利用相关技术和标准,提出畅通工业数据交互的三步走路径:一是通过信息模型、分类分级解决数据跨部门、跨企业流通或交易中对数据理解的问题,促进数据要素资源化;二是通过可信工业数据空间解决各参与方信任、数据溯源、数据流通范围控制、数据安全责任管理的问题,促进数据要素合法依规有序受控流动;三是通过工业数据资源供需对接交易平台,解决价值评估、资源匹配、可信流通交易的问题,促进数据要素利用市场机制合理配置。2021年,中国信通院发起了工业数据空间·生态链伙伴计划,面向实际工作需求,探索共享、交易、等价交换等多种商业模式。在标准推进方面,发布了《可信工业数据空间系统架构白皮书》,构建中国可信数据空间底层标准架构。
中国机床工具工业协会以中国机床工具工业的制造企业为主体,由有关企业或企业集团、科研设计单位、院校和团体自愿组成。目前拥有包括金属切削机床、金属成型机床、铸造机械、木工机床、数控系统、工业机器人、量刃具、磨料磨具、机床附件(含机床功能部件)、机床电器等领域的会员单位1700多家。发挥中国机床工具工业协会在维护全行业共同利益、服务行业发展方面的优势,并结合其行业影响力,建立了机床工具数据集。基于此数据集,建立了机床装备工业互联网标识;实现了数据的可编程,为数据价值化提升提供保障;数据权属和服务规则已初具雏形。
煤炭科学技术研究院发挥煤科院在技术平台和标准建设的优势,通过为煤炭和焦化企业提供煤质和焦化产品的检验服务,加上行业供应链等数据,建立煤炭焦化公共数据集。基于此公共数据集,实现煤炭供需方的优化匹配,为焦化企业寻找煤质和成本更合适的煤源,也为煤源拓展价值渠道;将周边煤源的煤质等数据加入到焦化企业内部智慧配煤工艺的方案中,给出成本更低的配比优化方案,实现精细化运营;基础数据库还助力能源、环保等行业的政府监管。
三、关于构建制造业高质量数据集的建议
根据国内外的实践经验,以公共服务和市场化服务双轮驱动,分层制定符合我国国情的制造业数据流通的发展战略,多方协同合作建设制造业高质量数据集。
第一,政府助推建设高质量“公共服务数据集”。一是深化数据标准化和数字基础设施标准化工作,鼓励制造业根据技术标准及规范规划建设安全可信的数据要素流通一体化解决方案,如建设开源开放数据集管理平台,鼓励发展新型第三方数据服务运营商,以及建设“流转前授权、流转中实时可视、流转后严格按照合约控制”的数据流通基础设施。二是建设人工智能算力中心,依托人工智能算力中心搭建数据集开发共享平台,通过隐私计算、联邦学习等数据安全保护技术,使得数据集“可用不可见”,以普惠算力、数据服务降低创新门槛,完善算力、数据公共资源供给,满足中小企业生产和创新需求。三是加大对传感器、智能化数据采集、数据集开发共享平台及数据流通基础设施等方面的扶持力度,征集和奖励以公共数据集实现公共价值的案例,鼓励新型创新主体的优秀实践。四是成立专家委员会,指导制造业工业软件开发和基础AI大模型孵化,解决工业场景碎片化、基于小数据的模型无法泛化和普适问题。五是鼓励团体标准评估认证,开展区域和行业维度的数据流通及管理成熟度能力评估评价,提高数据数量和质量,通过定期评估和择优补贴等方式逐步提高符合智能制造发展需求的高质量数据集供给能力。
第二,发挥协会在建设高质量“共性技术数据集”中的作用。一是基于产业共性技术创新能力提升推动我国产业链的科技安全与稳定性,鼓励行业协会/联盟等社会组织构建运营公司、创新中心等新型创新主体,以商业需求为导向促进行业内部的数据交换与流通。二是扶持行业协会/联盟等社会组织提升科研能力,以公共需求为导向开展行业内共性数据、算法及智能应用等共性技术研究,赋能中小企业做精做强,三是针对行业内联盟企业特色与共性“瓶颈”问题开发具有针对性的算法训练用数据集,并基于数字孪生模型库、机理算法模型库、工艺知识库等行业协会/联盟等社会组织服务平台,将制造业数据沉淀为知识产品进行价值创造和赋能。四是以行业协会/联盟等社会组织为纽带,促进形成区域性的产业共性技术研究体系,结合区域特色产业和产业集群,构建服务地方产业的共性技术数据集,着重提升服务当地制造业企业能力。
第三,发挥龙头企业建设高质量“产业集群数据集”的作用。一是支持行业龙头企业与上下游企业合作探索数据交换、利益分成及直接购买等多种数据共享方式,开发适合的商业模式。二是优先选择制造业基础好的产业集聚区,以专项项目支持形式开展工业数据分类分级、共享流通等应用试点,加强优秀试点案例的宣传推广。三是鼓励龙头企业利用大数据、云计算、AI技术支持海量数据管理与处理,同步发展工业软件以及工具套件,建设敏捷开发与部署平台,以新数字技术、新发展模式、新管理方法打破数据孤岛。四是发挥龙头企业的生态引领作用,搭建数据集、算法开发公共技术与服务平台,促进行业内数据、知识、应用等资源对接,联合攻关 “卡脖子”及共性技术问题,联合推动创新成果与转型经验的扩散与推广,打造“数据开源、价值共创、共同受益”的开放式新型行业生态。
建议提交: 工信部 网信办