数据治理在钻探企业的应用与探索
王重云①,
①中国石油录井技术研发中心
②中国石油长城钻探录井公司

作者简介:王重云 高级工程师,1986年生,2013年毕业于东北石油大学控制理论与控制工程专业,硕士学位,现在中国石油长城钻探录井公司从事软件项目管理及开发工作。通信地址:124010 辽宁省盘锦市兴隆台区石油大街77号录井公司。电话:(0427)7806806。E-mail:wcyun.gwdc@cnpc.com.cn

摘要

钻井工程数据对钻探企业具有重要价值,企业数字化转型战略的实施对数据质量提出了更高的要求。但是受系统规划、管理要求和人员操作水平等多重因素影响,钻探企业在石油勘探开发过程中采集的钻井工程数据经常出现数据质量不高、数据多源和时效滞后等问题。针对这些问题,通过总结分析问题的种类和成因,提出了一套适用于钻探企业的数据治理方案,将数据生命周期管理理念与数据治理过程相结合,重点在现场数据采集、数据审核、考核监督和数据共享4个环节上采取了技术和管理措施。在阐述采集端软件升级、网页端审核功能开发以及数据同步和接口服务开发的同时,介绍了钻井工程数据治理工作取得的成效。数据治理方案的实施不仅满足了钻探企业在生产管理上的需要,也为上层分析和预警类应用的建设奠定了基础。

关键词: 数据治理; 数字化转型; 勘探开发; 智能油田; 数据共享; 数据质量
中图分类号:TE132.1 文献标志码:A
Application and exploration of data governance in the drilling enterprises
WANG Zhongyun①,
①Mud Logging Technology Research and Development Center, CNPC, Panjin, Liaoning 124010, China
②GWDC Mud Logging Company, CNPC, Panjin, Liaoning 124010, China
Abstract

Drilling engineering data is of great value to drilling enterprises, and the implementation of digital transformation strategies in enterprises puts higher demands on data quality. However, due to multiple factors such as system planning, management requirements, and personnel operation levels, drilling enterprises often encounter problems such as low data quality, multiple sources of data, and time-lagged data in the process of oil exploration and development. In response to these problems, this paper summarizes and analyzes the types and causes of the problems, proposes a data governance plan suitable for drilling enterprises, combines the concept of data life cycle management with the data governance process, and designs technical and management measures focusing on four aspects: on-site data acquisition, data verification, assessment supervision, and data sharing. It elaborates on the specific implementation content of software upgrades at the acquisition software, development of web-based verification functions, and development of data synchronization and interface services. Meanwhile, it introduces the achievements made in drilling engineering data governance work. The implementation of the data governance plan not only meets the needs of drilling enterprises in production management, but also lays a foundation for the construction of fupper analysis and early warning applications.

Keyword: data governance; digital transformation; exploration and development; intelligent oil field; data sharing; data quality
0 引言

随着物联网、数据中台和人工智能等新兴技术的崛起, 以及各大能源公司数字化转型战略的提出, 数据要素在钻探企业发展过程中所发挥的作用也日益凸显[1]。钻井工程数据是钻探企业在施工过程中掌握的第一手生产数据, 具有及时性高、种类齐全和内容详细的特点。目前, 中国石油长城钻探公司的钻井工程数据主要由现场作业人员在EISS系统(中国石油工程作业智能支持系统)的钻井子系统(现场数据采集客户端)中填报, 子系统的数据通过数据同步软件上传至公司主数据库, 然后可以在EISS系统的网页端查看。作为中国石油工程技术板块最重要的应用系统之一, EISS系统记录了从钻前设计到最终完井的覆盖建井全生命周期的工程数据。在钻探企业内部, 这些数据被广泛应用于勘探设计、生产管理、远程指挥和事故预警等领域, 是重要的信息资源。通过对丰富历史数据的研究和比对, 工程人员可以更容易地分析一个区域的地质结构规律和油气分布特点[2], 从而为钻井和地质设计、钻井施工等提供参考。

1 钻井工程数据存在的问题及原因分析
1.1 当前面临的问题

长期以来, 信息化技术在钻井工程数据采集和展示方面的运用上一直被高度重视, 随着中国石油各级EISC(工程作业智能支持中心)的运行, 以及大数据和工程预警等新技术的开发应用[3], 钻探企业对钻井工程数据的要求也变得更加严格。当前, 钻井工程数据存在的问题主要有以下3个方面。

1.1.1 数据质量问题

数据质量问题一直以来都是跨行业、跨领域、跨区域的共性问题, 也是数据治理工作的重点和难点。数据质量问题的直接体现, 就是数据的不完整、不准确和不规范。以在EISS系统中建井为例, 井名的规范写法是最后面不写“ 井” 字, 中间如果包含“ -” 应使用英文半角状态下的短横线, 英文字母用大写字母等。但实际建立的井名仍然经常出现错误。其他常见的问题还包括在应该用阿拉伯数字的地方用了汉字, 应该填写小数的地方填写整数, 或者小数位数超长, 填写的数值超出合理范围等。数据质量问题常发生在数据录入阶段, 错误的数据被采集后, 会影响系统检索、计算和统计分析功能的使用。

1.1.2 数据多源问题

数据多源问题一般是指相同数据在一个系统的不同位置或者不同系统间的重复录入问题。比如在钻井子系统中, 每天的钻井层位数据在钻井日志、每日钻头使用情况和钻井液日报中都需要填写; 有些专业公司同时使用自建系统, 每天的钻井工程数据要在钻井子系统和自建系统中进行两次填报。另外, 即使是统建系统, 不同系统间的主数据也存在不一致的问题。在多源数据相同的情况下, 问题可能单纯表现为数据重复录入带来的工作负担增加, 而如果多源数据不一致, 数据的权威性会被破坏, 有时甚至难以分辨正确数据, 给日后的数据分析和系统集成工作带来困难。

1.1.3 数据时效问题

钻井公司每天都要利用EISS系统的钻井工程数据生成生产日报和钻井日报供相关业务部门使用。如果这些数据不能在生成日报的时间节点前填写完毕并传回主数据库, 公司的生产运行工作就会受到影响, 而这样的情况时有发生。为了能够及时对这种情况做出弥补, 同时也为了解决在井场断电等情况下日报数据无法录入的问题, EISS系统配备了在网页端填写日报数据的功能。但是这种做法具有一定的局限性, 大量的钻井工程数据仍然无法及时入库。

1.2 问题原因分析

导致钻井工程数据存在问题的原因较多。从历史角度看, 早期的系统在缺乏信息化整体发展规划和统一的勘探开发数据模型的情况下, 往往只专注于自身业务, 缺乏对勘探开发业务关联性、统一性和一致性的考虑[4], 从而形成了一个个“ 数据孤岛” 。从管理角度看, 钻探企业对EISS系统钻井工程数据的考核基本上完全采纳了中油技服的报表考核, 一方面, 报表中包含的参数数量有限, 没有将钻探企业所需的全部数据纳入考核范围; 另一方面, 报表只实现了对数据有无的考核, 而没有对数据的准确性和规范性进行考核。从技术角度看, 钻井子系统的数据录入自由度过高, 软件缺乏对数据填报质量的约束。从录入角度看, 由于现场填报人员(主要是钻井技术员)工作繁忙, 以及数据填报后缺乏对填报人员的反馈, 不乏有填报人员从应付管理的角度去填报数据, 在完成这项工作时只求快不求好, 只求有不求真, 也在一定程度上造成了数据质量的下降。

2 数据治理方案设计

数据治理既是技术问题, 也是管理问题, 需要建立起一套包含组织架构、制度、流程和人员的体系去治理[5], 并将这个体系融于数据生命周期的各个阶段。数据的全生命周期包括了采集、传输、存储、维护、整合、访问、使用、归档和销毁9个阶段。为了尽量实现一次性获取到高质量的钻井工程数据, 减少后期对人工干预的需求, 应该把数据治理的重点放在采集环节上。在维护环节上, 通过完善数据审核机制来进一步提升数据质量。数据整合阶段以削减系统间的数据壁垒为目的, 推进数据共享。最后, 还需要利用监督和考核等行政手段为数据治理工作提供制度保障。

2.1 规范现场数据填报

钻井子系统由中国石油川庆钻探公司基于EPDM(中国石油勘探开发数据模型)开发, 代码分发给集团内部各钻探企业使用。该系统的推广应用促进了钻探企业勘探开发数据标准的统一, 强化了业务标准与数据标准的结合, 提升了上游业务数据管理、应用与共享水平[6]。但是钻井子系统的设计和使用也存在一定的问题, 这些问题与钻井工程数据存在的问题密切相关。一是钻井工程数据采集完全依赖钻井专业, 技术员的负担较重; 二是填报的数据与各钻探企业需要的数据并不完全相符, 需要修改数据模型并对录入项进行增减调整; 三是部分数据来源和统计方法不能满足所有钻探企业的实际工作需要; 四是有些功能操作较为复杂, 导致在现场无法推广使用。

通过与业务主管部门进行多次沟通, 针对数据采集软件设计了一套优化措施。一是推进工程数据采集分专业填报, 按照“ 谁产生、谁录入、谁负责” 的原则明确不同数据表和数据项的归口专业, 推进数据归口管理, 每个专业的数据由本专业负责填报, 减轻钻井专业的负担; 二是由各专业确定本专业需要录入的数据, 根据需求对软件现有的录入功能进行调整; 三是根据管理需求调整软件的数据来源和统计方法; 四是由钻探企业的EISC在网页端维护规范类数据, 如钻头需要维护尺寸、型号、厂家和类型等数据项, 子系统下载数据后在填报时从本地库里选择一条即可带出这些数据项, 替代逐项选择和输入模式; 五是从操作上对软件进行优化, 已录入数据在其他位置使用时要实现自动提取和计算, 尽量让现场的操作更加方便快捷。

2.2 完善数据审核体系

数据审核是提升数据质量的重要保障。只有建立了相对完善的数据审核体系, 才能及时对数据出现的问题进行纠正。为了对原有的人工数据审核方式进行完善, 设计了以自动审核为主、人工审核为辅的双重数据审核机制。一方面, 为工程数据设计质控校核规则, 明确各项数据的类型、长度、数值范围、是否必填等信息, 并依据这些规则对子系统进行升级, 将规则固化在采集软件和审核网页中, 在现场填报数据后执行保存操作时进行检查, 不符合规则的数据表单不允许保存并给出提示, 现场填报人员按照系统提示及时进行补缺、纠错, 初步实现对入库数据质量的管控。但是仅凭技术手段并不能完全保证数据的准确性, 数据的最终审核工作仍然要依靠人工来完成。所以另一方面, 组织各级工程技术、生产管理和科技信息等方面的专业人员建立数据质量治理团队, 推进数据审核流程制度化、操作简单化、结果精准化。通过研究制定数据质量审核规则、完善网页端的数据审核功能等措施, 为人工数据审核过程提供了依据和便利。

2.3 建设数据质量考核机制

无论从管理角度出发还是从使用角度出发, 钻探企业及各专业公司的业务主管部门都应该重视对钻井工程数据质量的监督和管理。从生产实际来看, 在现阶段对各专业采集的数据质量进行考核仍然是必要的措施。一是强化组织领导, 加强对工程数据重要性的宣贯, 提升各专业公司对基础数据质量管理工作的重视程度; 二是根据需要扩大对钻井工程数据的考核范围, 并依据中国石油集团和中油技服数据资源目录及数据模型补充完善长城钻探公司的数据资源目录和在用数据模型; 三是制定考核工作细则, 细化考核工作的流程、范围和标准[7], 重点考核数据的准确性、完整性和时效性; 四是在中油技服考核报表的基础上开发新的报表, 将原来未考核的数据纳入考核范围, 同时便于考核人员实施。

2.4 完善数据同步机制和对外共享

EPDM模型包含的数据较为丰富, 比较容易满足一般生产系统对钻井工程数据的需求。将钻探企业主数据库的数据对外提供共享, 既可以减轻现场人员重复录入的工作量, 也有利于管控数据质量。提供共享服务的常用方式有主动、被动和混合3种。主动方式适合于能够自主管理的数据库之间的同步, 首先建立主数据库模型与各系统数据库模型的映射关系, 然后开发数据同步软件, 将主数据库的数据经过处理或转换后以条件触发的形式推送到其他系统数据库(可能涉及历史数据的迁移); 被动方式主要是开发接口服务, 适合于外部系统或程序来我方获取数据的场合, 通常以井ID和井筒ID为参数提供数据; 混合方式是建立与主数据库结构完全相同的中间数据库, 并利用镜像技术或者其他同步机制保持两个库的数据一致, 将中间库提供给其他系统使用。相较于主动和被动方式, 混合方式在技术上实现的难度更小, 但应注意对数据使用权限的管理。

3 数据治理方案实施要点

数据治理的实施过程会涉及到多个部门和专业公司。只有大家各司其职, 齐心协作, 才能确保数据治理工作的顺利进行。下面重点从数据采集、审核和共享3个方面阐述数据治理方案的实施。

3.1 升级采集端软件初步实现质量管控

3.1.1 钻井子系统拆分为多专业子系统

按照推进钻井工程数据分专业归口管理和填报的设计思路, 经过与业务主管部门和相关专业公司的多次沟通, 确定了软件拆分方案和每个数据表单的归口专业, 将钻井子系统拆分为适合钻井、定向井、钻井液和固井4个专业使用的版本, 形成多专业子系统, 为各专业创建了登录账号并在现场安装时自动写入本地数据库中。各专业登录后自动展开本专业一级菜单, 方便用户进入数据填报状态, 同时自动锁定其他专业表单的数据操作按钮, 即只允许填报本专业数据, 其他专业的数据只能查看, 不能修改。

3.1.2 完善数据模型并调整数据录入项

在明确各专业填报的数据表单基础上, 各专业公司针对本专业要使用的子系统的录入项目提出修改意见, 确定各专业采集的数据项清单和质控校核规则。质控校核规则是涉及到具体逻辑模型的详细描述, 是数据质量约束的具体化[8]。项目组按照意见对原模型予以调整, 增加了不宜缺少的数据项, 依据数据模型的变动对子系统数据库和长城钻探公司主数据库进行了修改, 同时调整了各专业子系统的数据录入项, 详见表1所示。

表1 各专业子系统拆分前后填表表单和调整数据项统计

3.1.3 开发数据审核模块

数据审核模块的功能主要是对各个表单及其数据进行必填性、规范性和完整性3类检查。必填性检查是填报人员在填报表单过程中点击保存按钮时, 子系统检查各公司规定的必填数据项是否均已填写, 如果有未填写的就给出提示, 如图1所示。规范性检查是对表单上的非字典类数据的数据类型、长度和合理性等方面进行检查, 比如一开完钻日期应早于二开开钻日期、结束井深不小于开始井深等。当前编辑的表单只有通过必填性和规范性检查才能够保存数据。完整性检查是检查当前专业的所有表单页是否均已正确填写, 比如钻井日志不应存在日期重复或者日期缺失等。

图1 子系统的必填性检查提示

3.2 在网页端开发数据审核功能

网页端的数据审核功能主要用途有两个, 一是为相关人员的操作提供辅助, 包括数据的审核和补填等; 二是对系统内的数据变化和人员操作进行监控和记录。该功能包含5个模块。

(1)历史数据校验子模块:对数据库中的历史数据定期进行完整性、规范性的核验, 辅助数据治理人员了解历史数据的质量情况。

(2)单日数据质量监控子模块:对当日的生产施工数据进行完整性和时效性核验, 辅助数据审核人员了解当日上传数据的质量情况。网页端数据审核界面如图2所示。

图2 网页端数据审核界面

(3)数据填报子模块:在特殊情况下, 井场无法及时填报或者上传数据时, 允许各专业的基层队或者生产管理人员在网页上填报工程数据。

(4)数据留痕子模块:对数据的流动和变化记录快照信息, 便于日后的追溯和取证。

(5)实时数据质量管理子模块:对实时数据采集、传输和转发等各关键环节进行在线监控, 发现数据流存在故障时可及时报警并通知运维人员。

3.3 开发数据同步软件和接口服务

3.3.1 开发数据同步软件

虽然前面提到EPDM模型提供的数据较容易满足一般生产系统对钻井工程数据的需求, 但是在具体实践中, 由于模型间往往相差较大, 在数据类型和长度不同、主子表关联不同、映射关系不同、数据采集范围和频率不同等诸多因素的影响下, 即使是基于EPDM模型的数据库也往往只能为目标系统提供部分数据。也就是说, 开发数据同步软件面对的首要难题就是梳理源数据库与目标库之间的异构映射关系。在有些情况下, 开发一款可靠的数据同步软件的工作量甚至与迁移目标系统数据源的工作量相当, 并且每个数据同步软件往往只能针对一个系统的数据库, 如果需要以主数据库为多个系统提供数据, 那么相应的开发数据同步软件的过程也需要多次实施。

3.3.2 开发接口服务

在解决数据多源问题上, 积极推进数据共享机制建设, 梳理了EISS系统与各专业公司自建系统之间的关系, 确立了长城钻探公司工程技术核心数据库的主数据库地位。同时考虑到短时间内各专业公司的自建系统难以被取代, 为了减少现场人员重复录入数据, 实现数据共享, 项目组设计了EISS系统与自建系统的数据流向, 如图3所示。

图3 EISS系统与自建系统的数据流向

为此, 建立了长城钻探井筒数据中心, 对接中油技服EISC系统, 实现了长城钻探公司井资源数据的统一管理, 确保了井资源数据在集团范围内的一致性与互通性。井筒数据中心对外通过WebAPI接口提供数据共享服务, 供取得授权的第三方系统使用。此服务可以让各专业公司自建信息系统及时获取权威的生产数据, 规避此前存在的专业数据口径不统一的问题, 更好地实现专业数据的一次录入, 多方共享。

对于没有在自建系统中采集钻井工程数据的单位, 现场可使用多专业子系统作为数据采集端, 数据上传到主数据库后通过井筒数据中心对外共享。对于采集了钻井工程数据的自建系统, 提供了自采数据进入EISC系统的接口规范, 由各单位按照规范开发接口服务, 多专业子系统从接口服务下载数据, 经现场操作人员确认后再上传到主数据库。这样既保证了进入EISS系统数据的质量, 又避免了现场人员的重复填报。

4 数据治理取得的成效

数据治理行动开展以来, 截止到目前已累计形成各种质控校核规则375条, 升级后的多专业子系统应用于290口井, 软件操作的便利性和稳定性稳步提升。钻井专业的现场数据填报量大幅下降, 平均每天节省填报时间15 min, 有效减轻了基层钻井队的负担。固井、定向井和钻井液专业的数据采集也满足了自身的需求。最近一个月, 钻井工程数据的完整性相较去年同期平均提升了11%, 准确性提升了5%, 在助力长城钻探公司提升管理水平、促进信息化建设、开展工程作业远程智能支持决策工作等方面发挥了重要的作用。数据治理行动的成果得到了管理部门、各专业公司和有关用户的认可。

5 结束语

数据治理是实现钻井工程数据科学管理、钻探企业科学决策、系统提升价值的重要手段, 也是一个长期而复杂的系统性工程, 需要科学谋划, 统筹兼顾。钻井工程数据治理方案的实施, 基本实现了钻探企业的预期目标, 不仅满足了钻探企业对钻井工程数据管理方面的需要, 也为系统上层分析和预警类应用的开发奠定了坚实的基础。同时, 对企业下一步的数据湖项目建设和其他业务数据的治理也将发挥重要的借鉴作用。

编辑 卜丽媛

参考文献
[1] 李宏波, 罗平亚, 白杨, . 机器学习算法概述及其在钻井工程中的应用[J]. 新疆石油天然气, 2022, 18(1): 1-13.
LI Hongbo, LUO Pingya, BAI Yang, et al. Summary for machine learning algorithms and their applications in drilling engineering[J]. Xinjiang oil & Gas, 2022, 18(1): 1-13. [本文引用:1]
[2] 张敏. 大数据时代背景下的勘探开发专业数据治理[J]. 中国管理信息化, 2021, 24(12): 189-190.
ZHANG Min. Professional data governance for exploration and development in the era of big data[J]. China Management Informationization, 2021, 24(12): 189-190. [本文引用:1]
[3] 钟尹明, 柯迪丽娅·帕力哈提, 白佳帅, . 基于GRU神经网络的PDC钻头磨损实时监测模型[J]. 新疆石油天然气, 2024, 20(2): 21-28.
ZHONG Yinming, KEDILIYA Palihati, BAI Jiashuai, et al. Real-time monitoring model of PDC bit wear based on GRU neural network[J]. Xinjiang Oil & Gas, 2024, 20(2): 21-28. [本文引用:1]
[4] 陈付平, 史浩, 马涛, . 石油勘探开发主数据模型的研究与设计[J]. 中国管理信息化, 2015, 18(19): 65-68.
CHEN Fuping, SHI Hao, MA Tao, et al. Research and design of master data model for petroleum exploration and development[J]. China Management Informationization, 2015, 18(19): 65-68. [本文引用:1]
[5] 雷克, 王伟, 任胜利, . 数据治理在石油企业中的应用实践[J]. 石化技术, 2021, 28(6): 180-182.
LEI ke, WANG Wei, REN Shengli, et al. Application practice of data governance in petroleum enterprises[J]. Petrochemical Industry Technology, 2021, 28(6): 180-182. [本文引用:1]
[6] 马涛, 黄文俊, 刘景义, . 石油勘探开发数据模型标准研究及进展[J]. 信息技术与标准化, 2015(12): 69-73.
MA Tao, HUANG Wenjun, LIU Jingyi, et al. Research and development of data model stand ard for petroleum exploration and production[J]. Information Technology and Stand ardization, 2015(12): 69-73. [本文引用:1]
[7] 蔡珊珊, 王红柳, 周永刚, . 基于日清日结的数据治理[J]. 河北冶金, 2023(增刊1): 84-88.
CAI Shanshan, WANG Hongliu, ZHOU Yonggang, et al. Data governance based on overall every control and dear[J]. Hebei Metallurgy, 2023(S1): 84-88. [本文引用:1]
[8] 周冰冰, 王国瓦, 陈慧, . 塔里木油田录井历史数据治理技术[J]. 价值工程, 2023, 42(33): 150-152.
ZHOU Bingbing, WANG Guowa, CHEN Hui, et al. Historical data management technology of well logging in Tarim Oilfield[J]. Value Engineering, 2023, 42(33): 150-152. [本文引用:1]