作者简介:李阳 1988年生,博士,2022年毕业于西南石油大学地质资源与地质工程专业,现为中国石油辽河油田分公司勘探开发研究院在站博士后,主要从事石油地质、数据挖掘等研究工作。通信地址:124010 辽宁省盘锦市兴隆台区石油大街95号中国石油辽河油田分公司勘探开发研究院。电话:17741949988。E-mail:7891235@qq.com
地化录井受工程、地质条件及人为因素的影响,往往造成岩石样品从井底到地表的烃类损失,不能很好地反映地下储层的真实含油气信息,因此需要一种合理准确的方法进行烃类损失恢复。针对渤海海域不同地区不同层位的岩屑值(自变量)与壁心值(因变量)之间的关系,基于最小二乘法、梯度下降法及其衍生算法,以多元线性回归和非线性回归两种方式来拟合研究区井壁取心数据。多元线性回归模型可使用标准方程法、岭回归、LASSO(Least Absolute Shrinkage and Selection Operator)及弹性网进行回归拟合,非线性回归模型可使用梯度下降法和分段函数的拟合方法。对不同回归分析方法进行分析对比可知,岭回归在计算线性关系的烃类损失方面具有较好的效果,决定系数 r2均超过0.7;基于岭回归分段函数拟合和非线性回归模型 y= x/( b+ kx)适合非线性烃类损失恢复。与传统的烃类损失恢复方法相比,使用量化的方式对研究区烃类进行恢复,更加科学全面,具有广泛的应用前景。
Geochemical logging is often affected by engineering, geological conditions, and human factors, resulting in hydrocarbon losses of rock samples from the bottom of the well to the surface. It fails to reflect the real oil and gas content information of underground reservoirs well, and a reasonable and accurate method is needed to restore hydrocarbon losses. In view of the relationship between cuttings values(independent variables) and wall core values (dependent variables) at different horizons in different areas of the Bohai Sea, based on least square method, gradient descent method and its derivative algorithm, the paper fits the data of sidewall coring in the study area using two methods: multiple linear regression and non-linear regression. The model of multiple linear regression can be fitted by regression using normal equation, ridge regression, LASSO (Least Absolute Shrinkage and Selection Operator) and elastic net. The non-linear regression model can use the gradient descent method and the piecewise function fitting method. The analysis and comparison of different regression analysis methods show that ridge regression has good results in calculating the hydrocarbon losses of linear relationship, with the determination coefficient r2 exceeding 0.7. Piecewise function fitting based on ridge regression and nonlinear regression model y= x/( b+ kx) are suitable for non-linear hydrocarbon loss restoration. Compared with the traditional method of hydrocarbon loss restoration, using the quantitative method to restore hydrocarbons in the study area is more scientific and comprehensive, and has a broad prospect of application.
回归分析源于19世纪初的天文学, 其最早形式是最小二乘法, 而后20世纪50年代, 计算机技术促进了回归分析相关算法和软件的发展, 进而使得回归分析开始向多元回归、非线性回归和广义线性模型等方向扩展, 以满足解决更多实际问题的需求。21世纪以来, 随着大数据和机器学习的发展, 回归分析仍然保持着重要地位, 并在各领域继续发挥着重要作用。近些年, 各学者使用回归分析方法在油气勘探中取得了丰富的研究成果, 纵观回归分析在油气勘探中的应用, 主要体现在两个方面:(1)储层物性计算及优质储层预测, 其中多数学者选用矿物含量或测井数据(如声波时差、密度、中子、自然伽马等)使用多元线性回归模型来对储层的孔隙度和渗透率进行预测[1, 2, 3, 4, 5, 6], 也有学者使用多元逐步回归、偏最小二乘回归来对多种地震属性进行分析, 从而达到砂体厚度与优质储层预测的目的[7, 8, 9, 10, 11, 12]; (2)原始有机碳恢复, 利用测井数据、烃源岩地球化学特征(不溶残碳、有机质类型及成熟度)以及元素地球化学等数据使用多元线性回归模型可以很好地解决原始有机碳恢复问题, 与改进的Δ logR和CARBOLOG等方法相比, 多元线性回归方法计算效果更加有效[13, 14, 15, 16, 17, 18]。
地球化学录井作为一种现场快速定量分析技术, 在发现油气显示、评价油气水层等方面发挥了重要作用。岩屑是地球化学录井中最方便、廉价的分析对象, 但岩屑在从井底返回井口的过程容易受钻井液冲刷、温度与压力变化等因素影响, 造成大量的烃类损失; 井壁取心和岩心的烃损量较小, 接近地层原始烃类含量, 缺点是这两种取样方式成本较高。基于回归分析方法可以建立烃类损失恢复方法, 来更准确地描述地层的原始烃类含量。综合渤海海域二级构造带中不同层位岩屑值(自变量)与壁心值(因变量)之间的关系, 岩屑与壁心呈线性关系时采用最小二乘法以及有偏回归算法(岭回归、LASSO及弹性网), 使用多元线性回归对研究区的烃类损失进行多元线性拟合; 岩屑与壁心呈非线性关系时, 使用梯度下降法和基于岭回归的分段函数拟合这两种方法实现烃类损失恢复。研究成果综合考虑自变量与因变量的关系, 针对线性关系和非线性关系选择不同的回归模型来构建岩屑与壁心之间的近似解析式, 以达到烃类损失恢复的目的。
渤海海域地理位置位于渤海湾盆地中东部, 在大地构造位置上, 渤海地区位于华北新生代裂谷盆地, 东邻胶辽断隆区, 西为黄骅坳陷的延伸, 北与下辽河坳陷相连, 南与济阳坳陷相接, 是渤海湾盆地的重要组成部分, 面积约为4.2× 104 km2。渤海海域与陆地部分相比, 其主要地质特点是新生代地层发育, 喜山运动使地壳抬升并遭受剥蚀夷平, 渤海结束了以古近纪湖相沉积为主的历史, 开始了以河流相为主的发展过程。断裂构造主活动期晚, 有很多断裂至今仍在活动, 渤海海域包括济阳、黄骅、渤中、辽东湾坳陷和埕宁隆起5个一级构造单元, 包括由13个凸起、4个低凸起、18个凹陷构成的35个二级构造单元, 研究选取辽中凹陷、辽西低凸起、渤中凹陷、黄河口凹陷、莱北低凸起以及庙西北凸起6个重点二级构造单元的沙河街组、东营组、馆陶组和明化镇组来进行烃类损失恢复研究。
2.1.1 线性回归模型建立
标准方程法是一种简单而有效的求解线性回归问题最优解的方法, 它基于最小二乘法来求取全局最优解, 为解决小样本特征参数比样本点多而导致矩阵XTX(其中X为自变量样本矩阵)不可逆以及各个特征参数多重共线的问题。在标准方程法代价函数的基础上加入正则项, 进而得到岭回归、LASSO以及弹性网回归3种有偏估计回归模型。
受岩心热解资料相对较少的限制, 在此仅作岩屑热解参数向井壁取心热解参数的回归, 即将岩屑热解参数恢复到井壁取心热解参数。
通过整理渤海海域多个二级构造带(包括辽中凹陷、辽西低凸起、渤中凹陷、黄河口凹陷、莱北低凸起以及庙西北凸起)中102口井的岩屑与井壁取心热解参数的裂解烃S2数据, 观察岩屑与壁心的相同热解参数构成的散点图发现, 渤海海域内辽东湾坳陷(包含各个次级构造)、渤中凹陷、黄河口凹陷及莱州湾凹陷沙河街组至馆陶组中, 尤其是中质油(原油密度介于0.87~0.92 g/cm3)地层, 其多数岩屑值与壁心值呈线性变化的关系。
选取研究区中10组烃类数据, 分别是岩屑热解中的S1、S2及含油气总量(Pg)、油产率指数(OPI)、油气总产量指数(TPI), 来拟合研究井壁取心热解参数中的裂解烃S2。针对这些线性关系, 分别使用标准方程法、岭回归、LASSO以及弹性网, 选用不同数量自变量建立烃类损失恢复线性回归模型(表1), 对这10组数据进行分析实验。
![]() | 表1 烃类损失恢复线性回归模型 |
从10组数据使用不同方法分析得到的相关系数折线图中可以发现, 使用多个岩屑自变量的拟合效果均好于一元线性回归(图1); 标准方程法中相关系数随自变量数量的增加而增大, 原因在于当特征参数增加时容易发生过度拟合, 尤其是在小样本集中(如莱北低凸起东营组中质油的数据点仅有31个)。此外, 其他3种有偏估计回归法拟合的相关系数在使用两个自变量后变化不大, 尤其是LASSO与弹性网, 四元回归与五元回归相关系数不再变化, 说明这两种回归方法在很大程度上解决了多重共线的问题, 因为Pg、OPI与TPI均是由S0、S1及S2计算得到(其中S0一般可忽略不计)。
相关系数r计算公式如下:
式中:
2.1.2 多元线性回归模型评估
在以上分析基础上, 选用M 2-M 5多元线性回归模型, 将每组数据集按照7∶ 3的比例划分为训练集和测试集, 使用标准方程法、岭回归、LASSO及弹性网4种回归方法对10组数据以交叉验证的方式进行分析拟合, 使用均方根误差(RMSE)以及决定系数(R2)来对模型的拟合性能进行评估, 均方根误差越小, 决定系数越大, 拟合效果越好, 最终选取适合研究区的拟合模型。
从图2中可以发现, 在进行二元线性拟合时, 4种回归方法决定系数差异不大, 但LASSO和弹性网均方根误差的上四分位数较大, 说明LASSO和弹性网整体误差偏大, 回归效果差于标准方程法和岭回归; 在使用更多参数进行拟合时, 岭回归在均方根误差及决定系数上均优于其他3种回归方法, 标准方程法由于发生过度拟合导致其拟合效果变差, 而LASSO和弹性网是将OPI和TPI此类的多重共线参数直接忽略掉, 导致其3次拟合效果变化不大。M 4模型与M 5模型, 岭回归拟合效果较为相近, 但M 4模型的均方根误差以及决定系数整体上优于M 5模型, 因此, 笔者选用岭回归法的M 4模型对研究区10组数据进行拟合。从图3、表2中可以发现, 10组数据的实测值与预测值相关性较好, 决定系数均大于0.7, 同时具有较小的均方根误差, 使用岭回归方法计算得到的预测值与井壁取心的实测值匹配效果较好。
![]() | 表2 应用岭回归法M 4模型拟合效果一览表 |
式中:Yi为Y的真实值;
研究区部分层位及油质的岩屑与壁心的热解参数值呈现非线性的变化规律, 具体表现为壁心值开始上升速度快, 然后变慢, 这主要是因为在此类样品中部分储层的砂岩以泥质胶结为主, 疏松易碎, 容易发生烃类散失。非线性回归与线性回归相比更为复杂, 为此, 笔者选用梯度下降法和基于岭回归的分段函数拟合法来解决非线性的烃类损失校正。
2.2.1 梯度下降法
梯度下降法通过初始化回归系数并对系数进行调整, 可以计算代价函数的极小值或最小值, 进而确定最优回归系数。在使用梯度下降法对研究区非线性变化的烃类进行烃类损失校正时, 首先需要选取合适的函数模型, 经研究发现, y=x/(b+kx)与y=b(1-e-kx)这两种函数模型和岩屑与壁心的热解参数值的变化规律较为相符。使用梯度下降法寻找函数模型中合适的b、k参数值, 来使总误差达到最小, 设置初始值(0.01, 0.2), 学习率为0.1, 不断更新(b, k)的数值, 直至总误差最小。
从庙西北凸起明化镇组重质油和渤中凹陷明化镇组重质油的曲线拟合效果来看, 两种函数模型的拟合效果比较接近(图4); 但从表3的RMSE和R2两项评价指标来看, 函数模型y=x/(b+kx)的拟合效果要优于函数模型y=b(1-e-kx)。同时, 通过对比两种模型的迭代次数可以发现, 函数模型y=x/(b+kx)比函数模型y=b(1-e-kx)更容易收敛达到模型的极小值。因此, 在使用梯度下降法对研究区进行非线性烃类损失校正时, 选用函数模型y=x/(b+kx), 更加准确合理。
![]() | 表3 基于梯度下降法的非线性回归模型烃损恢复拟合效果 |
使用梯度下降法对研究区呈非线性关系的烃类损失恢复时, 需要选取合适的非线性函数模型, 且不同模型的回归效果也千差万别, 能找到一个较为合适的函数模型较为困难。
2.2.2 基于岭回归的分段函数拟合法
分段函数拟合法的基本思想是将非线性拟合变成线性拟合, 同时上文已述, 在使用岭回归进行多元线性回归时具有较好的拟合效果, 因此笔者选用了一种基于岭回归的分段函数拟合方法, 来对研究区的非线性烃类损失进行恢复校正。将分段函数分成N个区间, 保证每个区间的样本数相同, 为n个, 或者前N-1个区间样本数为n个, 最后一个区间样本数大于n个(此时为样本集个数未整除n), 确定分段函数每个区间后, 使用岭回归的方法对每个区间的样本点进行多元线性拟合, 并且选取合适的样本数n, 使得回归模型具有较小的RMSE。
本文利用基于岭回归的分段函数拟合方法, 对研究区渤中凹陷明化镇组重质油和庙西北凸起明化镇组重质油的烃类损失进行了校正(前者每个区间13个数据点, 后者每个区间8个数据点), 不难发现, 此种方法拟合效果优于梯度下降法, 使得研究区两个区域的烃类损失校正具有更小的RMSE和更大的R2(图5、表4); 而且, 与梯度下降法相比, 使用基于岭回归的分段函数拟合方法不用再寻找合适的非线性函数模型。
![]() | 表4 基于岭回归分段拟合效果一览表 |
(1)在油气勘探的多数领域中回归分析被广泛应用, 根据自变量与因变量之间的关系(线性或非线性), 选取合适的回归分析模型, 可提升研究成果的准确性, 做好自变量和因变量两种类型数据之间对应关系是建立回归模型数据准确性的基础。
(2)中质油的岩屑与壁心烃类损失多呈线性相关关系, 采用标准方程法、岭回归、LASSO及弹性网回归分析方法进行对比分析, 拟合效果均优于一元线性回归模型, 最后确定M 4模型为最佳拟合模型, 使用岭回归对研究区的烃类损失进行了恢复校正。
(3)重质油的岩屑与壁心烃类损失一般呈非线性相关关系, 选用梯度下降法和基于岭回归的分段函数拟合法进行非线性烃类损失恢复, 函数模型y=x/(b+kx)比y=b(1-e-kx)更符合研究区内岩屑与壁心的变化规律; 与梯度下降法相比, 基于岭回归的分段函数拟合法在进行非线性烃类损失校正中具有更好的拟合效果。
编辑 陈娟
[1] |
|
[2] |
|
[3] |
|
[4] |
|
[5] |
|
[6] |
|
[7] |
|
[8] |
|
[9] |
|
[10] |
|
[11] |
|
[12] |
|
[13] |
|
[14] |
|
[15] |
|
[16] |
|
[17] |
|
[18] |
|