一、探索性回归
在已经搜集到的解释变量中,不是所有的解释变量都是对被解释变量相关的,或者说找到一个比较正确的OLS模型是非常困难的,需要对解释变量进行一些最优化组合。探索性回归分析就是尝试解释变量的所有可能组合,以找到可以通过所有必要的OLS诊断。
【注】:探索性回归与逐步回归类似,但不是找到具有最高 $R^2$
,而是找到满足OLS所有假设和要求的模型。
探索性回归工具,可指定参数有:解释变量的最大和最小数量
、校正$R^2$
、系数P值
、方差膨胀因子(VIF)
、Jarque-Bera P值
(评价模型偏差,指示残差是否服从正态分布)和空间自相关P值(检验残差是否随机分布/空间聚集)的阈值条件。
满足的条件:
- OLS模型条件
- 大于指定的校正
$R^2$
阈值;- 对于所有纳入模型的解释变量,系数
P值
小于指定的阈值;- 对于所有纳入模型的解释变量,系数
VIF值
小于指定的阈值(经验阈值7.5);- 返回的
Jarque-Bera P值
大于指定的值。- 对模型残差运用空间自相关工具(
Global Moran's I
),计算得到的P值与指定的P值进行比较,如果小于指定的P值,则模型视为合格模型。
【附】:探索性回归分析工具还会对具有三个最高校正$R^2$
结果的模型使用空间自相关工具,进行回归残差检验。
正确OLS模型应该满足以下条件:
- 解释变量的所有变量系数都具有统计显著性;
- 变量系数都能够反映对应解释变量与因变量之间的预期关系或与因变量之间的合理关系;
- 解释变量从VIF小于7.5的变量中获得;
- Jarque-Bera P值不具有统计显著性,即残差不存在正态分布;
- 空间自相关P值不具有统计显著性,即残差在空间上是随机分布的偏高/低预测值。
【争议内容】
- 科学方法:应该先建立正式的假设,然后才能对数据进行探索。若仅对训练数据集的拟合,会导致无法对其它数据集的预测或拟合,表现在过拟合的模型不稳定或解释变量系数显著性变小,P值变大。
- 数据挖掘:无法先验知晓有助于任何给定真实结果的所有因素。
- 针对上述争议内容,最好就是将所有数据分成训练集和验证集。
二、OLS
$ Y = \beta X + \mu $
ArcGIS OLS工具
误差零假设:
- 零条件均值 $E(\mu) = 0$
- 同方差性(对不同的自变量集合,随机误差项都有相同的方差,检验参数的估计值是不是有效的)
- 正态性
P 值
大多数回归都会进行统计检验以针对每个自变量的关联系数计算出一个称为P的概率值,表示的是零假设成立的概率值。
零假设:关联系数与零无显著差异,即关联系数为 0;
P值越小,表明关联系数与零无显著差异的概率越小,即关联系数极小可能为0。$R^2 / adjuested R^2$
用于量化模型的性能。计算公式如下:
$R^2 = SSR / SST$
其中 SSR为回归平方和,SST为总偏差平方和,$SST = SSR = SSE$,SSE为残差平方和。
解释:值越大,残差平方和就越小,表示总偏差平方和中可以由回归平方和解释的比例越大,回归效果就越显著。
局限性:当向模型中增加变量后,$R^2$会变大,但增加的解释变量不一定具有统计学意义,故出现了校正系数 $adjusted R^2$,所以解释变量增多,校正决定系数不一定会增大。
注:决定系数的大小还与自变量的取值范围有关,即使$R^2$很大,模型的外推效果不一定很好,应该同时还关注均方误差MSE
。
空间数据回归常见问题
- 遗漏解释变量
后果:其系数和对应的P值不可信
解决:检查OLS残差和GWR系数 或者 OLS残差进行热点分析 - 非线性关系(OLS/GWR均为线性方法)
后果:线性回归模型不佳
解决:创建散点图矩阵(Scatter Plot Matrix)来了解所有变量之间的相关关系;另外可以通过变量变换来修复曲线(偏态分布->正态分布);或者用非线性方法 - 数据异常值(建模之前完成)
后果:回归关系背离最佳拟合,从而使回归系数发生偏差
解决:创建散点图矩阵、直方图或箱线图来寻找异常点。若异常值不符合实际则直接删除,否则对有无异常值分别进行建模讨论。 不稳定性(空间非平稳性/异质性)
后果:因变量与解释变量在研究区内表现出不一致的关系
解决:ArcGIS中的OLS工具可以自动检测非平稳性问题并计算稳健标准误差,可尝试用GWR进行分析。
附:Koenker(BP)评估空间非平稳性- 用于评估模型因变量与解释变量在空间上是否表现出一致的关系;
- 如果模型在空间中表现一致,则由解释变量表示的空间进程在各个区域位置也是一直的,且预测值与每个解释变量之间关系的变化不会随着解释变量值的变化而变化(误差同方差);
- 实例,在犯罪预测中,收入作为一个解释变量,可能对收入中位数以下的预测比对中位数以上的预测更为准确,即出现了异方差性。
- Koenker显著性检验表面统计量是显著的,则需要稳健系数标准差和稳健概率来评估解释变量的效果。
多重共线性
后果:导致模型不稳定;
解决:OLS工具会给出方差膨胀因子(VIF与7.5),剔除VIF较大的解释变量,或者创建交互变量,或者增加采样大小。- 残差的方差不一致性
后果:在某些变量范围内,不能很好的预测因变量的值,结果会出现交大的偏差;
解决:根据Koenker检验,参考稳健概率来确定解释变量是否具有统计显著性。 - 正态分布偏差
后果:残差不服从均值为0的正态分布,关联系数的P值将变得不可靠;
解决:当Jarque-Bera统计量显著时,很可能是因为错误指定了模型(缺少关键变量)或模型的关系应为非线性关系。 - 空间自相关残差
后果:当模型的偏高/低估计值存在空间聚类时,会导致模型的不可靠;
解决:对残差进行空间自相关检验,若出现空间聚类的统计显著性,则是因为指定错误导致的,缺失关键变量。
三、GWR
工作原理
GWR是对每一个空间要素构建一个独立方程,将落在目标要素带宽内的要素因变量与解释变量合并作为目标要素的训练样本集;将目标要素的空间位置到其他各临近点的空间距离作为权,并嵌入到回归参数中,利用局部最小二乘法逐点参数估计。
【带宽】:取决于核类型、带宽方法、距离以及相邻点数。
注:若相邻超过1000个样本点,则只取最邻近的1000个;而硬性要求是100个要素样本集,以获得较好结果。
核心
空间权重矩阵(Spatial Weight matrix),通过不同的空间权函数来得到。
- 距离阈值法
选取合适的阈值D,在阈值范围内的为局部样本数据集,该方法较为直接;- 距离反比法
- $W{ij} = 1 / {d{ij}^\alpha$
- 该方法不宜直接使用,当回归点本身也为采样点时,易造成$W_ij$无穷大;
- Gauss函数(连续单调减函数)
- $W{ij} = exp(-(s{ij} / b)^2)$
- b 为权重与距离之间函数关系的非负数衰减参数,带宽。权重会随着距离的增加而衰减,且衰减的越慢;
- 更加普适,克服了前两种的不足;
- 截尾型函数法
常用bi-square函数
权函数带宽优化
GWR对带宽b较为敏感,带宽过大回归参数估计的偏差过大,过小又会导致估计的方差过大。
1 交叉验证(CV)
- $CV = 1/n*\sum_{i=1}^n[y_i - \hat y_{!=i}(b)]^2$ (不包括目标要素本身) - 带宽b 与 CV值可绘制一条曲线,就可直观找到CV值最小的最优带宽b;
2 AIC准则
- AICc:用于比较不同的回归模型,具有较低AICc值的模型将更好的拟合观测数据,但其不是拟合度的绝对度量,较适合于同一因变量且具有不同解释变量的模型比较有用。 - $AIC= 2n\ln(\hat\sigma) + n\ln(2\pi) + n[(n+tr(s))/(n-2-tr(s))]$ - $\hat\sigma$是随机误差项的方差极大似然估计值,$\hat\sigma = RSS/n+tr(s)$ - 原则:使AIC最小的权函数对应的带宽b。
局部共线性
对GWR局部方程,用于方程的解释变量会在空间上存在聚类,会导致在局部出现多重共线性。
当选取Bandwidth method为AICc或CV时,GWR将查找最佳距离(FIXED核类型)胡最佳相邻点数(ADAPTIVE核类型),若存在局部多重共线性,将阻止AICc和CV解析最佳距离或最佳相邻点数。
解决:若出现模型错误,则指定距离或相邻点书目,然后检查要素类中的条件数(>30;”Null”;极小值)查看哪些要素与共线性关联(可移除)。或者可以通过对各解释变量做空间聚类,在空间上出现相同值的位置对应的变量移除掉或将其与其它解释变量合并以便加大值的变化性。