经管实证
发布于

一文读懂对数据取对数的十余种情形

为避免伪回归,消除异方差,在不改变时间序列的性质及相关性的前提下,为获得平稳数据,通常会对时间序列取自然对数。对数据进行平稳性检验是研究中不可或缺的步骤,因为时间序列分析法只适用于平稳的数据。

一、取对数情形?

第一,关于对数的问题,若是自己选取的变量数据,里面有部分小于0,或者负数,需要重新考量下,看是否数据或者其他问题,此时肯定是没法取对数;

第二,针对CD 等生产函数等类型的数据分析,由于建模需要,一般需要取对数,此类情况一般会在柯布道格拉斯函数基础上,引入新的变量,包括但不局限于资本和劳动等变量;

第三,平时在一些数据处理中,经常会把原始数据取对数后进一步处理。之所以这样做是基于对数函数在其定义域内是单调增函数,取对数后不会改变数据的相对关系

第四,取对数作用主要有:缩小数据的绝对数值,方便计算。例如,每个数据项的值都很大,许多这样的值进行计算可能对超过常用数据类型的取值范围,这时取对数,就把数值缩小了,例如TF-IDF计算时,由于在大规模语料库中,很多词的频率是非常大的数字。取对数后,可以将乘法计算转换称加法计算。某些情况下,在数据的整个值域中的在不同区间的差异带来的影响不同。也就是说,对数值小的部分差异的敏感程度比数值大的部分的差异敏感程度更高。这取对数之后不会改变数据的性质和相关关系,但压缩了变量的尺度,数据更加平稳,也消弱了模型的共线性、异方差性等。例如在会计或者金融等变量的实证研究中,引入变量资产规模等变量,一般会取对数,因为不同行业或者国有、民营等公司的资产规模差距很大,取对数,会缩小差距,使得实证研究更具有针对性。

二、五种情况

另外,山大大学陈强老师往年在计量经济学及stata应用公众号中汇总出如下五种情况:

第一,如果理论模型中的变量为对数形式,则应取对数。比如,在劳动经济学中研究教育投资回报率的决定因素,通常以工资对数为被解释变量,因为这是从Mincer模型推导出来的。

第二,如果变量有指数增长趋势(exponential growth),比如 GDP,则一般取对数,使得 lnGDP 变为线性增长趋势(linear growth)。

第三,如果取对数可改进回归模型的拟合优度(比如 R2 或显著性),可考虑取对数。

第四,如果希望将回归系数解释为弹性或半弹性(即百分比变化),可将变量取对数。

第五,如果无法确定是否该取对数,可对两种情形都进行估计,作为稳健性检验(robustnesscheck)。若二者的回归结果类似,则说明结果是稳健的。

在经济学中,常取自然对数再做回归,这时回归方程为 lnY=a lnX+b ,两边同对X求导,1/Y*(DY/DX)=a1/X,b=(DY/DX)(X/Y)=(DYX)/(DXY)=(DY/Y)/(DX/X) 这正好是弹性的定义。

告诉你如何取对数quick\ generate series\ 输入新变量,比如 r=log( ),r就是取完对数后的序列。

三、对数模型优点

对数线性模型的优点:

1、对数线性模型的系数度量了一个变量(Y)对另一个变量(X)的弹性

2、斜率系数与变量X、Y的测量单位无关,其结果与X、Y的测量单位也无关

3、取对数后会缩小变量的取值范围,使得估计值对被解释变量或解释变量不会很敏感;

4、对于大于0的变量,其条件分布通常具有异方差和偏态性,因为取对数可以减弱这两方面的问题

四、对数模型经验法则

对数线性模型的经验法则

1、使用对数时,变量不能取0或者负值;2,对于大于0的数值变量,通常均可以取对数,例如需求量、价格、工资;3、以年度量的单位,通常以原有形式出现,例如年龄、工资、教育年数等;4、以比例或者百分比度量的变量,通常也可以取对数。

五、宏观经济变量取对数情形

通常建立计量经济模型,对宏观经济变量都是采用取对数的方式进行分析有4点好处。

第一,可以消除原宏观经济变量可能存在的递増型异方差;

第二,若原经济变量之间是指数函数关系,那么,取对数后,可以把原指数关系转化为线性关系进行研究,模型变简单了;

第三,对数变量下得到的回归系数的经济含义是弹性系数。

第四,一旦对经济变量需要取差分进行研究,那么对数变量差分的实际含义是近似增长率。

最后做一个总结:

取对数的原因是
(1) 时间序列和面板数据, 都要做平稳的单位根检验, 取对数一般能使序列平稳(stationary), 不然就取差分进行平稳.
(2) 能使模型的残差呈现随机的特性, 而不是趋势或者截距.
(3) 减少共线性和异方差(heteroscedasticity)出现的概率
(4) 有经济学意义上, 比如增长率, 变化率和弹性.
(5) 统计学认为变量具有内在的指数增长的趋势, 取对数可以让联合分布 (对应的F-statistics)呈现正态, level形式的数据, 特别是时间序列, 最好做Lavene检验
(6) Log-linearization 取对数方便最小二乘的线性拟合, 乘积运算用对数就变成了求和.
(7)研究的自变量数量级不一致时,取对数可消除这种数量级相差很大的情况。
一般当研究自变量和应变量的弹性关系的时候,需要取对数,得到的参数解释的是,在其他条件不变的前提下,当自变量变化1%时,因变量(若也取了对数)变化a%。另外,在作线性回归分析的时候,如果变量不满足正态分布,但取了对数以后满足或接近正态分布,则可以取对数以后作回归。
如果取对数的话,变量都要同时取

浏览 (1622)
点赞 (2)
收藏
删除
评论