时间:2023-08-30 09:16:30
序论:速发表网结合其深厚的文秘经验,特别为您筛选了11篇数据分析方向范文。如果您需要更多原创资料,欢迎随时与我们的客服老师联系,希望您能从中汲取灵感和知识!
入藏比例与流通比例的分析比对
取自科与社科的入藏比例和流通比例的差值Z,以数值0为分界点,分为正负两个区间,如果Z值落在同区间内,则表示馆藏图书与读者需求在整体上保持一致,反之,若Z值落在不同的区间,则表示馆藏图书与读者需求存在矛盾。计算公式Z=X-YX:入藏比例Y:流通比例如图1所示,图书馆5年内的Z值均分布于两个不同的区间,从而说明,入藏的图书与读者的需求存在出入,没有达到一致。那么,为了使图书更好的被利用,是应该继续按照图书馆原有的采购比例继续采购,还是要改变采购方向迎合读者的需求,就要进一步的了解利用率较高的几大类图书。
文献的利用率衰减对文献采购的影响
1图书利用率的分类排名
通过统计,借阅率排名前10位的有文学(I)、哲学(B)、艺术(J)、语言、文字(H)、社科总论(C)、历史、地理(K)、经济(F)、工业技术(T)、政治法律(D)、数理科学和化学(O)。以2008年入藏的中文图书作为统计对象,以2008年—2012年5年作为5个借阅时间段,前10位的借阅率统计结果如表3。表3的统计结果清晰表明,在每年的借阅率排名前10类中,社科类占到了80%,而自科类只占到了20%,社科类中文学(I)的借阅率更是高居榜首,文学类图书受到读者的欢迎,在其他各个高校中的借阅率排名亦是居高不下。社科类更是占据了借阅率排行的前6位。自科类排名中T大类遥遥领先,这是由于工业技术本身就涵盖了TB、TD、TM等众多类别,受众面较为广泛,但与社科类的图书利用率进行比较,自科类的图书利用率还是有一定的差距。一个图书情报机构是为某一个或几个专业研究、教育培训服务,还是为一般参考咨询或娱乐欣赏服务,这是设计藏书结构的基本出发点和目标[2]。西安理工大学属于理工院校,以工为主亦应该在图书馆馆藏结构中得以体现。
2文献利用率的衰减分析
中图分类号:TP 311.3 文献标志码:A 文章编号:1672-8513(2011)03-0182-03
The Application of Correlation Analysis Algorithms in the Data Invites Chien
ZHANG Hanyun,DUAN Peng
(School of Mathematics and Computer Science,Yunnan University of Nationalities,Kunming 650031,China)
Abstract: The data warehouse was constructed by using the mass data of computer science majors’ scores generated during the past three years in thirteen classes of four grades, we analyze the corresponding degree of different courses in the database using corresponding analyzing techniques, and condense the attributes in database according to corresponding factors, An example is given to illustrate the application of the proposed method. The analysis introduced in the paper has provided a scientific basis for improving the teaching quality .Then it is prepare for the Association rules mined of different courses.
Key words: data mining;data warehouse; correlation analysis
相关分析法是在分析某个问题或指标时,将与该问题或指标相关的其他问题或指标进行对比,分析其相互关系或相关程度的一种分析方法,用少数几对综合变量来反映2组变量间的线性相关性质.目前它已经在众多领域的相关分析和预测分析中得到广泛应用.本文主要研究如何利用相关分析技术产生计算机专业课之间的相关系数,发现专业课程之间的相关度,对数据仓库中的数据进行约简[1].
1 相关分析
1.1 相关分析概述[2]
相关分析(Correlation Analysis)是研究随机变量之间的相关关系的一种统计方法.相关关系是一种非确定性的关系,例如,以X和Y分别记一个人的身高和体重,或分别记每公顷施肥量与每公顷小麦产量,则X与Y显然有关系,而又没有确切到可由其中的一个去精确地决定另一个的程度,这就是相关关系.例如,教育投资与教育发展速度的关系、教师教学水平和学生的学习效果之间的关系等[3].
相关系数值为-1(完全负相关关系)~+1(完全正相关关系)之间,相关系数为0时,表示不存在相关关系.例:
正相关:学生的学习能力与学习成绩的关系;
负相关:教师的身体状况与缺勤率的关系;
零相关:教师的身高与教学能力的关系.
Pearson相关用于双变量正态分布的资料,其相关系数称为积矩相关系数(Coefficient of Product-Moment Correlation).进行相关分析时,我们一般会同时对2变量绘制散点图,以更直观地考察2变量之间的相互变化关系[4].
用Flag Significant Correlations 进行显著性检验,标出有显著性意义的相关系数,用一个星号“*”标记在α=0.05水平上有显著性意义的相关系数;用2个星号“**”标记在α=0.01水平上有显著性意义的相关系数[5].
1.2 相关分析的表示方法
进行相关分析的主要方法有图示法和计算法.图示法是通过绘制相关散点图来进行相关分析,计算法则是根据不同类型的数据,选择不同的计算方法求出相关系数来进行相关分析.
1.2.1 图示法
图示法的具体做法就是绘制相关散点图.相关散点图是观察2个变量之间关系的一种非常直观的方法.具体绘制的方法是:以横轴表示2个变量中的1个变量(作为自变量),以纵轴表示另一个变量(作为因变量).将2个变量之间相对应的变量值以坐标点的形式逐一标在直角坐标系中,通过点的分布形状和疏密程度来形象描述2个变量之间的相关关系.
相关散点图可以通过手工绘制而得到.但如果面对的变量值比较多,手工绘制的过程既费时,又不够精确.
1.2.2 计算法
相关系数也称为相关量,是用来描述变量之间变化方向和密切程度的数字特征量,一般用r表示.它的数值范围在-1到+1之间,它的正负号反映变量之间变化的方向;它的绝对值的大小反映变量之间关系的密切程度.
根据2个变量变化的密切程度,我们把相关关系分为完全相关、高度相关、中度相关、低度相关、零相关[6].
完全相关:│r│=1的相关;
高度相关或强相关:0.7≤│r│<1的相关;
中度相关:0.4≤│r│<0.7的相关;
低度相关或弱相关:│r│<0.4的相关.
1.3 Pearson相关
Pearson相关也称积差相关,积差相关也称积矩相关,是英国统计学家Rearson提出的一种计算直线相关的方法,因而又称为Rearson相关[6-7].
积差相关系数是2列成对观测值中各对观测值的标准分数乘积之和除以观测值对数所得之商[8].
1.3.1 Pearson相关的使用条件
1) 2个变量之间是线性关系,都是连续数据;
2) 2个变量的总体是正态分布,或接近正态的单峰分布;
3) 2个变量的观测值是成对的,每对观测值之间相互独立.
1.3.2 Pearson相关的计算公式
r=∑ZXZYn=∑X-Y-nσXσY.
式中,[ZK(]n表示数据的对数;σX,σY分别表示X和Y变量的样本标准差;[JP],分别表示X和Y变量的样本平均数.[ZK)]
对于学生成绩,其课程总体分布接近正态分布,满足Pearson相关的使用条件.在统计软件SPSS中,可以很方便地得出2变量之间的Pearson相关系数.[JP]
2 用相关分析法进行数据约简
2.1 学生成绩数据仓库的建立
数据选择上,主要选择了作者所在学校计算机专业3年来产生的专业基础课成绩,收集并整理了包含高等数学、C语言、数据结构和数据库系统原理的504条学生成绩数据.并将具体的成绩数据离散化为4个等级[9],即:
成绩>=80“A”; 70=
2.2 用相关分析法进行数据约简
对大规模数据库内容进行复杂的数据分析通常需要耗费大量的时间,这就常常使得这样分析变得不现实和不可行,尤其是需要交互式数据挖掘时.数据约简技术正是用于帮助从原有庞大数据集中获得一个精简的数据集合,并使这一精简数据集保持原有数据集的完整性,这样在精简数据集上进行数据挖掘,显然效率更高,并且挖掘出来的结果与使用原有数据集所获得结果基本相同[10].
数据约简并不是一个新的领域,现在已经提出了很多理论和方法,如:层次分析法,主成分分析法,随机抽样、免疫算法等.本研究根据实际需要,提出将相关分析方法应用于学生成绩的属性约简,即方便快捷又不失理论性.
在SPSS软件中,画出计算机专业课高等数学成绩的直方图,如图1.
用同样的方法,可以画出其他计算机专业课如C语言、数据结构等的直方图,可以看出,我们所建立的数据仓库中,学生计算机专业课程成绩基本上符合正态分布,满足Pearson相关的使用条件.
我们用双变量相关分析技术来分析相关课程之间的关联程度,并做出统计学推断,以最少的数据量反映最大的信息量,进而对数据库的属性进行约简.通过相关分析约简相关性较弱的属性,选择相关性强的属性而不直接利用数据库中的所有属性,从而减少大量冗余属性,以提高算法的效率.
在SPSS中进行课程间Pearson相关系数分析,得到计算机专业课程相关系数分析表如表1.
1:表中数值为4门课程进行相关分析得到的皮尔逊相关系数(Pearson Correlation)、相伴概率(Sig.(2-tailed))、样本个数(N).“*”标记在α=0.05水平上有显著性意义的相关系数;用两个星号“**”标记在α=0.01水平上有显著性意义的相关系数;
2:相伴概率用来判断求解线性关系的两变量之间是否有明显的线性关系.一般将这个Sig值与0.05相比较,如果它大于0.05,说明平均值在大于5%的几率上是相等的,而在小于95%的几率上不相等;如果它小于0.05,说明平均值在小于5%的几率上是相等的,而在大于95%的几率上不相等;如C语言与数据结构的Sig是0,此数值说明C语言与数据结构有显著的线性关系(因为Sig0.05,则说明两变量之间没有明显的线性关系).
由表1可以看出,同一门课程之间的Pearson相关系数为1,是完全相关关系.高等数学与C语言之间的Pearson相关系数为0.283,C语言与数据结构之间的Pearson相关系数为0.281,数据结构与数据库系统原理之间的Pearson相关系数为0.565,并且都有“*”标记,由此可以推断这4组课程之间有显著性意义的相关性.
3 结语
用相关分析技术对数据库进行约简,结果表明:线性代数、计算机导论及Pascal语言等多个因素相关性较弱;而C语言、数据结构、高等数学及数据库系统原理之间相关性较强,根据数据库约简原则,可将线性代数、计算机导论及Pascal语言等多个属性项从数据库中删除,以便提高数据挖掘效率.
参考文献:
[1]段西凌,甘开鹏.数据挖掘在人口普查信息系统中的应用[J].云南民族大学学报:自然科学版,2006,15(2):170-172.
[2]茆诗松.统计手册[M].北京:科学出版社,2003.
[3]TANG Zhaohui,MACLENNAN J.数据挖掘原理与应用[M]. 邝祝芳,焦贤龙,高升,译.北京:清华大学出版社,2007.
[4]王艳.数据挖掘中关联规则的探讨[J].成都信息工程学院学报,2004,19(2):173.
[5]张儒良,王翰虎.论数据挖掘优化教学管理[J].贵州民族学院学报,2004:133.
[6]赵辉.数据挖掘技术在学生成绩中分析中的应用[D].大连:大连海事大学,2007.
[7]王月敏.基于遗传算法的智能组卷系统研究[J].云南民族大学学报:自然科学版,2009,18(2):173-176.
[8]刘利锋,吴孟达. 关联规则的快速提取算法 [J].计算机工程.2008,34(5):63-65.
[9]李萍,段富.数据挖掘中数据约简的研究与应用[J].微计算机应用.2009,25(2):58-60.[ZK)]
[10][ZK(#]蔡勇,韩永国,刘自伟.数据挖掘技术在生源分析中的应用研究[J].计算机应用研究.2004,32(6):48-51.
中图分类号V2 文献标识码 A 文章编号 1674-6708(2014)123-0164-02
当飞机处于某种特殊气动弹性耦合效应下的时候,就会出现抖振的随机振动现象,如果战斗机处于大攻角飞行姿态,通常需要承载一定量的抖振载荷,这会直接导致飞机内部部件的疲劳损伤,使得飞机发生飞行安全事故的概率大大增加,在目前的处理方式中,主要是在飞机制造之后,如果发现存在抖振问题,会对设计进行适当的修改,或者是采取抑制减缓措施,这会导致耗费大量的时间与经费,在飞机的研发周期中采取有效的措施减少其抖振问题非常的必要,这就需要在飞机设计、风洞模型试验、飞机试飞几个阶段做好抖振响应数据的处理工作,本文就主要对此予以简单分析探讨。
1 抖振响应数据的预处理工作
飞机在发生抖振时,其会产生抖振响应数据,对这些数据在处理的时候,为了防止发生静态响应影响数据处理的结果,需要对飞机各种飞行状态下的抖振响应数据进行去除均值的预处理,一般情况下,为了方便叙述,会将飞机不同飞行状态下的数据依据时间顺序依次进行存放,其中一个飞行状态之下的抖振响应数据称作数据仓,选随机选择一个飞行姿态喜爱的抖振响应数据仓,根据合理的时间间隔,将数据仓内的数据进行划分,可以分为多个子数据块,然后逐一进行编号,表示为:1,2,…,N,应用这种方法获取的数据块中包含n个数据点,为了使分辨率得到保证,临近的子数据块之间相互重叠的部分应该达到百分之五十以上。
首先对子数据块内的数据进行预处理,并简单进行分析,形成第i个子数据模块响应数据序列,即:yi1,yi2,…,yin,i=1,2,…,N,n表示的含义是:数据点的数量。然后对第i个子数据块中的数据平均方根值进行计算,将其表示为:RMSi(i=1,2,…,N),其计算公式如下式所示:
之所以要对其均方根值进行计算,主要是为了进行响应数据的无量纲化处理,对于定位样本的关键状态具有积极的作用。然后要对第i个子数据块的一组峰值进行搜索,并要获得第i个子数据块中第j个峰值与该子数据模块RMSi的比值,实现统计量的无量纲化。
其次对其给定飞行状态的样本数据预处理进行简单分析,其预处理流程主要表现为:(1)形成数据仓的RMS序列;(2)对数据仓中各个子数据块的RMS值的均方根进行计算,记做RSS;(3)获得给定飞行状态下第i个子数据块的RMSi与RSS的比值,实现其统计量的无量纲化。
2 子数据模块的数据统计方法
首先分析子数据块统计量的概率模型,由机抖动响应具有一定的随机性,尤其是具有明显的分散性,所以在对其响应数据进行处理的过程中,采用适当的统计学方法建立模型,在上文数据处理方法的基础上,建立概率分布表模型。因为得到的子数据块的时间很短,可以假设其中的数据来自于同一个总体,并且能够保持相互独立,那么可以选择总体Zi的样本为:Zi1,Zi2,…,Zin,在抖振响应峰值特性的概率分布模型的描述中,常用的有:Gumbel分布与威布尔分布,应用威尔分布对第i个子数据块Zi进行假设,那么其概率密度可以用下式来进行表示:
其中,f(Zi)表示的含义是:Zi的概率密度函数,Gi表示的含义是:威尔分布的大小尺度因子;Bi表示的含义是:威尔分布的形状因子。那么可以将其概率分布函数表示为:
其次,简单分析子数据模块统计学量分布参数,本次研究中,对于其分布参数估计应用最大似然估计,建立起威布尔分布的似然函数,并应用相关的参数估计方法,得到其简化之后的威布尔似然函数值为:
然后对似然函数取对数,并应用迭代法对相关数值进行求解,就能够得到最大似然参数估计量的值。
最后应用χ2拟合检验法来对子数据块中数据是否符合威布尔分布进行检验,根据上文中的样本观察值及最大似然参数等,来对总体分布假设进行检验。
3 数据仓RMS值的分布统计方法
为了分析给定飞行状态下的数据仓分布规律,依据上文研究的结果,进一步进行研究,在编制飞机抖振疲劳谱的时候,要得到对应的飞行状态,以此为基础获取疲劳荷载值及疲劳寿命,最后校核飞机抖振强度,在此过程中,还需要找到飞机的关键状态,尤其是其运行过程中的极限状态,在给定的飞行状态下,对其数据仓RMS分布进行分析主要是为了确对几个关键的RMS水平进行确定,并在相应的子数据模块中对其进行定位,再结合其响应模型进行响应分布的分析,这能够保证其很好的满足后续工作的需求,通过对给定飞行状态下数据仓RMS值分布进行统计分析,再结合飞机抖振应用背景及以往的工程实践经验,可以对其相应数据应用经验步进函数来进行描述,就能够很好的满足抖振寿命估计、抖振疲劳谱编制、抖振强度校核等工作要求,这对机抖振响应数据分析处理质量及工作效率的提升都具有非常重要的作用。
4 结论
飞机抖振响应数据具有随机分布的特点,并且具有鲜明的分散性,在对其进行处理时具有较大难度,飞机长期处于抖振载荷之下,会对其部件产生较大影响,容易导致安全事故的发生,本文就结合其抖振响应数据的实际特点,提出了一种统计模型分析法,并对其分析方法中的关键步骤进行了简单分析,对机抖振响应数据的处理分析具有一定的参考作用。
中图分类号:K928.78 文献标识码:A 文章编号:
0引言
预应力混凝土连续箱梁具有结构刚度大、变形小、及行车舒适等优点,在国内外得以广泛推广。由于公路桥梁中桥面较宽,车辆在行驶的过程中经常不能行驶在桥梁的轴线上,这样公路桥梁经常处于偏心荷载的作用下。当箱梁的截面采用变截面时,箱梁常处于约束扭转状态。
本文首先通过理论分析建立约束扭转的微分方程,然后根据有限元理论,运用初参数法求解微分方程,最终导出当箱梁受到约束扭转时的刚度矩阵。这对编写箱梁约束扭转分析计算程序有很好的帮助。
1基本方程的建立
1.1自由扭转分析
在研究自由扭转之前,首先引入薄壁杆件扭转理论中的一个最基本的假定——符拉索夫的刚周边假定,即在小变形情况下,可以认为杆件扭转后断面在其原来平面上的投影形状与原断面形状相同。根据刚周边假定,开口薄壁杆件扭转时断面如刚体般转动,各个组成部分的扭角都相同。以图1的工字断面为例,可把它看成由三个狭长断面所组成,并设H1、t1、H2、t2、H3、t3分别代表三个狭长断面的长度和壁厚。每一断面的扭率都应该相同,即
ϕ1′=ϕ2′ϕ3′=ϕ′(1)
上式中:ϕ′为整个断面的扭率;J1=、J2=、J3=分别为三个狭长断面的扭转惯性矩,假设J为整个工字断面的扭转惯性矩,显然应有:
J=J1+J2+J3 (2)
由此可见,对于开口薄壁杆件的自由扭转惯性等于组成断面的各狭长矩形断面的扭转惯性矩之和。
对于闭口薄壁杆件在自由扭转时,以u表示翘曲位移,v表示切向位移。则
=+(3)
其中:v=ϕρ,表示剪应变(剪应力与剪切模量之比)。
所以上式可写成:
=- ϕ′ρ(4)
其中Ω为闭口断面所围成面积的两倍。
对上式两边对S积分,根据位移连续性条件可得:
=G (5)
把上式中定义为闭口断面自由扭转时的自由扭转惯性矩,用Jd表示。以上部分推导了闭口断面在自由扭转时的惯性矩的计算公式。
1.2约束扭转分析
薄壁杆件在扭转时,若由于支座约束或其他原因(如非等断面杆件),使得断面不能自由翘曲,那么杆件就发生约束扭转。箱梁在约束扭转时断面的扭矩为自由扭转扭矩和二次扭矩之和。写出约束扭转时的总扭矩[2]:
(6)
再在杆中取出长为dz的一微段(见图二),根据扭矩平衡的条件可得断面扭矩与外分布扭矩之间的关系为:
(7)
由以上两式可得:
(8)
其中k=
式中为箱梁截面扇性惯性矩;
为约束扭转时的约束系数;
k 为箱梁截面的抗扭常数;
为箱梁截面的扇性惯性矩;
mt为作用在箱梁上的扭矩。
2运用初参数法求解微分方程并推导单元刚度矩阵
考虑约束扭转的箱梁扭转单元刚度方程为:
=(9)
根据闭口薄壁杆件约束扭转的微分方程(8)式,先假定mt=0求(8)式相应的齐次微分方程,运用初参数法,初参数取、、、,微分方程初参数的解为:
根据有限元中对刚度系数的定义,先假定,而。这样就可以确定出初参数、。变换符号,可以求出、、及。以此类推可求出其它元素。按上述过程所求得的各刚度系数为:
式中D=
至此刚度矩阵中的系数已全部求出。
3结论
本文用薄壁箱梁的约束扭转理论,导出了梁单元在受约束扭转时的刚度系数矩阵。由于本文的方法是基于杆系结构刚度法基础之上的,容易编写程序,在工程计算中,有一定的实用价值。
参考文献
[1] 郭金琼,房贞政,郑振.箱形梁设计理论[M].人民交通出版社,2008
(Xuzhou College of Industrial Technology,Xuzhou 221140,China)
摘要:在虚拟现实项目制作中,由于种种原因,海量数据处理是一项艰巨而复杂的任务,本文主要论述了海量数据处理困难的原因,并提出了对海量数据进行处理的方法。
Abstract: In the virtual reality project production, due to various reasons, mass data processing is a difficult and complex task. This paper discusses the reasons for massive data processing difficulties, and provides methods for massive data processing.
关键词:虚拟现实 海量数据
Key words: virtual reality;massive data
中图分类号:TP39 文献标识码:A文章编号:1006-4311(2011)19-0158-02
0引言
虚拟现实项目制作过程中,由于虚拟现实包含的内容丰富,需要载入的数据量有时会非常巨大,需要进行处理和查询的内容很多,然后还要以文字和图像的形式进行表示出来,所以经常会遇到海量数据处理的瓶颈,造成这种情况的原因是:
①数据量过大,数据中什么情况都可能存在。如果说有10条数据,那么大不了每条去逐一检查,人为处理,如果有上百条数据,也可以考虑,如果数据上到千万级别,甚至过亿,那不是手工能解决的了,必须通过工具或者程序进行处理,尤其海量的数据中,什么情况都可能存在,例如,数据中某处格式出了问题,尤其在程序处理时,前面还能正常处理,突然到了某个地方问题出现了,程序终止了。
②软硬件要求高,系统资源占用率高。对海量的数据进行处理,除了好的方法,最重要的就是合理使用工具,合理分配系统资源。一般情况,如果处理的数据过TB级,小型机是要考虑的,普通的机子如果有好的方法可以考虑,不过也必须加大CPU和内存,就象面对着千军万马,光有勇气没有一兵一卒是很难取胜的。
③要求很高的处理方法和技巧。这也是本文的写作目的所在,好的处理方法是一位工程师长期工作经验的积累,也是个人的经验的总结。没有通用的处理方法,但有通用的原理和规则。
在多个虚拟现实项目的基础上,尤其是通过与行内多名专家进行项目经验交流,以下的方法都可以对海量数据在虚拟现实项目中的处理进行改善。
1选用优秀的数据库工具
现在的数据库工具厂家比较多,对海量数据的处理对所使用的数据库工具要求比较高,一般使用Oracle或者DB2,微软公司最近的SQL Server 2005性能也不错。另外在BI领域:数据库,数据仓库,多维数据库,数据挖掘等相关工具也要进行选择,象好的ETL工具和好的OLAP工具都十分必要,例如Informatic,Eassbase等。笔者在实际数据分析项目中,对每天6000万条的日志数据进行处理,使用SQL Server 2000需要花费6小时,而使用SQL Server 2005则只需要花费3小时。
2编写优良的程序代码
处理数据离不开优秀的程序代码,尤其在进行复杂数据处理时,必须使用程序。好的程序代码对数据的处理至关重要,这不仅仅是数据处理准确度的问题,更是数据处理效率的问题。良好的程序代码应该包含好的算法,包含好的处理流程,包含好的效率,包含好的异常处理机制等。
3对海量数据进行分区操作
对海量数据进行分区操作十分必要,例如针对按年份存取的数据,我们可以按年进行分区,不同的数据库有不同的分区方式,不过处理机制大体相同。例如SQL Server的数据库分区是将不同的数据存于不同的文件组下,而不同的文件组存于不同的磁盘分区下,这样将数据分散开,减小磁盘I/O,减小了系统负荷,而且还可以将日志,索引等放于不同的分区下。
4建立广泛的索引
对海量的数据处理,对大表建立索引是必行的,建立索引要考虑到具体情况,例如针对大表的分组、排序等字段,都要建立相应索引,一般还可以建立复合索引,对经常插入的表则建立索引时要小心,笔者在处理数据时,曾经在一个ETL流程中,当插入表时,首先删除索引,然后插入完毕,建立索引,并实施聚合操作,聚合完成后,再次插入前还是删除索引,所以索引要用到好的时机,索引的填充因子和聚集、非聚集索引都要考虑。
5建立缓存机制
当数据量增加时,一般的处理工具都要考虑到缓存问题。缓存大小设置的好差也关系到数据处理的成败,例如,笔者在处理2亿条数据聚合操作时,缓存设置为100000条/Buffer,这对于这个级别的数据量是可行的。
6加大虚拟内存
如果系统资源有限,内存提示不足,则可以靠增加虚拟内存来解决。笔者在实际项目中曾经遇到针对18亿条的数据进行处理,内存为1GB,1个P4 2.4G的CPU,对这么大的数据量进行聚合操作是有问题的,提示内存不足,那么采用了加大虚拟内存的方法来解决,在6块磁盘分区上分别建立了6个4096M的磁盘分区,用于虚拟内存,这样虚拟的内存则增加为4096*6+1024=25600M,解决了数据处理中的内存不足问题。
7分批处理
海量数据处理难因为数据量大,那么解决海量数据处理难的问题其中一个技巧是减少数据量。可以对海量数据分批处理,然后处理后的数据再进行合并操作,这样逐个击破,有利于小数据量的处理,不至于面对大数据量带来的问题,不过这种方法也要因时因势进行,如果不允许拆分数据,还需要另想办法。不过一般的数据按天、按月、按年等存储的,都可以采用先分后合的方法,对数据进行分开处理。
8使用临时表和中间表
数据量增加时,处理中要考虑提前汇总。这样做的目的是化整为零,大表变小表,分块处理完成后,再利用一定的规则进行合并,处理过程中的临时表的使用和中间结果的保存都非常重要,如果对于超海量的数据,大表处理不了,只能拆分为多个小表。如果处理过程中需要多步汇总操作,可按汇总步骤一步步来,不要一条语句完成,一口气吃掉一个胖子。
9优化查询SQL语句
在对海量数据进行查询处理过程中,查询的SQL语句的性能对查询效率的影响是非常大的,编写高效优良的SQL脚本和存储过程是数据库工作人员的职责,也是检验数据库工作人员水平的一个标准,在对SQL语句的编写过程中,例如减少关联,少用或不用游标,设计好高效的数据库表结构等都十分必要。笔者在工作中试着对1亿行的数据使用游标,运行3个小时没有出结果,这是一定要改用程序处理了。
10使用文本格式进行处理
对一般的数据处理可以使用数据库,如果对复杂的数据处理,必须借助程序,那么在程序操作数据库和程序操作文本之间选择,是一定要选择程序操作文本的,原因为:程序操作文本速度快;对文本进行处理不容易出错;文本的存储不受限制等。例如一般的海量的网络日志都是文本格式或者csv格式(文本格式),对它进行处理牵扯到数据清洗,是要利用程序进行处理的,而不建议导入数据库再做清洗。
11定制强大的清洗规则和出错处理机制
海量数据中存在着不一致性,极有可能出现某处的瑕疵。例如,同样的数据中的时间字段,有的可能为非标准的时间,出现的原因可能为应用程序的错误,系统的错误等,这是在进行数据处理时,必须制定强大的数据清洗规则和出错处理机制。
12建立视图或者物化视图
视图中的数据来源于基表,对海量数据的处理,可以将数据按一定的规则分散到各个基表中,查询或处理过程中可以基于视图进行,这样分散了磁盘I/O,正如10根绳子吊着一根柱子和一根吊着一根柱子的区别。
13避免使用32位机子
目前的计算机很多都是32位的,那么编写的程序对内存的需要便受限制,而很多的海量数据处理是必须大量消耗内存的,这便要求更好性能的机子,其中对位数的限制也十分重要。
14考虑操作系统问题
海量数据处理过程中,除了对数据库,处理程序等要求比较高以外,对操作系统的要求也放到了重要的位置,一般是必须使用服务器的,而且对系统的安全性和稳定性等要求也比较高。尤其对操作系统自身的缓存机制,临时空间的处理等问题都需要综合考虑。
15使用数据仓库和多维数据库存储
数据量加大是一定要考虑OLAP的,传统的报表可能5、6个小时出来结果,而基于Cube的查询可能只需要几分钟,因此处理海量数据的利器是OLAP多维分析,即建立数据仓库,建立多维数据集,基于多维数据集进行报表展现和数据挖掘等。
16使用采样数据,进行数据挖掘
基于海量数据的数据挖掘正在逐步兴起,面对着超海量的数据,一般的挖掘软件或算法往往采用数据抽样的方式进行处理,这样的误差不会很高,大大提高了处理效率和处理的成功率。一般采样时要注意数据的完整性和,防止过大的偏差。笔者曾经对1亿2千万行的表数据进行采样,抽取出400万行,经测试软件测试处理的误差为千分之五,客户可以接受。
还有一些方法,需要在不同的情况和场合下运用,例如使用键等操作,这样的好处是加快了聚合时间,因为对数值型的聚合比对字符型的聚合快得多。类似的情况需要针对不同的需求进行处理。
海量数据是发展趋势,对数据分析和挖掘也越来越重要,从海量数据中提取有用信息重要而紧迫,这便要求处理要准确,精度要高,而且处理时间要短,得到有价值信息要快,所以,对海量数据的研究很有前途,也很值得进行广泛深入的研究。
参考文献:
中图分类号 P415.12 文献标识码 A 文章编号 1007-7731(2017)07-0156-03
Abstract:Aiming at meteorological station with new automatic station and original station,when the meteorological data is abnormal or shortage,the data processing methods were summarized in order to play a guiding role in the daily work of the station.
Key words:Automatic station;Abnormal data;Processing method
随着地面气象观测自动化业务的不断发展,新型自动站在山东省气象台站陆续安装使用,与台站已运行的老自动站实现双轨运行,使观测业务更趋向于全自动化。临沂市观测站于2015年12月1日正式运行DZZ4新型自动站和ISOS地面气象综合业务系统软件,实现了以新型自动站(DZZ4型)为主,老自动站(CAWS600-B型)为备份的双轨运行方式。自动观测项目有气温、相对湿度、气压、风向风速、降水、0~360cm地温、能见度等,气温、相对湿度、气压、风向风速、地温等各观测要素人工观测仪器已按规定撤除,在新型站仪器故障或数据异常时,可以用备份站数据代替。
1 异常数据的判断
日常观测值班时,应每1h查看自动站数据,并与备份自动站观测数据进行对比,当发现某要素数据相差较大时,应及时检查数据是否有异常。也可以查看SMO软件采集界面观测要素的连续曲线图,判断分钟数据是否正常。在采集界面各要素的显示数据右边,有曲线图标,分别点击就可以看到对应数据的2h内变化曲线,据此可以判断数据变化是否正常连续。还可通过ASOM系统判断异常数据。登陆综合气象观测系统运行监控平台,点击运行监控-数据监控-多站单要素曲线图,选择需要对比台站的时间范围、添加需要对比的台站,再选择对比的要素,点击查询即可弹出对比台站所选要素的曲线图,如果各台站曲线图变化一致,说明数据正常,如果本站曲线明显偏高或偏低,或曲线有明显的急升急降现象,则判断为异常数据。
2 异常记录处理原则[1]
(1)白天正点记录异常时,3次定时观测时次(指08:00、14:00、20:00)的记录应及时处理,其他正点时次的记录应在下一定时观测前完成修改、上传。夜间正点记录异常时,应在当日10:00前完成修改上传。若夜间异常数据影响到08:00、09:00记录,应在10:00前对08:00、09:00相应记录进行修改上传。
(2)已实现自动观测的气温、相对湿度、风向、风速、气压、地温记录异常时,正点时次的记录按照正点前10min内(51-00分)接近正点的正常记录、正点后10min内(01~10分)接近正点的正常记录、备份自动站记录、内插记录的顺序代替。其中风向风速异常时均不能内插,瞬时风向、风速异常时按缺测处理。
(3)o自动记录可代替时,仅在定时观测时次正点后10min内,对气温、相对湿度、风向、风速、气压、降水、能见度、地温(草温除外)进行人工补测,其他时次按缺测处理。若某要素人工观测仪器已按规定撤除或超过正点后10min,则该要素不再人工补测。
(4)分钟数据异常时均缺测处理,不内插,不用备份自动站记录代替。因分钟数据异常造成加密数据文件错误时,加密数据文件不做订正处理。
(5)连续2个或以上时次数据缺测时,不能内插,仍按缺测处理。内插可以跨日界。
(6)自动站每1h正点数据与分钟数据不一致时,一般维持原记录。若确认正点数据有误,可用该正点的分钟数据代替,若确认正点的分钟数据有误,可用正点值代替。
(7)4次平均值和24次平均值可以互相代替。
(8)自动站降水量、日照时值有缺测时,日总量按缺测处理。
(9)各异常记录的处理情况应在备注栏注明,并在MDOS系统平台中填报。
3 具体要素异常的处理
3.1 气温和相对湿度 (1)气温缺测相对湿度正常时,水汽压和露点温度用前/后10min、备份站代替或内插求得的代替后气温与自动站相对湿度进行反查求得。(2)自动站相对湿度缺测而气温正常,需用自动站气温与代替后的相对湿度进行反查求得水汽压和露点温度。(3)气温与湿度均缺测时,用前/后10min数据或备份站数据或内插记录的顺序代替气温、相对湿度,并反查水汽压、露点温度,不能代替时,均按缺测处理。以上数据用前/后10min数据代替时,在正点观测编报界面,点击观测时间下面的“代缺”,出现“正点前/后10min自动观测数据”,如图1,双击需要代替的气温或相对湿度分钟数据栏,点替换即可。用备份站数据或内插记录代替时,在正点观测编报界面,输入备份站正点数据或内插记录即可,替换或修改后的数据栏显示为黄色。需要反查水汽压和露点温度时,可利用地面观测业务软件(MOI)工具菜单中的“要素计算”,在干球温度数据栏输入温度值,在湿球温度数据栏输入加U的湿度数据,点击计算按钮,即可求得对应的水汽压和露点温度。
3.2 风向风速 正点2min和10min风向风速缺测时分别用相应的2min和10min数据代替,不能互相代。用正点前/后10min接近正点的数据代替,其前推的相应时段内必须有正确数据[2]。否则用备份站数据代替。如:某日09:00的2min风速数据缺测,用08:57的2min数据代时,08:56和08:57都必须有正常分钟数据。10min数据缺测,用08:57的10min数据代时,08:48―08:57必须有正常的分钟数据。正点瞬时风向风速异常时按缺测处理,不能用备份站数据代替。所有风数据缺测不能代替时,人工观测仪器已撤除的台站需目测2min风向风速,风向按8个方位估计,其他风数据按缺测处理。风速记录缺测但有风向时,风向也按缺测处理,有风速无风向时,则风速照记,风向记缺测。
3.3 气压 正点气压数据不正常时,用前/后10min数据代替,其操作方法与气温相同。用备份站记录代替,2个气压传感器感应部分高度一致,可以直接输入代替,2个气压传感器感应部分高度不一致,用高度差订正公式将代替的本站气压订正到现用自动站气压传感器高度上来,输入到气压数据栏,再以此计算海平面气压[3]。
3.4 降水量 夏季非结冰期使用翻斗雨量传感器作为降水量采集仪器,称重式雨量传感器、备份自动站翻斗式雨量传感器作为备份仪器。冬季结冰期使用称重式雨量传感器测量降水,翻斗雨量传感器和备份站翻斗仪器停用。降水量记录异常时,非结冰期,用称重式雨量传感器、备份自动站翻斗式雨量传感器顺序代替,结冰期则用人工观测雨量筒记录代替。定时观测时次,在正点观测编报界面,点击“降水量替代”按钮,出现小时降水量、翻斗降水量和称重降水量数据,如图2,非结冰期小时降水量取自翻斗降水量,翻斗降水量数据异常时双击需要代替的称重降水量数据,点保存即可代替。用备份站降水量代替时,将备份站小时降水量数据输入到定时降水栏即可。结冰期用人工定时观测雨量数据代替时,在正点观测编报界面,点击小时降水量后面的“修改”按钮,出现小时内分钟降水量界面,如图3,将故障时段内的小时、分钟雨量删除按缺测处理,然后在6h降水栏(08:00正点在12h降水栏)输入人工定时观测降水数据。出现微量降水时,正点观测编报时次08:00在12h降水栏内输入00,14:00和20:00在6h降水栏输00。
降水量记录异常的其他情况:(1)无降水现象,因其他原因(昆虫、风、沙尘、树叶、人工调试等)或自动站故障造成多余记录时,在正点观测编报界面,点击小时降水量后面的“修改”按钮(图3),删除该时段内的分钟和小时降水量,并在值班日记中说明。(2)降水现象停止后,仍有降水量,若能判断为滞后(滞后时间不超过2h),可将该量累加到降水停止的那分钟和小时时段内,否则将该量删除。夜间(20:00―08:00)能够判断为滞后降水的,按前述处理;无法判断的,按正常处理。(3)称重式雨量传感器在降水过程中,伴随有沙尘、树叶等杂物时,按正常降水记录处理,液态降水溢出或固态降水堆至口沿以上,或降水过程中取水,则该时段降水按缺测处理。(4)称重式雨量传感器承水口内沿堆有积雪或雨凇时,应及时清理到收集容器内。由此产生的异常稻荩若能判断降水结束时间的,加入到降水结束的时次,该时次降水时段内的分钟数据按缺测处理;不能判断降水结束时间的,加入到有降水量的最后一个时次,该时次内分钟数据按缺测处理。无降水时,沙尘、树叶等杂物或偶然跳变造成的降水数据应及时删除。以上降水数据的处理均在图3界面内修改删除即可。(5)若因某时段降水数据异常而影响“15时段年最大降水量”及相应的开始时间挑选时,若相应时段的备份自动站降水数据正常,需将备份自动站挑取的“降水量、出现次数和开始时间”替换到现用站的年报表中。
3.5 能见度 能见度缺测时,非定时观测时次的正点数据中所有能见度数据均按缺测处理,定时观测时次进行人工补测。人工观测值存入Z文件CW段能见度和VV段10min平均能见度,其他VV段自动能见度数据按缺测处理,A文件中使用人工观测值,须在备注栏说明。此种情况下,允许能见度记录值与天气现象之间的不匹配。具体操作为在正点观测编报界面,人工观测值(以0.1km为单位,第二位小数舍去)输入到能见度栏,以m为单位输入到10min能见度栏内,其他栏按缺测处理,输“-”。能见度自动记录缺测时不做内插处理,不用正点前后10min接近正点的记录代替。
4 结语
以上是针对新型自动站各要素采集数据异常时,对相应的代替处理方法进行总结介绍,在定时和非定时时次数据缺测时,观测员首先要清楚可以用哪些数据代替,其次是明确数据代替的优先顺序,最后是熟练掌握数据代替的软件操作方法,以便在规定时间内完成操作,及时准确的上传数据。
参考文献
[1]中国气象局综合观测司.地面气象观测业务技术规定(2016版)[S].2016.
转变经济发展方式,实现经济社会的全面协调可持续发展是我国当前和今后较长时期内的一项重要战略任务。2012年党的十对加快转变经济发展方式进行了新部署,提出了“一个立足点”、“四个着力”和“五个更多”的要求,这为我国当前和未来经济发展进一步指明了方向。在当前国家强调加快经济转型发展和大力建设中原经济区的大背景下,研究评价河南省工业经济增长的环境技术效率及如何促进河南省工业经济发展方式转变,实现可持续发展等问题,对于建设资源节约型、环境友好型社会,加快河南新型工业化进程,促进中原崛起和河南振兴具有重大的现实意义。正是出于这一考虑,本文拟采用基于方向性距离函数的DEA方法测算河南省工业的环境技术效率,通过环境技术效率的地区差异和发展趋势的比较分析,提出促进河南省工业环境技术效率提高和可持续发展的对策建议。
方向性距离函数与环境技术效率
经济活动往往会伴随污染物的产生,环境技术即反映了这样一种同时包括“好”产出和“坏”产出的特殊投入产出技术结构。它可以表示为如下生产可能性集合:
P(x)={(y,b):x能生产(y,b)},x∈RN+ (1)
P(x)表示决策单元(省份)使用N种投入x=(x1,…,xn)∈RN+所得到的M种“好”产出y=(y1,…,yM)∈RN+以及I种“坏”产出b=(b1,…,bI)∈RN+的生产可能性集合。环境技术给出了既定条件下,最大产出y扩张,最小污染物排放的集合,即给出了环境产出的可能前沿,但生产可能性集合P(x)无法借助传统的Shephard距离函数来计算。不同于传统的距离函数,Fare等(2001)根据Luenberger(1992、1995)短缺函数的思想,构造了如下方向性距离函数解决这一问题:
(2)
其中,g=(y,-b)为产出水平扩张的方向向量,它表示在给定投入x的情况下,好产出y成比例地扩大,“坏”产出b成比例地收缩,β为方向性距离函数值,即好产出y增长、“坏”产出b减少的最大可能数量。类似于Fare(1957)定义的传统技术效率,环境技术效率可定义为好产出的实际产量ytk与环境技术结构下的前沿产出量(1+β)ytk的比率,即1/(1+β)。环境技术效率刻画了环境与经济发展的协调程度,其取值区间为(0,1),数值越接近1,说明环境技术效率越高,环境与经济发展越协调;数值越接近0,说明环境技术效率越低,环境与经济发展越不平衡。与传统技术效率不同,环境技术效率不仅可以反映投入、产出和污染之间的关系,同时也包含着公众对环境质量的偏好(即方向向量的结构),从而能较全面地描绘现实生产与理想社会的差距。
样本及相关数据说明
本文分析时段为2004-2010年,模型涉及的变量及相关数据说明如下:
各地区期望产出水平用工业增加值数据表示,非期望产出为“三废”,分别用工业废水排放量、工业CO2排放量及工业固体废物产生量等指标表示。本文投入因素为物质资本投入、劳动力和能源消耗。选取工业固定资产净值年平均余额(K)度量资本投入,用工业从业人员数(L)度量劳动力投入,用工业单位GDP能耗度量能源消耗(E)。以上相关数据均来自历年《河南统计年鉴》及各省辖市统计年鉴,并以2004年为基期年对各年工业增加值和固定资产净值年平均余额进行折算。
变量统计分析
为了更好地统计比较河南各地区的环境污染数据,本研究将利用熵值法将“三废”数据转换为非期望产出指数(胡晓珍等,2011),由于篇幅所限,河南各地区在报告期内的非期望产出指数值未给出,本文对各地区非期望产出指数及其他指标的数据仅进行一般性的统计描述,结果如表1所示。
由表1中的数据可以看出,在2004-2010年间,河南省各地区的工业发展情况差异较大。其中,工业增加值的最大最小值比为7.57,而非期望产出最大最小值比16.19,工业资本、劳动力投入以及能源消耗的最大最小值比依次分别为9.24、12.32和3.40。尽管各变量的标准差都小于其中间值,但除劳动力投入和能源消耗外其他变量的标准差和中间值差距较小。由此可知,较大的数值差异不仅表明河南地区工业的经济规模和增长速度差异大,同时也表明各地区所面临的资源环境压力差异较大。因此可以进一步推知,在对河南省工业进行技术效率测算时,如果忽视能源消耗和环境污染的话,将不可避免地导致分析结果出现较大偏差,从而产生错误结论。
河南省工业环境技术效率分析
依据河南省工业在2004-2010年间的投入产出数据,运用GAMS软件进行相关线性规划求解,得出各地区历年的方向性距离函数值,并将其转换为相应的环境技术效率值,结果如图1所示。
从图1可以看到,河南各地区的工业发展普遍存在着环境技术无效率的状况,而且环境技术效率的地区差异大,但这与工业发展水平没有必然联系。具体来看,在2004-2010年中,各年环境技术效率为1的地区个数分别为7、7、7、8、8、8和9,除2010年外,都不足总数的50%。河南各地区历年环境技术效率的标准差分别为0.1415、0.1399、0.1540、0.1641、0.1639、0.1652和0.1836,而最大最小值比分别为1.7391、1.8349、1.9231、1.9231、1.8868、1.8018和1.9646,由此可见,河南各地区环境技术效率差异总体上在逐年扩大。就具体年份如2004年来看,处于生产前沿上的地区仅有郑州、开封、平顶山、鹤壁、漯河、三门峡及济源等地,环境技术效率在[0.8,1.0)之间的地区也仅有5个,分别为安阳(0.920)、焦作(0.959)、许昌(0.998)、周口(0.857)和驻马店(0.976),而环境技术效率最小的新乡仅为0.575。
由上述分析可知:第一,河南大多数地区在工业发展中,没有能够充分地应用最佳实践生产技术,从而导致其环境技术效率的普遍低下,其中一个重要的原因是各地区所使用的生产技术与自身的客观经济发展状况(包括经济发展水平、工人的技能、产业结构和政策、基础设施状况、自然资源禀赋等)不匹配。第二,河南工业发展中的环境技术效率改善潜力较大,这同时也表明其经济发展潜力也较大。如2004年的新乡,一旦在工业生产中采用最佳的实践技术,即便不增加物质资本、劳动力投入及能源消耗,它的期望产出也可提高为当前的1.7倍,同时还可将非期望产出为减少当前的6%。第三,环境技术效率水平与工业经济发展水平之间没有必然联系。河南18个省辖市在2004-2010年间的环境技术效率与工业增加值之间的相关系数分别为0.0414、-0.0536、0.0992、0.0915、0.0402、-0.0391、0.0635。就具体地区来看,如开封、鹤壁和济源,其环境技术效率在研究期内一直为1,但它们的工业增加值排名却一直处于后列。
由图1可知,河南大多数地区的工业环境技术效率都经历了不同程度的变化,其中,7个地区由于处于生产前沿而维持环境技术效率不变,4个地区出现环境技术效率改善,而其他地区的环境技术效率则都表现出不同程度的恶化状况。具体来看,环境技术效率在期初和期末都为1的地区有郑州、开封、平顶山、鹤壁、漯河、三门峡及济源。环境技术效率改善的地区有周口(0.143)、濮阳(0.096)、洛阳(0.015)、许昌(0.002)。有7个地区的环境技术效率都出现恶化,按恶化程度由大到小依次为驻马店(-0.256)、南阳(-0.197)、商丘(-0.143)、焦作(-0.112)、新乡(-0.063)、安阳(-0.054)、信阳(-0.027)。
各地区环境技术效率出现这种变化的原因可能是:第一,对那些环境技术效率改善的地区而言,它们的经济基础较好,资本深化程度较高,有较为充沛的人力资本以及完善的制度环境,能够在经济发展以及对外交流的过程中,更好地实现经营管理模式的创新和资源的优化配置。虽然在期初其环境技术效率可能相对低下,但是它们善于学习模仿发达地区的最佳实践技术,学习借鉴了先进的组织形式和管理经验,通过优化产业结构,不断加强基础设施建设以改善发展硬环境,同时能够不断推进市场经济体制改革,改善发展的软环境,调动了各种生产要素的积极性,从而实现了生产的高效率。第二,那些始终处于生产前沿面上的地区通常是技术的创新者或适宜技术的引进者,它们使用既有技术的方式总是最为有效的。根据环境技术效率的含义,对于经济发展中始终采用最有效方式来应用最佳实践技术的地区它们所使用的技术可能一直在不断进行完善,从而也必然带来技术使用方式上的相应变化,但它的环境技术效率却始终保持最大值。第三,那些环境技术效率恶化的地区,其在发展中可能无视自身的经济发展条件,而只是一味地引进先进技术和管理经验,而不能有效地加以消化、吸收和利用,使技术和管理的应用产生了不匹配的状况,从而导致了环境技术效率恶化。另外,2004年以来,受国内大环境的影响,许多地区投资过快增长,投资规模偏大,高耗能、高污染、低水平的重复投资也是造成环境技术效率下降的重要原因。
对策建议
通过对河南省环境技术效率的分析可知,河南省工业环境污染程度呈现出逐年加重的趋势,各地区工业发展面临着较大的资源环境压力。研究还发现,河南省总体环境技术效率偏低,地区差异较大,且不少地区环境技术效率存在恶化趋势。这意味着要提高河南省工业环境技术效率,实现工业的转型发展和可持续发展。首先,河南省各地要加大经济结构调整的力度,立足本地优势,大力发展资源消耗低、环境污染少、附加值高的高技术产业和特色优势产业,来优化地区产业结构和改善环境技术效率。其次,要鼓励技术创新,加大自主研发和技术引进的投入力度,同时对企业生产工艺、技术设备要不断进行改造升级,提高设备性能和生产效率,以减少能源浪费和环境污染。再次,要采取有效措施打破地区间的体制障碍和技术壁垒,促进各种生产管理经验的交流和技术的扩散,以遏制地区环境技术效率的恶化,并缩小地区间的技术差距。最后,要通过明晰资源产权问题,推进排污权交易制度,并把资源节约利用与环境保护纳入企业评价与政府政绩考核体系等途径不断健全资源环境管理制度,以促进经济、资源、环境的良性互动与协调发展。
参考文献:
【Abstract】Timely, accurate, standardized acquire meteorological data information of aviation is running an important basis to protect the safety of civil aviation. In this paper, we introduce a normal fault of civil aviation meteorological database system, process reach to maxProcessors led to process frequently down, so users cannot receive new message and data. We use “kill -9” command killed inactive process which have same keyword “LOCAL=NO” in Oracle database system, so we solved the error code ORA-0020 in no restart.
【Key words】Civil aviation meteorological database system; Oracle; Down; inactive; LOCAL=NO
0 引言
民航气象数据库系统利用数据库技术和商用数据库管理系统,对各类气象资料进行有效的组织与管理,采用统一的数据模型和用户界面,从而实现对气象资料的有效存储和快速检索,并具有分布调用、高度共享和安全可靠等性能,为航空气象服务、气象业务与科研培训提供有力的支持。航空气象情报及气象资料的及时、准确、标准化获取是保障民航安全运行的重要基础。本文介B了一起由数据库进程数达到最大导致民航气象数据库进程频繁宕机故障,并给出了故障问题处理方法。
1 民航数据库系统结构简介
民航气象数据库系统是具有飞行气象情报及气象资料的制作、交换、备供、存储等功能的信息系统,包括通信分系统、数据库分系统、预报平台及服务平台四部分[1],如图1所示。
1.1 通信分系统
通信分系统是民航气象数据库系统的基础系统,它主要实现各类气象资料的接收、检查、处理,并根据一定的规则向其它系统及地区中心进行资料分发,同时实现气象中心、地区中心与航站之间的数据交换。通信分系统将获取的各种气象数据发送给数据库分系统,数据库分系统将这些数据进行分类、解析和处理后存储在数据库中。
1.2 数据库分系统
数据库分系统采根据存储数据的用途及时间划分为实时库、历史库及临时库,分别满足不同的业务与服务的要求。数据库分系统又分为资料处理子系统和数据库管理子系统。
(1)资料处理子系统对服务器data目录下接收到的气象信息进行分析分解,质量控制后入库;
(2)数据库管理子系统采用C/S模式,对资料处理、数据库等进行实时监控与管理,预报平台与服务平台则通过获取Oracle数据库中的气象资料,以不同的形式展现给用户。数据库管理子系统主要侧重于对数据库中气象资料的管理。提供的主要功能有:系统登录、资料处理、数据库管理、数据库恢复、日志和统计、告警、用户管理、进程管理、系统配置、窗口、帮助等。
1.3 预报平台
预报平台(民航气象信息综合处理系统)利用气象实时数据库资料,通过对数据库中的气象资料进行检索、分析、处理,制作成文本、图形等形式的气象产品,为航空气象预报人员提供服务。
1.4 服务平台
气象信息服务平台从数据库中提取相关产品,以WEB形式展示向航空气象用户提供航空气象产品及服务。
2 故障现象
民航气象数据库系统数据库子系统运行环境:硬件环境为IBM服务器;操作系统为AIX5.2;数据库系统为oracle 10g。
数据库运行一段时间后,资料处理子系统相关进程自动停止运行,导致621客户端及相关协议单位无法检索到最新资料,且重新启动后再次停止运行或直接无法重新启动。
3 故障分析
通过查看数据库相应进程诊断文件方法检查故障原因,数据库诊断文件是获取有关数据库活动信息的一种方法,用于解决数据库出现的一些问题,主要包含有关数据库中出现的重要事件的一些信息,这些文件能更好的对数据库进行日常的管理。
5 结束语
本文介绍了一起民航气象数据库常见故障,即达到进程最大连接数后导致相关用户进程频繁down机问题,造成用户无法获取最新报文和自观数据,一般较为普遍的处理方法为采用修改系统最大进程连接数后重新启动数据库,但是民航气象数据库对系统停机重启要求较高,重启数据库将导致用户无法及时获取数据,具有一定的安全风险。本文主要利用Oracle数据库中远程连接进程的共同特点,都含有关键字“LOCAL=NO”,然后经根据关键字“LOCAL=NO”筛选出inactive进程使用“kill -9”强行杀掉[4],此方法可以实现在不重启数据库情况下解决ORA-0020问题。
【参考文献】
[1]太极计算机股份有限公司,民航气象卫星传真广播系统用户手册[M].1-60.
一、对象与方法
1.对象 :选择2010年1月至2011年11月在我们服务中心接受静脉穿刺后发生局部淤血的200例患者,其中男性84人,女性156人,年龄18至60岁。
2.方法 :对静脉穿刺后发生局部淤血的患者进行原因分析,将淤血外渗分为4种原因;(1)患者因素 指患者输液局部的血管、全身情况等导致淤血;(2)机械因素 指针头的型号、输液的药物浓度、针头固定方式等原因导致的淤血;(3)按压方式因素 指拔针后按压部位错误或按压时间过短等造成的局部淤血;(4)操作因素 指护理人员穿刺操作不规范、血管选择不好、技术差等原因造成的局部淤血。
二、结果
静脉穿刺后发生局部淤血的因素分析见表1
表1静脉穿刺后局部淤血的相关因素分析
三、讨论
1.静脉穿刺后发生淤血的相关因素 有表1可以看出患者按压方式不正确是造成静脉局部淤血的主要原因,不正确的方式包括(1)按压时间过短,正常人出凝血时间是3-5分钟,也就是说静脉输液完毕,拔针后必须按压穿刺部位5-10分钟才能止住血,对有一些特殊的血液病等凝血功能障碍者,应再适当延长按压时间。若按压时间不足,则会引起皮下淤血。(2)患者拔针后按压位置不当,静脉穿刺时,针头与皮肤一般成20-250角,由静脉上方或侧方快速刺入皮下,沿静脉方向潜行少许刺入静脉血管,因此,皮肤穿刺点与静脉穿刺点不在同一位置,所以,如果拔针后只按压皮肤穿刺点而没有按住静脉血管穿刺点,也会导致皮下淤血。其次有表1还可以看出护理人员的操作不当也占一小部分因素,由于静脉输液在临床上广泛应用,熟练掌握静脉输液穿刺技术及相关知识尤为重要。护理人员的操作因素主要包括输液穿刺技术不高、操作失误、无法辨认血管位置、穿刺血管或针柄固定不牢导致针头脱出血管外导致皮下淤血;还有选择穿刺点不规范,在同一条血管同一部位短时间内反复多次穿刺,造成血管壁多个针孔渗血导致皮下淤血。
中图分类号:O175.27
文献标识码:A文章编号:1672-8513(2010)03-0181-04
Oscillation of the Solutions of Neutral Hyperbolic Partial Differential
Equation with Nonlinear Diffusion Coefficient and Damped Term
ZENG Yunhui
(Department of Mathematics and Computational Science,Hengyang Normal University,Hengyang 421008,China)
Abstract:
This paper discusses the oscillation of solutions of neutral hyperbolic partial differential equation with nonlinear diffusion coefficient and damped term. Some sufficient conditions for each solution are obtained by using Riccati transformation and the method of differential inequality under two kinds of different boundary value conditions.
Key words:
damped term; nonlinear diffusion coefficient; hyperbolic partial differential equation
近年来,国内外许多学者研究了双曲型偏微分方程解的振动性,已有一些研究成果发表[1-6],但具非线性扩散系数和阻尼项的中立型双曲泛函微分方程解的振动性的研究成果目前国内尚未见报道.本文讨论一类具非线性扩散系数和阻尼项的中立型双曲偏微分方程解的振动性.
考虑如下偏微分方程
tr(t)t[u(x,t)+∑dr=1cr(t)u(x,δr(t))]+m(t)t[u(x,t)+∑dr=1cr(t)u(x,δr(t))]=
a(t)h(u)Δu+∑mj=1aj(t)hj(u(x,t-τj(t)))Δu(x,t-τj(t))-
∑nk=1bk(x,t)fk(u(x,t-σk(t))),(1)
其中(x,t)∈Ω×R+G,R+=[0,∞),ΩRn有界且Ω逐片光滑,Δu=∑ni=12ux2i,(x,t)∈G.
边值条件:uN=g(u,x,t),(x,t)∈Ω×R+,(2)
u(x,t)=0,(x,t)∈Ω×R+,(3)
本文总假定下列条件成立:
(H1) r(t),m(t),a(t),aj(t),τj(t),σk(t)∈C(R+,R+); bk(x,t)∈C[×R+,(0,∞)],bk(t)=minx∈Ωbk(x,t),τj(t)≤t,σk(t)≤t,σ′k(t)≤1,cr(t)∈C(R+,R+),0≤∑dr=1cr(t)
(H2) h(u),hj(u),fk(u)∈C(R,R),且对u≠0有 fk(u)u≥Ckconst>0,uh(u)g(u,x,t)
引理1 设Q(t)∈C([μ,+∞);R+),Qk(t),σk(t)∈C([μ,+∞);R+),σk(t)关于t为非减函数且σk(t)≤t,limt+∞(t-σk(t))=+∞,若条件
∫+∞t3 Qk(s)ds=+∞,(t3>0)(4)
成立,则微分不等式 Z′(t)+Q(t)Z(t)+∑nk=1Qk(t)Z(t-σk(t))≤0无最终正解.
证明 (反证法)假设Z(t)是微分不等式
Z′(t)+Q(t)Z(t)+∑nk=1Qk(t)Z(t-σk(t))≤0.
的一个最终正解,则存在t1>0,当t≥t1>0时,Z(t)>0,可得
Z′(t)+∑nk=1Qk(t)Z(t-σk(t))≤0
又σk(t)≤t,limt+∞(t-σk(t))=+∞,则存在t2≥t1>0,当t≥t2>0时,Z(t-σk(t))>0.因此
Z′(t)≤-∑nk=1Qk(t)Z(t-σk(t)),
故limt+∞Z(t)=C1≥0,则存在t3≥t2>0,当t>t3>0时,有Z(t-σk(t))≥C1.从而得
Z′(t)≤-C1∑nk=1Qk(t)(5)
第3期曾云辉:具非线性扩散系数和阻尼项的中立型双曲偏微分方程解的振动性
对(5)在[t3,t]上关于t积分,得Z(t)≤Z(t3)-C1∑nk=1∫t3tQk(s)ds,取极限并结合条件(4)有limt+∞Z(t)≤Z(t3)-C1∑nk=1∫t3∞Qk(s)ds=-∞这与Z(t)>0矛盾,引理1得证.
定理1 对于方程(1)、(2),条件(H1),(H2)及(4)成立,其中
Qk(t)=Ckbk(t)[1-∑dr=1cr(t)]θk[t-σk(t)]1-σ′k(t)r(t-σk(t)),0
若满足
∫+∞t21r(ξ)exp[-∫t1ξm(s)r(s)ds]dξ=+∞,(6)
则方程(1),(2)的所有解在G内是振动的.
证明 假设方程(1),(2)存在一个非振动解u(x,t),不失一般性,不妨设u(x,t)>0,t≥t0>0,t0为某一常数(若u(x,t)0,u(x,t-τj(t))>0,u(x,t-σk(t))>0,u(δr(t))>0,j∈Im,k∈In.
方程(1)两边在Ω上关于x积分得:
ddtr(t)ddt[∫Ωu(x,t)dx+∑dr=1cr(t)∫Ωu(x,δr(t))dx]+m(t)
ddt[∫Ωu(x,t)dx+∑dr=1cr(t)∫Ωu(x,δr(t))dx]=a(t)∫Ωh(u)Δu(x,t)dx+∑mj=1aj(t)∫Ωhj(u(x,t-τj(t)))Δu(x,t-τj(t))dx-∑nk=1∫Ωbk(x,t)fk(u(x,t-σk(t)))dx,t≥t1,(7)
由Green公式及边值条件(2)和(H2)有:
∫Ωh(u)Δux,tdx=∫Ωh(u)u(x,t)Nds-∫Ωh′(u)gradu2dx=∫Ωh(u)g(u,x,t)ds-∫Ωh′(u)gradu2dx≤0, t≥t1,(8)
∫Ωhj(u(x,t-τj(t)))Δu(x,t-τj(t))dx≤0,j∈Im, t≥t1,(9)
其中ds是Ω上的面积元素,又由(H1)和(H2)有
∫Ωbk(x,t)fk(u(x,t-σk(t)))dx≥bk(t)Ck∫Ωu(x,t-σk(t))dx,(10)
令V(t)=∫Ωu(x,t)dx,则当t≥t1时,V(t)>0,由(7)~(10)可得:
r(t)[V(t)+∑dr=1cr(t)V(δr(t))]′′+m(t)[V(t)+∑dr=1cr(t)V(δr(t))]′+∑nk=1Ckbk(t)V(t-σk(t))≤0,
令y(t)=exp∫tt1m(s)r(s)ds,w(t)=[V(t)+∑dr=1cr(t)V(δr(t))],则w(t)≥V(t)>0且有
[r(t)w′(t)]′+m(t)w′(t)+∑nk=1Ckbk(t)V(t-σk(t))≤0,t≥t1(11)
由于[r(t)w′(t)y(t)]′=[r(t)w′(t)]′y(t)+r(t)w′(t)y′(t)=[r(t)w′(t)]′y(t)+r(t)w′(t)y(t)m(t)r(t) =[r(t)w′(t)]′+m(t)w′(t)y(t)
因此, 1y(t)[r(t)w′(t)y(t)]′=[r(t)w′(t)]′+m(t)w′(t).
从而, 1y(t)[r(t)w′(t)y(t)]′+∑nk=1Ckbk(t)V(t-σk(t))≤0.
从而, [r(t)w′(t)y(t)]′≤0.
下证:w′(t)≥0且不能w′(t)0.
若w′(t)0,使当t≥t2>0时,有
r(t)w′(t)y(t)≤r(t2)w′(t2)y(t2)=α
w′(t)≤αy(t)r(t)=α1r(t)exp(-∫tt1m(s)r(s)ds)(12)
对(12)式在[t2,t]上关于t积分,得
w(t)≤w(t2)+α∫tt21r(ξ)exp(-∫ξt1m(s)r(s)ds)dξ .(13)
对(13)取极限及条件(6)有
limt∞w(t)≤w(t2)+α∫+∞t21r(ξ)exp(-∫ξt1m(s)r(s)ds)dξ=-∞这与w(t)>0矛盾.
又若w(t)0,则[r(t)w′(t)y(t)]′0,由(16)可得∑nk=1Ckbk(t)V(t-σk(t))≤0,此不可能,因此,w′(t)≥0且不能w′(t)0.
于是有w(t)=[V(t)+∑dr=1cr(t)V(δr(t))],则w(t)≥V(t)>0,得
V(t)=w(t)-∑dr=1cr(t)V(δr(t))≥w(t)-∑dr=1cr(t)w(δr(t))≥[1-∑dr=1cr(t)]w(t),
V(t-σk(t))≥[1-∑dr=1cr(t)]w(t-σk(t)),
从而由(11)得
[r(t)w′(t)]′+m(t)w′(t)+∑nk=1Ckbk(t)[1-∑dr=1cr(t)]w(t-σk(t))≤0.
由微分中值定理,当t≥σk(t)>t2>0时,存在0
w(t-σk(t))≥θk[t-σk(t)]w′(t-σk(t)),
因此 [r(t)w′(t)]′+m(t)w′(t)+∑nk=1Ckbk(t)[1-∑dr=1cr(t)]θk[t-σk(t)]w′(t-σk(t))≤0.
令Z(t)=r(t)w′(t),则w′(t)=1r(t)Z(t),w′(t - σk (t)) = 1 -σk ′ (t)r(t -σk (t))Z(t -σk (t)),
即Z′(t)+Q(t)Z(t)+∑nk=1Qk(t)Z(t-σk(t)≤0,(14)
其中Q(t)=m(t)r(t).
由引理1得微分不等式(14)无最终正解,因此,存在u≥t2>0,使当t≥u>0时,Z(t)=r(t)w′(t)≤0,故w′(t)≤0,这与已证的w′(t)≥0且不能w′(t)0矛盾.定理1得证.
为了讨论(1),(3)的振动性,引入如下引理.
引理2[8] 设λ0是下列特征值问题
Δφ(x)+λφ(x)=0,x∈Ω,λ是常数,φ(x)=0,x∈Ω,
的最小特征值,φ(x)是与λ0对应的特征函数,则λ0>0,φ(x)>0,x∈Ω.
类似定理1的证明有:
定理2 设定理1中的条件全部满足,h(u),hj(u)为常数(均设为1,j∈Im),则方程(1),(3)的所有解在G内是振动的.
参考文献:
[1]崔宝同,俞元洪,林诗仲.具有时滞的双曲型微分方程解的振动性[J].应用数学学报,1996,19(1):80-89.
[2]何猛省,高述春.双曲时滞偏微分方程解的振动性质[J].科学通报,2001,24(2):295-301.
[3]陈大学,周树清.具有阻尼项和分布时滞的二阶中立型泛函微分方程解振动性[J].西南师范大学学报:自然科学版,2007,32(5):22-26.
[4]罗李平,欧阳自根.非线性时滞双曲型偏微分方程解的振动性质[J].湖南师范大学学报:自然科学版,2006,34(2):10-13.
[5]俞元洪,胡庆席.带有阻尼项的偏泛函微分方程解的振动准则[J].数学的实践与认识,2000,30(3):331-338.
DOI:10.3969/j.issn.1008-0821.2016.02.031
〔中图分类号〕G201 〔文献标识码〕A 〔文章编号〕1008-0821(2016)02-0167-04
〔Abstract〕This paper systematically studied relevant research outputs and compared respective research status on open research data policy home and abroad.In order to provide references for promoting relevant research,this paper discussed the characteristics of relevant research home and abroad,pointed out the shortages of current research in China,and finally evaluated the future research trends on open research data policy in China.
〔Key words〕research data;open data policy;research status;research trend
科学数据(Scientific Data),也称科研数据(Research Data),与科学论文一样也被视为重要的科研产出,也是一种具有潜在经济价值的战略资源。开放科学数据对数据驱动科学研究起到了关键作用,越来越多的研究是建立在对已有科学数据重用的基础之上的。因此,完整保存并开放获取先前研究的科学数据,对于顺利开展后续研究、推动科学进步具有重要意义。开放科学数据在国家科技创新中的战略地位不断提升,目前在开放规模和开放程度上均达到了前所未有的水平。通过开放科学数据改善社会生活受到众多投资者、出版商、科学家和其他利益相关者的高度关注,欧洲、美国以及众多国际组织与研究机构都积极建立开放科学数据的政策保障与管理机制。如美国已经形成了以“完全与开放”为基本国策的科学数据开放共享法规体系;经济合作与发展组织(OECD)颁布了《公共资金资助的科学数据获取原则与指南》,以指导成员国制定与完善科学数据开放共享政策;欧盟“地平线2020计划”将科学数据新增为开放存取的对象并要求逐步达到开放性可获取,并启动了旨在促进科学数据获取和再利用的“科学数据开放先导性计划”[1]。
我国早在2002年就已正式启动科学数据共享工程,并先后在六大领域共计24个部门开展了科学数据共享工作。2006年以来,中国科学院国家科学图书馆提出并开展了科学数据与科技文献跨界集成服务、数据融合技术的研究和开发。目前,我国在科学数据开放政策的制定和完善方面,与美国、英国、澳大利亚、日本、韩国、台湾等国家和地区相比仍显滞后。本文针对国内外科学数据开放政策的研究现状进行了比较分析,在此基础上探讨了国内外相关研究的特点以及我国现有研究的不足,并对我国科学数据开放政策的未来研究动向进行了评判。
1 国内研究现状分析
对从CNKI和万方数据两大中文数据库检索到的相关文献进行阅读和梳理发现,我国针对科学数据开放政策的相关研究可以概括为以下5个方面:
1.1 建立开放科学数据政策保障机制的理论性研究
目前已有较多成果是针对建立和完善科学数据开放共享政策法规的顶层设计展开论证,如刘细文(2009)指出,美国、英国以及众多国际组织与研究机构都就科学数据开放获取问题,积极建立政策保障与管理机制并广泛推行相关服务与实践,其政策举措主要围绕科学数据交流渠道各环节,集中体现在数据开放资助、数据质量控制、数据合法保护、数据保存以及数据共享利用五大方面[2]。王晴(2014)指出:国内外20余个组织相继制定或实施了30余条旨在促进科学数据开放共享的政策法规,根据制定主体和效力范围可以分为宏观、中观和微观3个层面,共同形成了一个较为完备并在不断完善的制度体系[3]。
1.2 针对国内外各类科学数据开放共享政策的调查研究 目前已有部分成果针对多种政策主体(如高等院校、科研资助机构、信息服务机构等)的有关开放科学数据的声明、指南以及政策法规等各类政策文本展开了调查分析,如司莉等(2013)考察了美国、英国、澳大利亚3个国家的科研管理机构、高校制定的数据管理政策以及政府制定的数据公开政策,并指出:发达国家的政府部门都制定了科学数据开放共享政策,对科学数据的保存与管理等均作了明确具体的规定。我国政府也应制定完善的科学数据开放共享政策,从政策层面对科学数据的开放共享进行指导和规范[4]。司莉等(2014)针对英美10所高校的科学数据开放共享政策,从一般政策、数据标准、数据访问与保存、数据共享、数据安全与保护以及数据产权6个方面进行了调查与比较,揭示了英美两国大学科学数据开放共享政策的特点与差异,指出通过借鉴国外大学科学数据开放共享政策的良好实践,推动我国大学相关政策法规的制定和[5]。唐源等(2015)针对国外典型医学相关机构的科学数据开放共享政策从科学数据开放资助、科学数据汇交、科学数据保存、数据共享利用4个方面的政策内容进行文献调研和网站调研,指出国外政策制定者从政府到机构自身以及期刊等具有多重身份,政策内容集中于数据汇交和共享计划。
1.3 科学数据开放政策利益主体的开放共享行为研究 由于开放科学数据的利益主体一般要受到相关政策法规的制约,因此也可视为科学数据开放政策的利益主体。国内的相关研究成果主要包括:①单一利益主体的开放共享行为的共享意愿及影响因素分析,如张晋朝(2013)通过问卷调查方法和结构方程模型,分析了我国高校科研人员科学数据共享意愿的影响因素,指出科学数据开放共享工作的顺利开展不仅要关注技术维度,还要关注社会环境因素、内在激励、人际信任等人文维度[7]。②针对单一利益主体的开放共享行为的演化博弈分析,如庄倩等(2015)建立了参与科学数据开放共享的科研人员之间的演化博弈模型,揭示了科学数据开放共享博弈中存在的"公共品困境"及其原因,指出为促进我国科学数据开放共享健康有序发展,不能仅从国家层面制定和完善相关的战略规划,还要从政策法规层面建立相应的激励机制[8]。
1.4 制定开放科学数据相关知识产权政策法律问题的研究 虽然目前科学数据具有著作权已经成为共识,但其使用存在著作权界定不清及其利益分配不当等问题,尤其是科学数据二次研发过程中的著作权分配问题。司莉等(2015)从科学数据开放共享中的授权方式、数据出版及引用、技术措施、制度与法规、科学数据二次利用5个方面分别探讨了科学数据著作权保护存在的问题及对策,指出我国应结合知识产权保护法、著作权法、专利法和中华人民共和国政府信息公开条例等已有法规条例,尽快建立完善的科学数据著作权保护体系[9]。
1.5 基于政策文本分析的科学数据开放政策实证研究 目前国内的相关研究成果非常有限,主要是通过内容分析法进行政策文本分析,如裴雷(2013)通过内容分析法构建了基于政策文本的上下位政策概念一致性的测算框架,并对我国12个领域的科学数据开放共享政策文本进行内容编码和实证分析,探讨了当前我国科学数据开放共享政策在吸收、扩散和创新过程中的政策文本质量[10]。
2 国外研究现状分析
对从Springer、Emerald和Elsevier三大外文数据库检索到的相关文献进行阅读和梳理,可以发现国外科学数据开放政策研究所涉及的研究主题更为广泛,可以大致概括为以下5个方面:
2.1 制定科学数据开放政策的理论探讨与实践研究
国外学者针对这一研究主题的研究成果也比较丰富,如Childs S等(2014)探讨了作为实现开放科学数据的机制――科研数据管理(RDM)的作用以及它带给记录管理者的机遇,并指出开放科学数据议程的前提是尽可能公开可用的数据,在开放科学数据的背景下仍然存在方法、伦理、政策和实践等层面的问题[11]。Higman R等(2015)借鉴行动者网络理论(Actor Network Theory)并结合政策分析过程和案例研究方法,考察了在英国高等教育机构中建立科学数据管理(RDM)政策与实践的驱动因素,以及科学数据开放共享在科学数据管理过程中的关键作用[12]。
2.2 科学数据开放政策利益主体的开放共享行为研究 国外学者针对科研人员的开放共享行为的共享意愿及其影响因素展开了较为系统的实证研究,如Wicherts J M等(2011)对心理学期刊中的统计结果显著与数据共享意愿的相关性进行了实证研究,发现科研人员不愿意共享数据的主要原因在于:统计结果不构成充分的证据以及更有可能存在明显的错误,并强调了建立科学数据的强制性归档政策的重要性[13]。Sayogo D S等(2013)指出科学数据开放共享存在多重障碍与挑战:①技术上的障碍;②社会、组织和经济上的障碍;③法律和政策上的障碍,并通过问卷调查得出影响科研人员开放共享意愿的几个关键因素:数据管理技能、组织参与、法律与政策需求、向数据集提供者致谢[14]。
2.3 面向科学数据开放政策利益主体的开放共享服务研究 国外学者针对高校图书馆、研究型图书馆、信息服务机构的科学数据开放共享服务实践展开了广泛的研究,国内的相关研究主要是对国外科学数据服务实践的案例研究及调查分析,如Nielsen H J等(2014)认为科学数据管理(RDM)是图书馆员和信息专业人员的潜在职责,研究型图书馆是选择、保护、组织与利用科学数据的最佳场所,并应积极参与到其所在学科领域的特定领域的分析研究[15]。Tenopir C等(2014)指出数据密集型科学的出现和数据管理规范的制定,驱动高校图书馆为其教师和学生开展数据管理服务(RDS),并通过调查研究建立了图书馆员、图书馆、信息服务机构参与数据管理服务的评价基准[16]。
2.4 针对专业领域科学数据开放政策的政策分析研究 国外学者针对天文、气象、地球、生物、医学等自然科学以及心理学、伦理学等社会科学专业领域的科学数据开放共享政策进行了政策分析研究,如Harris R等(2015)考察了参与开放地球观测数据的八国集团、欧盟和国际组织的21个政策文本和法律文书――八国集团(G8)开放数据、全球综合地球观测系统(GEOSS)数据共享原则、经济合作与发展组织(OECD)科学数据原则与指南、欧洲环境信息指令等,指出地球观测领域开放数据政策应更加明确、完整地说明开放获取的条件,以期充分实现开放地球观测数据的潜在利益[17]。
2.5 基于政策文本分析的科学数据开放政策实证研究 国外学者进行政策文本分析时除了运用常规的内容分析法以外,还创新性地引入了语义网分析、社会网络分析等研究方法,如Jung K等(2015)对韩国《开放公共数据指令》(OPDD)的政策文本进行了语义网分析,并指出:利用语义网的概念模型及分析过程有助于确定各类公共政策针对的主要问题及解决视角的一致性[18]。
3 国内外研究现状的比较分析
对国内外科学数据开放政策的相关研究进行对比,可以发现具有以下几个特点:①总体来看,我国学者针对科学数据开放政策各研究主题的相关研究,目前大多处于对国外先进政策实践的案例研究与调查分析阶段。②国内外针对科学数据开放政策的相关研究目前主要以英美两国的政策实践为主,原因在于英美两国已经建立起相对完善的科学数据开放政策法规体系,如经济合作与发展组织(OECD)于2007年颁布了《公共资助科学数据开放获取的原则和指南》,提倡所有的获公共资金支持得到的科学数据都应能被公众获取、共享。美国、英国等一些重要基金机构也提出了科学数据开放政策指南,如美国国家科学基金会(NSF)、美国国立卫生研究院(NIH)、美国国家航空航天局(NASA)、英国研究理事会(RCUK)等,要求所有获得资助的项目提交科学数据的开放共享计划。美国科技政策办公室(OSTP)于2013年签署了关于“提高联邦政府资助的科学研究结果的访问”的备忘录,要求由联邦资金资助所产生的非保密的科学数据,应该存储并为公众提供免费的最大化访问[19]。③国内外对于具体专业领域的科学数据开放政策的研究相对较多,但对于国家统一综合层面的科学数据开放政策研究十分有限。
对比国内外开放数据政策研究的现状不难看出,国内相关研究主要存在以下不足:①目前的研究成果主要是针对国外高等院校、信息服务机构和科研资助机构的科学数据开放共享政策的调查研究与比较分析,但从整体来看这类研究成果的研究内容比较分散、系统性不强;②已有研究针对参与科学数据开放的单一利益主体(如研究人员)的开放共享行为进行了演化博弈分析,尚未发现针对参与科学数据开放的多个利益主体之间的演化博弈分析的相关研究;③针对科学数据开放政策的政策文本分析目前主要采用内容分析法,尚未展开借鉴多学科理论与方法的政策文本分析方法的探索性研究;④尚未展开针对科学数据开放政策群的政策协同研究,已有学者针对政府数据的开放数据政策与数据安全政策的协同关系展开研究[20],如黄道丽等(2015)分析了美国政府的开放数据政策与网络安全政策之间的冲突与协调[21],但尚未发现有针对科学数据展开的类似研究;⑤尚未从政策科学的研究视角展开系统性的科学数据开放政策评估研究。
4 我国未来研究动向评判
通过以上的比较分析,笔者认为,我国图书情报及相关学科领域研究者应展开协作研究,并从以下5个方面强化和拓展这一重要的跨学科研究领域。
4.1 各类科学数据开放政策的调查与比较分析
针对主要发达国家的政府部门、高等院校与科研机构以及各类国际组织的有关开放科学数据的声明、指南以及政策法规等各类政策文本展开广泛的调查分析,比较和分析各类政策文本中有关一般政策、数据标准、数据共享、数据保存、数据安全和数据产权等方面内容的特点与差异,合理借鉴发达国家在政策的系统性、一致性、完善性方面的经验,为推进我国科学数据开放政策的制定与完善提供必要的参考借鉴。
4.2 科学数据开放政策多个利益主体的博弈分析
现有的研究成果主要是针对参与科学数据开放的单一利益主体(如研究人员)的博弈分析,在后续研究中可针对参与科学数据开放的多个利益主体(研究人员、科研机构、数据中心、资助者、出版者、第三方用户等)之间的利益诉求关系展开研究,建立参与科学数据开放的多个利益主体之间的演化博弈模型,探索促进多个利益主体开放科学数据的激励机制,为从微观层面制定和完善科学数据开放政策提供演化博弈的理论框架。
4.3 基于多学科方法的科学数据开放政策文本分析
值得关注的研究方向包括:①借鉴多学科理论与方法对政策文本进行内容分析,如借鉴扎根理论的“信息提取-归纳-概念化-重组”思想,对各类科学数据开放政策文本进行解构、分类和比较,提取科学数据开放政策的区分要素,确定政策文本结构化编码体系和分类标准,将政策文本转化为半结构化数据,建立类定量化的政策文本分析框架。②基于知识单元的政策文本分析方法的探索性研究,如借助于语义网分析和社会网络分析方法,探索政策文本的词汇分析单元之间的语义关联关系,并可通过软件工具进行网络结构分析及可视化展示。
4.4 各类科学数据开放政策的政策协同研究
值得关注的研究方向包括:①科学数据开放政策群内部的政策协同研究。通过内容分析法对各类科学数据开放政策进行政策文本分析,从政策连续性、政策互补性、政策交叉性、政策缺失性及政策矛盾性等多个维度考察科学数据开放政策群内部的政策协同。②科学数据开放政策群与数据安全政策群的政策协同研究。借鉴协同论思想和政策协同理论及工具,设计科学数据开放政策群与《中华人民共和国保守国家秘密法》、《中华人民共和国科学技术保密规定》以及其他相关部门颁布的保密规定等数据安全政策群的政策协同机制,制定科学数据开放政策群与数据安全政策群的政策协同策略。
4.5 科学数据开放政策的政策分析与评估研究
将侧重于定性分析的政策分析研究与侧重于定量分析的政策评估研究相结合,针对科学数据开放政策,从政策科学的学科视角进行多角度的政策分析与评估研究,如针对科学数据开放政策完整的生命周期中的每一环节――政策提案、政策制定、政策实施、政策反馈和政策调整,综合运用多种政策科学相关理论、方法与工具进行系统性的政策评估研究;运用层次分析法、模糊综合评判法、数据包络分析法和灰色关联度法等政策评估方法,建立科学数据开放政策评估指标体系并进行指标权重分析,采用数学模型及软件工具构建科学数据开放政策评估模型并进行模拟实验。
5 结 论
通过CNKI和万方数据两大中文数据库以及Springer、Emerald和Elsevier三大外文数据库,笔者对国内外现有的科学数据开放政策的相关研究成果进行了比较研究,并在此基础上探讨了国内外相关研究的特点:目前国内的相关研究基本处于对国外先进政策实践的案例研究与调查分析阶段,国内外针对科学数据开放政策的相关研究目前主要以英美两国的政策实践为主。结合科学数据开放政策相关领域的学术研究与实践进展,我国在这一跨学科研究领域未来可能出现五大研究动向:①各类科学数据开放政策的调查与比较分析;②科学数据开放政策多个利益主体的博弈分析;③基于多学科方法的科学数据开放政策文本分析;④各类科学数据开放政策的政策协同研究;⑤科学数据开放政策的政策分析与评估研究。从而推动我国开放科学数据的政策保障与管理机制的建立。
参考文献
[1]韩缨.欧盟“地平线2020计划”相关知识产权规则与开放获取政策研究[J].知识产权,2015,(3):92-96.
[2]刘细文,熊瑞.国外科学数据开放获取政策特点分析[J].情报理论与实践,2009,32(9):5-9.
[3]王晴.论科学数据开放共享的运行模式、保障机制及优化策略[J].国家图书馆学刊,2014,(1):3-9.
[4]司莉,邢文明.国外科学数据管理与共享政策调查及对我国的启示[J].情报资料工作,2013,(1):61-66.
[5]司莉,辛娟娟.英美高校科学数据管理与共享政策的调查分析[J].图书馆论坛,2014,(9):80-85,65.
[6]唐源,吴丹.国外医学科学数据共享政策调查及对我国的启示[J].图书情报工作,2015,59(18):6-13.
[7]张晋朝.我国高校科研人员科学数据共享意愿研究[J].情报理论与实践,2013,36(10):25-30.
[8]庄倩,何琳.科学数据共享中科研人员共享行为的演化博弈分析[J].情报杂志,2015,34(8):152-157.
[9]司莉,贾欢,邢文明.科学数据著作权保护问题与对策研究[J].图书与情报,2015,(4):118-122.
[10]裴雷.我国科学数据共享政策概念一致性与政策质量评估[J].情报理论与实践,2013,36(9):28-31.
[11]Childs S,McLeod J,Lomas E,et al.Opening research data:issues and opportunities[J].Records Management Journal,2014,24(2):142-162.
[12]Higman R,Pinfield S.Research data management and openness:The role of data sharing in developing institutional policies and practices[J].Program:Electronic library and information systems,2015,49(4):364-381.
[13]Wicherts J M,Bakker M,Molenaar D.Willingness to share research data is related to the strength of the evidence and the quality of reporting of statistical results[J].PLoS ONE,2011,6(11):1-7.
[14]Sayogo D S,Pardo T A.Exploring the determinants of scientific data sharing:Understanding the motivation to publish research data[J].Government Information Quarterly,2013,30(S1):19-31.
[15]Nielsen H J,Hjrland B.Curating research data:the potential roles of libraries and information professionals[J].Journal of Documentation,2014,70(2):221-240.
[16]Tenopir C,Sandusky R J,Allard S,et al.Research data management services in academic research libraries and perceptions of librarians[J].Library & Information Science Research,2014,36:84-90.
[17]Harris R,Baumann I.Open data policies and satellite Earth observation[J].Space Policy,2015,32:44-53.
[18]Jung K,Park H W.A semantic(TRIZ)network analysis of South Koreas“Open Public Data”policy[J].Government Information Quarterly,2015,32(3):353-358.