时间:2023-07-05 15:57:53
序论:速发表网结合其深厚的文秘经验,特别为您筛选了11篇复杂网络分析范文。如果您需要更多原创资料,欢迎随时与我们的客服老师联系,希望您能从中汲取灵感和知识!
一、引言
系统是由相互作用和依赖的若干组成部分结合的具有特定功能的有机整体[1]。而网络是由节点以及节点之间的连线组成的,将真实系统中的元素看成网络中的节点,元素之间的数量关系看成网络中的边,用这种方式构建的网络可以用来描述各类真实系统。近年来,复杂网络作为大量真实复杂系统的高度抽象[2],成为学者们研究的热点,很多国际一流的期刊都陆续刊发了许多有关复杂网络的论文,研究范围包括:电力网络、病毒传播网络、神经网络、演员合作网络、交通网络等,而对产业结构进行研究的论文还较少。
经济的发展与其产业结构有重要的关联。产业结构转型是地区经济快速增长的核心驱动力[3]。而优化高效的产业网络是经济社会全面发展的必要条件[4]。本文以我国产业结构为研究对象,将其抽象为由产业和产业关联所组成的复杂网络,产业作为网络中的节点,产业间的联系视为网络中的边,以此建立起产业结构的网络模型,计算网络的统计特征,研究网络的复杂性,希望能为中国产业结构的优化发展提供决策依据。
二、方法和数据来源
中国的产业结构网络由42个产业(即节点)组成,数据来自中国2012年的投入产出表。对数据说明如下:
第一,不考虑本产业之间的中间投入,这样可以避免建立一个自环的网络。
第二,引入消耗系数并作无向化处理。计算过程如下:
第一步:计算直接消耗系数。
aij=xij/xj(i,j=1,2,……n)(2-1)
其中,aij为j产业生产时所消耗i产业投入的系数,xij为i产业对j产业的中间投入,xj为j产业的产出。
第二步:无向化处理。
rij=aij+aji2(2-2)
在本文中设a为消耗系数的临界值,然后对所有的rij取均值即得到a。如果rij≥a则认为这两个部门之间有联系,即两点之间有边。本文计算出的a值为4.324×10-3,即当rij≥4.324×10-3时,i和j之间有边存在,经计算网络中的边数为1936条。
三、网络相关统计指标
(一)平均最短距离
平均最短距离描述了网络中各个节点的分离称度。在产业结构网络中,两个产业之间最少的边数即为两节点之间的最短距离。因此,网络的平均最短距离可定义为所有节点最短距离的平均数。计算如下:
L=2N(N-1)∑i>jdij(3-1)
其中,N=42是网络的节点数,dij为节点i与节点j之间的最短距离,计算的中国产业结构网络的平均最短距离为1.372。
(二)平均簇系数
簇系数是用来衡量网络节点聚类称度的参数,节点i的簇系数计算如下:
Ci=1Ki(Ki-1)∑Nj,k=1bijbjkbki(3-2)
其中ki为节点i的度,bij为邻接矩阵元,当节点i,j相邻时其值为1,否则为0。
因此,整个网络的簇系数为:
C=1N∑Ni=1Ci(3-3)
计算可得中国产业结构网络的簇系数为0.533,具有一定的聚集性。
(三)度及其分布
与节点连接的边的数量称为节点的度,而网络的度是网络中所有节点的度的平均值。节点的度越大代表节点的影响力越大,在网络中的地位越重要,反之亦然。度分布用分布函数P(k)表示,可定义为在网络选择一个节点其度值为k的概率,也等于网络中度值为k的节点的个数与网络节点总数比值。根据数据可以算的中国产业结构网络的平均度为23.4,即每个产业平均与23个产业相连。
(四)度-度相关性
度-度相关性指的是节点之间相互选择的偏好,节点i的所有邻近节点的平均度可记为:
Knn,i=1Ki∑kij=1Kij(3-4)
其中,Kij是i的Ki个邻近节点的度,j=1,2,……,ki。度为k的所有节点的邻近点的平均度,公式如下:
Km(k)=1Nk∑iki=1Km,vi(3-5)
其中,度为k的节点表示为v1,v2,……,vi,Nk是指网络中度为k的所有节点的个数。
通过计算我们就可以知道网络的相关性,当Km(k)随着k的增加而增加,随着k的减小而减小,即可判断网络是正相关的,反之如果Km(k)随着k的增加而减小,随着k的减小而增加,即可判断网络是负相关的。运用Newman给出的计算方法可计算出网络节点度的Pearson相关系数r[5]。公式如下:
r(g)=M-1∑ijiki-[M-1∑i12(ji+ki)]2M-1∑i12(ji+ki)-[M-1∑i12(ji+ki)]2(3-6)
式中,M为观察到的网络中的连线的数目,jk,ik是第i条连线两端的节点度数且i=1,2,……,M,-1≤r≤1。
根据公式计算出的中国产业结构网络的相关系数r=0.628,度度之间表现为正相关性,说明度小的节点优先连接度大的节点。
(五)介数中心性
介数中心性是以经过某个节点的最短路径的个数来刻画节点重要性的,简称介数(BC),具体地,节点i的介数可定义为:
BCi=∑s≠i≠tnistgst(3-7)
其中,gst为从节点s到节点t的最短路径的数目,nist为从节点s到节点t的gst条最短路径中经过节点i的最短路径的数目。计算可得,中国产业结构网络中各节点的点介数分布前十的产业如下:
表节点介数排名前十的产业
序号产业节点介数
1化学工业0.24836
2金属冶炼及压延加工业0.14637
3电力及蒸汽、热水生产和供应业0.11293
4农业0.08534
5商业0.07246
6货运邮电业0.06582
7石油和天热气开采业0.06191
8机械工业0.04237
9电子及通信设备制造业0.03183
10食品制造业0.03012
节点介数的大小反映了该产业在网络中的影响力,因此如果将表中的某个或某几个产业乃至全部的产业从网络中去除将会极大的影响网络的运行。
四、结论
本文借助复杂网络理论对中国产业结构网络性质做了初步的研究,得出中国产业结构网络是一个小世界网络,具有小的平均最短路径和较大的聚集系数,度-度表现出正的相关性,说明度小的节点倾向于与大的节点连接。对于复杂网络所涉及到的更为复杂的研究方面包括:边的方向及边权、点权对网络性质的影响等在本文中没有做深入的研究。(作者单位:兰州交通大学经济管理学院)
参考文献:
[1]钱学森,许国志,王涛云.论系统工程[M].长沙:湖南科学技术出版社,1988:7-12.
[2]周涛,柏文洁,汪秉宏等.复杂网络研究概述[J],物理,2005,34(1):31-36.
1.引言
物流网络是物流活动的重要体现,也是衡量物流活动有效性的重要指标。随着人工,仓租以及燃油费用的上升,企业要想有效地控制物流成本和提升服务客户的能力,就必须清楚地认识物流网络的结构和功能,以及合理地对物流网络进行管理,在达到满足客户需求的基础上最大程度地降低物流成本的目的,从而大大增加企业的价值。
物流网络系统是动态的复杂网络系统,是复杂网络系统的一个子集,因而它具有复杂网络系统的大部分特征。复杂网络理论的研究方法可以用来深入分析和准确研究物流网络系统运行的客观规律、物流网络系统的结构和功能以及物流网络系统的动态发展趋势和规律。
2.物流网络的研究现状
Mortiz Fleischmann等对不同行业的产品回收物流网络设计研究并概括产品回收网络的一般特征,并比较它们与传统的物流结构,此外,为不同类型的回收网络得出一个分类方案【1】。姚卫新等探讨了在电子商务环境下,为满足客户需要所形成闭环供应链物流网络的特点【2】。王建华等针对具有批量折扣和转运的供应链优化问题特征,提出供应物流网络的概念及其优化参数:节点、线路和流量【3】。杨光华等分析了区域物流网络的结构并阐述了物流宏观层面的特征,建立了基于加权网络的区域物流网络模型;从节点度和强度的分布、边的权重差异度等对区域物流网络的结构进行了定量分析【4】。吉迎东基于物流网络的整体性和动态性,分析了中国煤炭物流网络的特征【5】。韩舒怡等认为网络化是物流发展的方向,物流网络协同服务是物流网络化的主要表现形式之【6】。
从研究方法看,目前从复杂网络、复杂性来分析物流网络的研究较少,对物流网络系统的结构演化以及网络演化的内部规律探讨较少。从研究理论的视角来看,当前的研究往往基于静态、局部的视角,通常把物流网络系统的结构看成是相对稳定的、静止的,并试图优化网络系统中的物流、资金流和信息流,而没有充分注意到物流网络系统的动态适应性问题,没有从系统的整体运行规律上来考虑问题。在实际操作中,物流网络系统的结构是可根据企业的整体需要来改变的,目前的研究不能说明物流网络的形成演化机制,不同行业的物流网络为何有显著差别等问题。因此,有必要深入挖掘复杂网络理论、复杂性理论在物流网络分析中的应用价值。
3.物流网络的复杂网络特征
物流网络的小世界网络特征。研究表明:小世界网络具有高集聚系数和较小的平均路径长度。物流网络的聚集系数和平均路径长度反映了小世界的复杂性网络特征:
(1)平均路径长度是指网络中所有节点对之间的平均最短距离。网络中任意两个节点i和j之间的距离 定义为连接两个节点的最短路径。网络的直径为网络中任意两个节点之间距离的最大值,记为D= 。在无向网络中,网络中节点对之间最短距离的算术平均值为平均路径长度L,其公式为:L= 。其中,N表示网络中的节点总数。平均路径长度公式中包含了每个点到自身的距离(为0)。对于物流网络来言,平均路径可以表示产品交付给客户的时间也可以表示配送产品或者中间产品到客户的费用。随着商品生命周期不断缩短的同时客户对配送时间要求的提高,如何以最小费用、最短时间内将产品交付客户成为节点企业生存与发展的战略问题。物流网络中的任何一个节点企业为了在激烈的竞争中保持优势,必须做到以下几点:注重信息网络的建设,加快信息流通的速度,减少产品运输距离,提高自身协调和反应能力,建立配送物流中心,使物流网络具有较小的平均路径长度。
(2)聚集系数是衡量网络集聚特性的统计量,其定义有很多种不同的表述方式,本文介绍一个Watts等人提出的定义【7】: 假设网络中的某个节点i有 个节点与它相连,这 个节点就称为节点i的邻节点,这 个节点之中最多可能有 条边, 因此这 个节点之间实际存在的边数 和总的可能边数为 之比为节点i的集聚系数 : = 。对于度为0或1的节点,上式中的分子和分母均为0,故认为集聚系数 =0。所有节点i的集聚系数 的平均值是网络的集聚系数C,记为:C= 。对物流网络而言,平均聚类系数是物流网络节点企业之间相互连接和交流的程度。随着计算机技术和互联网技术的高速发展,越来越多的企业应用信息技术和互联网建立连接,如ERP、EDI系统的使用等。通过信息共享,使得物流网络中各节点企业之间的联系更加紧密,交流更加频繁。因此,物流网络具有较高的聚集系数。
度分布是网络的一个重要统计特征,节点的度指是与节点连接的边数【8】。Barabdsi和Albert在1999年提出了著名的BA模型,准确地描述了无标度网络形成的机制。无标度网络最大的特点在于网络的度分布自相似性结构和存在节点度很大的节点。一个节点的度越大,表示它在网络中的重要性就越大。节点的度可以根据其邻接矩阵来定义,将其定义为: 。网络中节点的度分布可用函数P(k)来表示,它表示网络中任意的一个点,度值为k的概率。从统计学上来讲,即为网络中度数为k的节点个数与网络节点总数的比值:P(k)= 。其中, 表示网络中度数为k的节点个数,而N表示网络中总节点个数,即网络的规模。网络的节点平均度为网络中所有节点i的度 的平均值。从目前的研究来看,两种度分布较为常见:一种是指数度分布,P(k)随着k的增大以指数形式衰减;另一种分布是幂律分布,即P(k)- 。物流网络中,通常都有一个或者多个核心企业,众多的节点企业围绕核心企业建立的生产、营销、库存、配送网络体系,极大地体现了复杂网络的无标度性。近年来,基于低成本、高服务质量而建立的第三方、第四方物流的物流网络更是集中体现了复杂网络的无标度性。
4.物流网络的复杂性分析
首先,现实中的物流网络一般都有大量的节点数,其拓扑结构以及数量巨大的节点相互作用下“涌现”网络演化的规律和网络动力学的特性。物流网络中的节点数量不仅众多,而且各自的种类多样。从网络的拓扑结构来看,物流网络通常具有多层次性,由众多的子网络构成。子网络一层一层往下拓展,从而形成了复杂的空间拓扑排列,如图1.4所示【9】。
第二,节点之间的线路是不确定的。由于节点之间相互作用的关系是不确定的,那么节点之间的线路也是时刻在变化的。节点之间的线路意义很多,可以表示路径,也可以表示流量,还可以表示相互之间的策略选择等。物流网络内节点之间的连接是有机的,连接的方式是按节点企业之间的协议来进行的。从图上来看,物流网络内节点之间的连接是按非线性方式进行转化;连接各个节点的边所代表的内容多种多样,可表示配送线路的连接、有无库存供货的合作、合作的紧密度等,其连接方式呈现立体动态结构。物流网络内节点是相互影响,相互关联的,并逐步扩大为不同物流网络之间的相互连接、相互影响、相互作用,以复杂的耦合方式推动不同网络之间的演进,从而形成一个纷繁复杂的大世界。
第三,物流网络的动态性。物流网络是动态网络,而且网络具有实时动态演进的特征,这又导致了网络结构和功能的实时变化,并通过涌现和自组织的机理产生网络的复杂效应。物流网络随着时间的变化而变化,经过网络内部和外界环境的相互作用,不断适应、调节网络的结构和功能,同时通过自组织作用,整个网络向更高级的有序化发展,不断涌现出复杂网络独特的行为与特征。
第四,物流网络的运行环境是不确定的。物流网络的运行环境是瞬息万变的。从宏观环境来讲,经济、科技、信息的全球化使得信息的传播迅速且广泛,信息数量之多使得网络的反馈系统任务繁重。“牵一发而动全身”,由于宏观环境的任何一个细微的变化都有可能造成物流网络巨大的震荡。从微观环境而言,物流网络中的任何一个节点所处的外界环境都是不同的,而且每个节点对待环境的变化所持的策略和态度各异,因此对整个物流网络的作用而言是非常复杂且是不确定的。物流网络是开放的动态系统,它与外部世界相互联系、相互作用,系统与外界环境是紧密相关的。物流网络时刻与外界进行物质、能量、资源和信息的交换。只有通过交换,物流网络才能得以生存和发展。任何一个复杂网络,只有在开放的条件下才能形成,才能维持,才能发展。
第五,物流网络的自组织。物流网络都具有自组织能力,能通过反馈系统进行自控和自我调节,以达到适应外界变化的目的。物流网络一旦建立,在运行中无不表现出系统的自组织属性。物流网络的各个节点企业通过契约、合作、战略联盟等方式进行物流、资金流、现金流的交换,在市场的作用下进行物质和能量的交换,优胜劣汰。在物流网络系统远离平衡态的情况下,有些节点企业发展较好,获得的资源较多,技术力量也日渐雄厚;反之,有些节点企业在市场竞争的角逐下,日渐衰弱,从而推出原有的物流网络系统。
第六,物流网络的混沌性。物流网络也受自身结构和功能的种种参数约束。如物流网络中的牛鞭效应,充分说明了物流网络有时受初值的影响是巨大的,物流网络在动态演化的过程中,只要起始状态(初始值)稍微有一点点微笑的变化,这种变化会迅速积累和成倍地放大,最终导致物流网络行为发生巨大的变化。简单假设一个物流网络系统,这个网络只有1个零售商、1个批发商、1个分销商和1个制造商。零售商预测客户需求,然后向批发商订货,批发商向分销商订货,而分销商则向制造商订货,制造商根据分销商的订货量进行生产的同时保持一定的安全库存。如果客户需求是n,假设每个节点企业上的安全库存率是10%,那么零售商、批发商、分销商的订货量分别为1.1n, n, n,那么制造商的生产量应为 n(即为1.62n)。因为可以看出第1个时间段,制造商最后的产量是客户需求量的160%,那么第t个时间段,制造商的产量是客户需求的 倍,其中t大于等于1。因此,只要这个初始值n发生一个小小的变动,即可产生巨大变化。针对物流网络中产生的混沌效应,节点企业必须重视需求预测,信息共享,每个节点企业缩短供货的时间,尽量减少不确定性,建立战略伙伴关系,设置合理的安全库存。
第七,物流网络的稳定性。物流网络具有一定的稳定性,在一定的外界条件下能保证网络结构的稳定和基本功能的正常发挥,换句话说物流网络具有一定的抗干扰性,如网络的鲁棒性。网络的鲁棒性是指网络系统在一定的外界环境作用下,网络的某些结构发生变化、节点数量的增减或则是出现运行故障的情况下,网络系统仍能保持其正常的相关性能进行运转,网络系统的这种稳定的、自我调整、自我适应的能力称为“鲁棒性”。刘楚燕在她的硕士论文中提出集聚型供应链网络的内部存在多个核心节点企业,这些企业在战略、战术、资源和信息方面相互依赖、相互交互,以信息流、资金流、物流的交换方式构成一个复杂的供应链网络,而这种网络具有较强的鲁棒性【10】。浙江大学李刚的博士论文研究了供应链的网络鲁棒性,将鲁棒性具体分为静态鲁棒性和动态鲁棒性;关于静态鲁棒性,文中提出随机删除节点, 删除目标节点,随机删除连接边和删除目标连接边四种规则对其模拟研究,结果显示,供应链物流网络针对不同类型的破坏呈现出不同的鲁棒性能【11】。在物流网络中,由于受到突发事件的影响,如果有些节点不能正常运转,或者需要临时增加网络节点来满足需求,很多情况下,物流网络的整体运作是不受影响的,换句话说还是能正常完成其系统特有的功能的。这就说明,物流网络具有一定的稳定性。
随着经济、信息全球化的程度加深,竞争的加剧,内外部环境的不确定性增加,物流网络涉及到的节点企业越来越多,结构越来越复杂,功能的变化也趋于复杂。利用复杂网络的理论和复杂性理论来揭示物流网络的性质,研究物流网络的动态生成演化过程机制,探索物流网络节点企业之间的协调机制,分析各个节点的脆弱性、不确定性,以及整个网络的鲁棒性和适应性,以此来实现物流网络的优化。
参考文献
【1】Mortiz Fleischmann, Hans Ronald Krikke, Rommert Dekker, Simme Douwe P. Flapper. A characterisation of logistics networks for product recovery. Omega, Volume 28, Issue 6, December 2000, Pages 653-666;
【2】姚卫新.电子商务条件下闭环供应链物流网络的设计.管理科学.2005年06期;
【3】王建华,李南,徐斌.具有批量折扣的供应物流网络优化遗传算法研究.中国管理科学,2007年03期;
【4】杨光华,李夏苗,谢小良.加权区域物流网络结构分析.计算机工程与应用.2009年26期;
【5】吉迎东.煤炭物流网络风险分析与应对研究.物流工程与管理,2012年12期;
【6】韩舒怡,徐杰.物流网络协同服务影响因素的实证研究.物流工程与管理,2012年03期;
【7】Watts D J, Strogatz S H. Collective dynamics of 'small-world' networks[J]. Nature, 1998, 393:440-442;
【8】R.Albert and A.L Barabasi,tatistical mechanics of complex networks,Rev,Mod,Phys.74,2002;
【9】李靖, 张永安.复杂网络理论在物流网络研究中的应用.中国流通经济2011年第5期;
一、引言
科研是衡量高校学术水平的一个重要指标,在高校的发展历程中扮演着重要的角色。高校科研考评是指组织定期对学校或教师的科研能力、学科领域创新能力、及科研业绩进行考察、评估和测度的一种正式制度。现在,科研考评越来越广泛地应用于各个高校以及科研机构的日常人事管理和年终考评中。科研系统是由人的个体组成,由于人类个体意识的随意性、模糊性和封闭性以及由此产生的交往过程中的多重偶然性,使得交往的复杂性大大增加。高校科研系统具有复杂系统的非线性、多样性、多重性、统计性等特征。因此,利用复杂网络的理论对已有科研成果进行数值度量和统计分析,克服传统科研系统考评结果的主观性、片面性,激发教师的主动性、创新性以及在评估过程中发现科研合作中的某学术领域的创新团队以及学术领头人等都有重要意义。
二、科研考核内容及标准
科研考核的内容及方式,可采用文献资料、调查、分析与综合的方法,并借鉴知名院校及同行院校的考核方法和本校的实际情况,制定出考核评分标准。
1.科研考核内容
由于各高校的师资结构、学科建设、科研实力及科研管理措施各不相同,对科研考核内容有所不同,一般包括:(1)著作与教材;(2)论文;(3)纵向课题。国家级项目(重点、一般),省部级(重点、一般),市厅级,校级,(4)横向项目;(5)获奖成果。国家级、省部级、市厅级、校级;(6)鉴定成果。国家级鉴定,省部级鉴定,市厅级鉴定、校级鉴定;(7)发明专利;(8)科研经费;(9)指导学生研究得分;(10)其他。
2.计分标准
依据各高校的实际情况,赋予不同的计分项目不同的分值;也可采用标准的计分公式,确定计分方法,赋予计分项目分值。
对于多人合作的科研项目,采用的方法是:著作类,独著者计分分值为Score;多人合作根据实际撰写字数确定,但总分值不超过Score。论文及成果类,独著者或独立完成者分值为Score;多人合作由第一作者或课题负责人协商分配给每一位作者或合作者分值,其参照的科研评分计算方法是:著作、论文类,第一作者计分公式为,s=2/(N+1)S;第二至第N作者的计分公式为:s=1/(N+1)S,其中N 为署名总人数;S为计分标准。科研项目、科研获奖、成果类计分公式为:s=[2(N-O+1)/N(N+1)]S,其中N为署名总人数;O为署名顺序;S为计分标准。
三、复杂网络相关理论
自从1998年Watts和Strogatz提出小世界(small world)网络以及1999年Barabási和Albert提出BA无标度(free2scale)网络以来,复杂网络被广泛应用于各类复杂系统的研究。复杂网络理论是对复杂系统的一种抽象和描述方式,任何包含大量组成单元(或子系统)的复杂系统,当把构成单元抽象成节点、单元之间的相互关系抽象为边时,都可以当作复杂网络来研究。图1~3是常见的几种复杂网络。
二分图是图论中的一种特殊模型,它的顶点可分割为两个互不相交的子集,并且图中的每条边所关联的两个顶点分别属于这两个不同的顶点集。如果二分图中的每条边都赋予了权重则得到的是加权二分图。二分图在复杂网络分析中有很多应用,本文采用一种加权二分图进行科研考评分析。
四、基于复杂网络的科研考评分析
1.科研考评的指标及权重
假设科研考评系统中涉及到的指标有:
(1)著作与教材;(2)论文;(3)纵向课题;(4)横向课题;(5)成果;(6)发明专利;(7)其他。
该科研考评系统中设置的权重如表2所示。
2.科研考评网络的建立
3.科研考评分析
以某高校的某学院的某年考核情况为例,进行基于复杂网络的科研考评分析。根据生成复杂网络的流程得到的科研考评复杂网络如图4所示。
从图4中可以看出,该学院的情况比较好,但专利方面完成得不好。若要挖掘科研人才,T20在当年的科研完成比较好,具有较强的科研能力,可以作为科研人才培养的候选人之一。同时从该网络图中,还可以发现T1和T3在纵向课题和著作方面完成比较好,他们可以作为某个学术领域的带头人。
五、总结
本文提供了一种可以快速、直观进行高校科研考评分析的方法。该方法利用复杂网络理论知识,采用加权复杂网络实现科研考评网。从网中点权分布中可以发现该节点对应的员工的整体科研能力,从边权可以发现各个教研人员之所长;从整个网中也能直观地了解到,该学院的科研能力以及该学院在各个科研考评指标所对应的内容的优势所在。
当然,目前的高校科研考评方法很多,但针对科研系统以及科研合作过程中的复杂性,本文提供的基于复杂网络的科研考评分析方法不失为一种较好的方法。
参考文献:
[1]董国新.高校科研绩效考评体系研究[J].云南科技管理,2004.
fuzzy clustering and information mining in complex networks
zhao kun,zhang shao-wu,pan quan
(school of automation, northwestern polytechnical university, xi’an 710072, china)
abstract:there is seldom a method which is capable of both clustering the network and analyzing the resulted overlapping communities. to solve this problem, this paper presented a novel fuzzy metric and a soft clustering algorithm. based on the novel metric, two topological fuzzy metric, which include clique-clique closeness degree and inter-clique connecting contribution degree, were devised and applied in the topological macro analysis and the extraction of key nodes in the overlapping communities. experimental results indicate that, as an attempt of analysis after clustering, the new indicators and mechanics can uncover new topology features hidden in the network.
key words:network fuzzy clustering; clique-node similarity; clique-clique closeness degree; inter-clique connection contribution degree; symmetrical nonnegative matrix factorization(s-nmf); network topology macrostructure
团结构是复杂网络普遍而又重要的拓扑属性之一,具有团内连接紧密、团间连接稀疏的特点。网络团结构提取是复杂网络分析中的一个基本步骤。揭示网络团结构的复杂网络聚类方法[1~5]对分析复杂网络拓扑结构、理解其功能、发现其隐含模式以及预测网络行为都具有十分重要的理论意义和广泛的应用前景。目前,大多数提取方法不考虑重叠网络团结构,但在多数网络应用中,重叠团结构更为普遍,也更具有实际意义。
现有的网络重叠团结构提取方法[6~10]多数只对团间模糊点进行初步分析,如nepusz等人[9,10]的模糊点提取。针对网络交叠团结构的深入拓扑分析,本文介绍一种新的团—点相似度模糊度量。由于含有确定的物理含意和更为丰富的拓扑信息,用这种模糊度量可进一步导出团与团的连接紧密程度,以及模糊节点对两团联系的贡献程度,并设计出新指标和定量关系来深度分析网络宏观拓扑连接模式和提取关键连接节点。本文在三个实际网络上作了实验分析,其结果表明,本方法所挖掘出的网络拓扑特征信息为网络的模糊聚类后分析提供了新的视角。
1 新模糊度量和最优化逼近方法
设a=[aij]n×n(aij≥0)为n点权重无向网络g(v,e)的邻接矩阵,y是由a产生的特征矩阵,表征点—点距离,yij>0。假设图g的n个节点划分到r个交叠团中,用非负r×n维矩阵w=[wki]r×n来表示团—点关系,wki为节点i与第k个团的关系紧密程度或相似度。w称为团—点相似度矩阵。令
mij=rk=1wkiwkj(1)
若wki能精确反映点i与团k的紧密度,则mij可视为对点i、j间相似度yij的一个近似。所以可用矩阵w来重构y,视为用团—点相似度w对点—点相似度y的估计:
w twy(2)
用欧式距离构造如下目标函数:
minw≥0 fg(y,w)=y-w twf=12ij[(y-w tw)。(y-w tw)]ij(3)
其中:•f为欧氏距离;a。b表示矩阵a、b的hadamard 矩阵乘法。由此,模糊度量w的实现问题转换为一个最优化问题,即寻找合适的w使式(3)定义的目标函数达到最小值。
式(3)本质上是一种矩阵分解,被称为对称非负矩阵分解,或s-nmf (symmetrical non-negative matrix factorization)。s-nmf的求解与非负矩阵分解nmf[11,12]的求解方法非常类似。非负矩阵分解将数据分解为两个非负矩阵的乘积,得到对原数据的简化描述,被广泛应用于各种数据分析领域。类似nmf的求解,s-nmf可视为加入限制条件(h=w)下的nmf。给出s-nmf的迭代式如下:
wk+1=wk。[wky]/[wkw tkwk](4)
其中:[a]/[b]为矩阵a和b的hadamard矩阵除法。
由于在nmf中引入了限制条件,s-nmf的解集是nmf的子集,即式(4)的迭代结果必落入nmf的稳定点集合中符合附加条件(h=w)的部分,由此决定s-nmf的收敛性。
在求解w之前还需要确定特征矩阵。本文选扩散核[13]为被逼近的特征矩阵。扩散核有明确的物理含义,它通过计算节点间的路径数给出任意两节点间的相似度,能描述网络节点间的大尺度范围关系,当两点间路径数增加时,其相似度也增大。扩散核矩阵被定义为
k=exp(-βl)(5)
其中:参数β用于控制相似度的扩散程度,本文取β=0.1;l是网络g的拉普拉斯矩阵:
lij=-aiji≠j
kaiki=j(6)
作为相似度的特征矩阵应该是扩散核矩阵k的归一化形式:
yij=kij/(kiikjj)1/2(7)
基于扩散核的物理含义,团—点相似度w也具有了物理含义:团到点的路径数。实际上,w就是聚类结果,对其列归一化即可得模糊隶属度,需要硬聚类结果时,则选取某点所对应列中相似度值最大的团为最终所属团。
2 团—团关系度量
团—点相似度w使得定量刻画网络中的其他拓扑关系成为可能。正如w tw可被用来作为点与点的相似度的一个估计,同样可用w来估计团—团关系:
z=ww t(8)
其物理含义是团与团间的路径条数。很明显,z的非对角元zjk刻画团j与团k之间的紧密程度,或团间重叠度,对角元zjj则刻画团j的团内密度。
以图1中的对称网络为例,二分团时算得
z=ww t=1.337 60.035 3
0.035 31.337 6
由于图1中的网络是对称网络,两团具有同样的拓扑连接模式,它们有相同的团内密度1.337 6,而团间重叠度为0.035 3。
3 团间连接贡献度
zjk度量了团j与团k间的重叠程度:
zjk=na=1wjawka(9)
其中:wjawka是这个总量来自于点a的分量。下面定义一个新指标来量化给定点对团间连接的贡献。假设点i是同时连接j、k两团的团间某点,定义点i对团j和团k的团间连接贡献度为
bi=[(wjiwki)/(na=1wjawka)]×100%(10)
显然,那些团间连接贡献大的点应处于网络中连接各团的关键位置,它们对团间连接的稳定性负主要责任。将这种在团与团间起关键连接作用的点称为关键连接点。为了设定合适的阈值来提取团间关键连接点,本文一律取b>10%的点为关键连接点。
4 实验与结果分析
下面将在三个实际网络上展开实验,首先根据指定分团个数计算出团—点相似度w,然后用w计算团—团关系和b值,并提取关键连接点。
4.1 海豚社会网
由lusseau等人[14]给出的瓶鼻海豚社会网来自对一个62个成员的瓶鼻海豚社会网络长达七年的观测,节点表示海豚,连线为对某两只海豚非偶然同时出现的记录。图2(a)中名为sn100 (点36)的海豚在一段时间内消失,导致这个海豚网络分裂为两部分。
使用s-nmf算法聚类,海豚网络分为两团时,除30和39两点外,其他点的分团结果与实际观测相同,如图2(a)所示。计算b值并根据阈值提取出的五个关键连接点:1、7、28、36、40(虚线圈内),它们对两团连接起到至关重要的作用。图2(b)为这五点的b值柱状图。该图显示,节点36(sn100)是五个关键连接点中b值最大者,对连接两团贡献最大。某种程度上,这个结果可以解释为什么海豚sn100的消失导致了整个网络最终分裂的影响。本例说明,s-nmf算法及团间连接贡献程度指标在分析、预测社会网络演化方面有着独具特色的作用。
4.2 santa fe 科学合作网
用本算法对newman等人提供的santa fe科学合作网络[15]加以测试。271个节点表示涵盖四个学术领域的学者,学者合作发表文章产生网络连接,构成了一个加权合作网络。将本算法用于网络中一个包含118个节点的最大孤立团,如图3(a)所示。
图3(a)中,四个学科所对应的主要组成部分都被正确地分离出来,mathematical ecology(灰菱形)和agent-based models(白方块)与文献[15]的结果一致,中间的大模块statistical physics又被细分为四个小块,以不同灰度区分。计算了24个点的团间连接度贡献值b,从中分离出11个b值大于10%的点作为关键连接点:1、2、4、6、11、12、20、47、50、56、57,其标号在横轴下方标出,见图3(b),并在图3(a)中用黑色圆圈标记,这些连接点对应那些具有多种学科兴趣、积极参与交叉研究的学者。除去这11个点时,整个网络的连接布局被完全破坏,见图3(a)下方灰色背景缩小图,可见关键连接点的确起到重要的沟通各模块的作用。
4.3 杂志索引网络
在rosvall等人[16]建立的2004年杂志索引网络上进行测试。网络节点代表杂志,分为物理学(方形)、化学(方形)、生物学(菱形)、生态学(三角形)四个学科领域,每个学科中各选10份影响因子最高的刊物,共40个节点,若某刊物文章引用了另一刊物文章,则两刊间有一条连线,形成189条连接。使用s-nmf对该网4分团时,聚类结果与实际分团情况完全一致,如图4(a)所示。
由本算法得出的团—点相似度w在网络宏观拓扑结构的挖掘方面有非常有趣的应用,如第2章所述,用w计算团—团相似度矩阵z=wwt,其对角元是团内连接密度,非对角元表征团与团的连接紧密程度,故z可被视为对原网络的一种“压缩表示”。如果将团换成“点”,将团与团之间的连接换成“边”,利用z的非对角元,就能构造出原网络的一个压缩投影网络,如图4(b)所示。这是原网络的一个降维示意图,也是团与团之间关系定量刻画的形象表述,定量地反映了原网络在特定分团数下的“宏观(全局)拓扑轮廓”,图上团间连线色深和粗细表示连接紧密程度。由图4(b)可以看到,physics和chemistry连接最紧密,而chemistry与biology和biology与ecology次之。由此推测,如果减少分团数,将相邻两团合并,连接最紧密的两团必首先合并为一个团。实际情况正是如此:分团数为3时,biology和ecology各自独立成团,physics 和chemistry合并为一个大团,这与文献[11]结果一致。
5 讨论
网络模糊聚类能帮助研究者进一步对团间的一些特殊点进行定量分析,如nepusz等人[9]用一种桥值公式来刻画节点在多个团间的共享程度,即节点从属度的模糊程度。而本文的团间连接贡献度b反映出节点在团间连接中所起的作用大小。本质上它们是完全不同的两种概念,同时它们也都是网络模糊分析中所特有的。团间连接贡献度指标的提出,将研究引向对节点在网络宏观拓扑模式中的影响力的关注,是本方法的一个独特贡献。无疑,关键连接点对团间连接的稳定性起到很大作用,如果要迅速切断团间联系,改变网络的宏观拓扑格局,首先攻击关键连接点(如海豚网中的sd100)是最有效的方法。团间连接贡献度这一定义的基础来自于对团与团连接关系(z)的定量刻画,这个定量关系用以往的模糊隶属度概念无法得到。由于w有明确的物理含义,使得由w导出的团—团关系z也具有了物理含义,这对网络的宏观拓扑分析非常有利。
6 结束语
针对复杂网络交叠团现象,本文给出了一个新的聚类后模糊分析框架。它不仅能对网络进行模糊聚类,而且支持对交叠结构的模糊分析,如关键点的识别和网络宏观拓扑图的提取。使用这些新方法、新指标能够深入挖掘潜藏于网络的拓扑信息。从本文的聚类后分析不难看出,网络模糊聚类的作用不仅在于聚类本身,还在于模糊聚类结果能够为网络拓扑深入分析和信息挖掘提供支持,而硬聚类则不能。今后将致力于对团间连接贡献度指标进行更为深入的统计研究。
参考文献:
[1]
赵凤霞,谢福鼎.基于k-means聚类算法的复杂网络社团发现新方法[j].计算机应用研究,2009,26(6):2041-2043,2049.
[2]汪小帆,刘亚冰.复杂网络中的社团结构算法综述[j].电子科技大学学报,2009,38(5):537-543.
[3]newman m e j.modularity and community structure in networks[j].proceedings of the national academy of sciences of the united states of america,2006,103(23):8577-8582.
[4]white s,smyth p.a spectral clustering approach to finding communities in graphs[c]//proc of siam international conference on data mining.2005.
[5]enright a j,dongen s v,ouzounis c a.an efficient algorithm for large-scale detection of protein families[j].nucleic acids research,2002,30(7):1575-1584.
[6]bezdek j c.pattern recognition with fuzzy objective function algorithms[m].new york:plenum press,1981.
[7]palla g,derenyi i,farkas i,et al.uncovering the overlapping community structures of complex networks in nature and society[j].nature,2005,435(7043):814-818.
[8]reichardt j,bornholdt s.detecting fuzzy community structures in complex networks with a potts model[j].physical review letters,2004,93(21):218701.
[9]nepusz t,petroczi a,ngyessy l,et al.fuzzy communities and the concept of bridgeness in complex networks[j].physical review e,2008,77(1):016107.
[10]zhang shi-hua,wang rui-sheng,zhang xiang-sun.identification of overlapping community structure in complex networks using fuzzy c-means clustering[j].physical review a:statistical mechanics and its applications,2007,374(1):483-490.
[11]paatero p,tapper u.positive matrix factorization:a non-negative factor model with optimal utilization of error estimates of data values[j].environmetrics,1994,5(2):111-126.
[12]anttila p,paatero p,tapper u,et al.source identification of bulk wet deposition in finland by positive matrix factorization[j].atmospheric environment,1995,29(14):1705-1718.
[13]kondor r i,lafferty j.diffusion kernels on graphs and other discrete structures[c]//proc of the 19th international conference on machine learning.san francisco:morgan kaufmann,2002.
引言
战略网络是由不同利益成员构成的系统,由于各成员目标可能不同,每个成员都以自身利益最大化为目的参与合作,所以战略网络中存在不可避免的矛盾。目前国内外对于战略网络节点管理的研究角度多偏向于生态学理论、博弈论及系统论,对企业战略网络节点选择、节点数量及节点的进退机制进行研究。复杂网络研究的不同之处在于:从统计的角度出发,考察网络中的大规模节点以及节点之间的连接性质,这些性质的不同意味着网络内部结构的不同,而内部的结构不同将导致网络系统的功能不同。利用复杂网络理论,可以分析网络中各节点的重要程度,反映各个环节的瓶颈问题。还可以用来发现网络中的关键节点,从而对网络进行有针对性的优化,进而达到整体网络的优化。
复杂网络理论在企业网络中的应用
科学家们发现大量的真实网络既不是规则网络, 也不是随机网络,而是具有与前两者都不同的统计特征的网络,这样的一些网络被科学家们叫做复杂网络(Albert R,Albert-Laszlo B,2002;Newman M E J,2003)。复杂网络被发现具有很多与规则网络和随机网络不同的统计特征,其中最突出的是小世界效应和无尺度特性(Drik Helbing,2006;Christian Kuhnert,Dirk Helbing,2006;Marco Laumanns,Erjen Lefeber,2006)。由于现代企业网络越来越具有复杂性和不稳定性特点,复杂网络理论在企业网络方向上的应用也逐渐成为研究热点。
李守伟、钱省三(2006)在对产业网络供应链的复杂性研究中发现,我国的半导体产业的供应链条符合无标度网络的特征。此外,阮平南、李金玉(2010)将复杂网络理论用于战略网络,阐述了战略网络的无标度特征,建立了BA演化模型,解释了无标度网络演化的过程,进而解释了战略网络中核心节点的形成。庞俊亭等(2012)探索了集群创新网络所具有的小世界和无标度结构特性及集群网络在受到攻击时所具有的稳健性和脆弱性。
目前多数研究侧重定性研究网络的复杂网络特性及演化研究,有充分考虑企业网络的动态适应性问题,没有考虑到系统整体运行规律。另外,以网络效率为标准,研究网络中的节点重要性方面的文献还是很缺乏的。本文试图以复杂网络理论为基础,从这一全新视角来研究战略网络中重要节点识别问题。
战略网络的复杂网络特性分析
(一)战略网络拓扑结构
战略网络就是由那些具有战略意义的组织或个人组成的社会网络。它是由消费者、市场中介、供应商、竞争对手、其他产业的企业、利益相关者、其他组织和企业本身等节点构成的(见图1)。
用复杂网络理论研究战略网络,首先应将战略网络抽象成拓扑模型。将战略网络中的企业、科研机构、政府等作为网络中的节点。节点确定以后,根据各节点的实际联系确定是否存在边的关系。作为核心的网络节点企业存在众多的合作关系,这就导致战略网络的节点的边越来越多。为了能比较好地模拟出一个战略网络,根据战略网络的基本结构,描绘出一个简单战略网络拓扑图,如图2所示。
(二)战略网络的复杂特性
1.战略网络的小世界网络的特征。平均路径长度是指在网络中将两点间的距离被定义为连接两点的最短路所包含的边的数目,把所有节点对的距离求平均,就得到了网络的平均距离。网络的平均路径长度L(N)定义为任意两个节点之间的距离的平均值,平均路径长度表示产品的交付时间。为在保持激烈竞争环境中的优势,企业必须采取以下对策:重组整合,减少补给提前期,加快信息的流通速度,减少产品运输距离,提高自身的反应能力和适应变化的能力,建立配送物流中心,以便能够更好地实现准时供货。基于时间的竞争战略对于各节点成员来说是至关重要的,如何以最短的时间将产品交付给客户成为节点企业参与战略网络竞争必须应对的关键战略问题。在战略网络环境中,企业之间的平均最短路径,可以体现为产品或服务从一个环节到另一个环节所需要的平均最少中转数目。整个网络的平均最短路径L的计算公式为:
上述公式中,dij表示产品或服务从环节i到达环节j所需的最少中转次数,N表示战略网络中的企业总数。
聚集系数指与节点相邻的节点之间实际存在的边数与这些节点都互连的最大边数之比,网络中所有节点聚集系数的平均就是网络的聚集系数。对于战略复杂网络而言,平均聚集系数相应于网络节点企业之间相互交流的程度,随着信息高速发展时代的到来,越来越多的企业应用信息技术和互联网的媒介建立彼此之间的连接。通过信息共享的各种途径促使各节点企业之间联系更加紧密,交流更加频繁,这就体现战略网络具有较高的聚集系数。
2.战略网络复杂网络的无标度特征。无标度网络的特点是网络中的大部分节点的度值都很低,但存在着度数非常高的核心节点。各节点企业在企业网络中所处的网络地位不同,战略网络中的核心企业形成占有的知识不均匀,节点间的连接就具有择优性(Boschmma R A,Wal A L J,2007)。战略网络核心节点的形成主要来源于择优连接机制,在战略网络中,组织会倾向于选择连接数目较多的网络节点。通常一些节点企业通过先进的技术、富有竞争力的产品和良好的管理,在非常短的时间内获得大量的关系连接;网络中存在历史较长的企业,有较长的时间来积累与其它组织的关系连接。核心节点的连接数目远远超出了一般的节点,并且网络主要由这些核心节点所支配。
战略网络节点重要性模型构建
在复杂网络中,节点度是单个节点极其重要的属性节,点的度直接反映该节点在网络中与其他节点相联系的广度,定义为邻接矩阵中与该节点连接的其他节点边的数目。传统复杂理论中判断核心节点方法是依据网络中节点度或点强度参数,这个方法是具有很大片面性和局限性的。节点度高的企业只能说明企业与周围企业的联系程度密切,而不能真实地反映出该企业在网络中的作用和地位(朱大智、吴俊,2007)。因此本文将以网络效率为依据,从新的视角出发对战略网络中的节点进行重要性识别。
(一)战略网络的网络效率建模
网络效率指标被用来衡量网络中点与点之间的信息沟通程度。在战略网络中最短路径长度反映了战略网络内各节点企业产品交付时间的效率。路径越长,企业获取资源的时间越长,效率就越低;反之,路径越短,资源获取的时间成本越低,效率越高。为了计算网络效率E,首先要建立这样一个网络模型。假设忽略所有企业内部信息,只考虑企业间的联盟关系;任意两节点间的连接度是等值的。设网络G是一个无重边的无向网络,即网络中的边没有固定的方向,用G=(N,K)来代表,N是网络中节点集合,K是网络中边集合,G的邻接矩阵A=(aij)定义如下:
则A是一个n阶的对称矩阵,如果两个节点之间有联系,aij=1;否则aij=0。
假设节点i与节点j间的连通的效率eij与最短路径成反比,即eij=1/dij。那么,给出如下的战略网络效率计算公式:
(1)
上述公式中,eij表示完全连通情况下两个节点企业之间的效率。在突况下,加入变量wij,即网络效率因子。0≤wij≤1,作为企业连通效率参数。Wij=1表示相关节点企业正常运营。在遭遇突况下,Wij将降低,取0≤wij≤1。这样可以比较真实地模拟出企业在面对不同风险时,网络出现效率变化的情况。随着wij的变化,与该企业有贸易往来的相关企业均会受到一定程度的影响,将导致整个网络的效率会出现非线性的变化。通过评价网络的效率,可以尝试改善网络的构造从而优化网络的效率,网络的效率得以提高,使网络更具稳定性。
(二)战略网络中重要节点的识别建模
网络效率E无疑成为衡量战略网络效率有效的指标,然而它只能表现网络的平均水平,因此需要更深入的研究,识别网络中的关键节点。此方法主要考察的是当从网络中剔除节点i以后,网络的效率变化,根据节点对于网络效率影响能力的大小,可以识别网络中的关键节点。
E=E=E(G)-E(G`) i=1,2,……N (2)
E(G`)表示wij变化时的网络平均效率。根据网络效率变化的大小对网络中节点的重要性指数进行排序,在wij一定的情况下,网络效率变化值较大的节点无疑是网络中重要性相对较高的节点。也就是去除该节点后,网络效率下降越大,说明该企业的重要性越高。针对企业对于网络整体的作用不同,需加强预防工作,做到真正的防患于未然。对于这些重要节点,必须予以重点关注,例如,更加频繁地关注它的运作状况、与其他企业的连通状况,建立完备的预警机制等。
结论
基于网络整体的考虑,本文运用复杂网络理论,侧重从宏观整体的角度去分析单独的点和整体网络之间的关系,通过建立网络拓扑结构、衡量网络效率、识别重要网络节点三个方面,阐述了复杂网络在战略网络管理中的应用前景。建立数学模型比较真实地模拟了网络在正常情况和突况下的网络效率。本文只是从复杂网络理论的角度讨论通过战略网络效率的办法计算节点重要性,而由此识别出来的重要企业也是具有现实意义的。
参考文献:
1.Albert R,Albert-Laszlo B.Statistical mechanics of complex networks[J].Reviews of Modern Physics,2002(74)
2.Newman M E J.The structure and function of complex networks[J].Siam Review,2003(45)
3.Drik Helbing.Information and material flows in complex networks[J].Physica A,2006,363(1)
4.Christian Kuhnert,Dirk Helbing.Scaling laws in urban supply networks[J].Physica A,2006,363(1)
5.Marco Laumanns,Erjen Lefeber.Robust optimal control of material flows in demand-driven supply networks[J].Physica A,2006,363(1)
6.李守伟,钱省三.产业网络的复杂性研究与实证.科学学研究,2006(4)
7.阮平南,李金玉.战略网络中基于无标度网络的核心企业形成研究.科技管理研究,2010(16)
1均匀网络上病毒模型及其传播特性
1.1经典病毒传播模型
1.1.1 SI模型
网络病毒传播模型最开始建立的基础都是随机网络,SI模型是最早的传播病毒模型,假设上述模型存在感染状态(I)和易感染状态(S)2种模型状态,易感染模型会十分容易感染计算机,如果被病毒感染会极大程度变为永久性感染。因此,SI模型中只有一种计算机转变状态过程,就是把易感染变为感染状态,模型微分方程如下:
如果t接近无穷大的时候,i(t)会趋近1,也就是说,经过长时间以后,病毒会感染网络中所有计算机,此时不符合病毒感染实际情况,主要就是没有分析计算机从感染到恢复的情况。
1.1.2 SIS模型
在充分分析从感染计算机到计算机恢复以后的实际情况后,研究计算机病毒时合理加入SIS模型,上述分析模型中存在感染状态和易感染状态2种。类似于SI模型中的基本设置,但是在此基础上又增加了新的转换情况,也就是依据相应的传播概率感染计算机恢复成易感染计算机。此模型可以降低感染病毒的概率,增加治愈率。
1.1.3 SIR模型
SIS病毒分析模型没有实际考虑升级系统或者断开网络后被感染计算机形成病毒免疫,因此,相关专家学者提出了SIR计算机病毒传播模型,此模型中分为免疫状态、感染状态、易感染状3种状态,感染状态和易感染状态类似于SIS模型,只是新增加了升级系统或者断开网络后被感染计算机形成病毒免疫性能,不会被感染以及感染其他计算机。
1.2双因素模型
CliffC.Zou等学者提出了双因素传播模型,上述模型主要就是适当模拟Code red蠕虫传播过程。在研究此病毒的时候,需要考虑到2种影响因素:一是网络拥塞现象。快速传播的网络病毒会形成很大数据流量,从而导致网络拥堵,应该从其他方面来达到降低传播网络病毒速度的目的。二是抵制病毒行为。例如升级系统、查杀病毒、安装过滤器、断开网络等能够在一定程度上降低传播病毒的速度。在模型中需要相互联系相关计算机,从而出现完全无向网络,所有时刻的任何计算机都存在免疫状态(R)、感染状态(I)、易感染状态(S)3方面。模型中的所有计算机彼此相互直接联系,所形成的是一个完全无向网络。其中每个计算机在任何时刻都处于3个状态之一,即易感染状态(S)、感染状态(I)、免疫状态(R)。但是仅仅只是存在2种转换状态,SR或者SIR。
1.3随机常数传播模型
模拟Code red病毒爆发过程的随机常数传播模型是Staniford等人提出的,模型分析中假设的是无向完全连接图的互联网,网络计算机总数是常数N,t时刻感染计算机的实际比例是a,Na就是计算机感染数目,平均初始感染率为K,也就是在单位时间内计算机主机被感染攻击的数目是常数K,也就是合理通量化网络带宽和计算机处理速度差异。在单位时间内,计算机主机会被Na个被感染计算机依据K的速度感染,实际上单位时间内被感染的主机数目是K(1-a),单位时间新感染计算机的数目n表达式是:
现阶段,主要寻址方式就是IPv4,具备232大的IP地址空间,Code red蠕虫会适当随机扫描地址,因此,不可能在相同计算机上同时扫描地址。也可以发现感染速度和数目没有关系,只是依靠平均感染效率。
1.4间隔模型
分析计算机Code red蠕虫与Slammer蠕虫合理应用随机扫描方式,Slammer是在UDP基础上实施进攻的,不用建立相应连接,但是Code red主要就是在TCP基础上攻击的,需要事先建立连接。因为网络带宽的限制,Slammer不能全速传播,不适合所有病毒结构。对比RCS模型理论估计值以及Slammer蠕虫扫描增长过程,可以发现只有Slammer蠕虫刚开始扫描增长的时候符合RCS模型,此时具备最大扫描速度的Slammer蠕虫扫描。1800s以后实际数据和相关模型之间存在极大差距,降低增长速度。因此为了可以更加细致地分析传播Slammer蠕虫的特性,考虑结点的带宽,从而提出了间隔模型。此模型能够有效分析刚开始攻击的时候,Slammer蠕虫不断增加速度以及突然降低的因素。基本表达式如下:
2非均匀网络上病毒模型及其传播特性
2.1含拓扑结构因素的病毒传播模型
经过多年的分析和研究,不少学者不再局限于病毒模型建立在均匀网络中,开始研究病毒传播过程中网络拓扑结构的影响。由于不同程度的连接率,相同感染的计算机会不同情况地感染其他计算机,所以,形成了含拓扑结构因素的病毒传播模型,存在k个连接度感染计算机的数目:
可以发现计算机具备越大的连接度,就越容易被感染,并且,因为存在很大度的结点,如果被感染会极大程度上威胁整个网络安全,因此,需要在分析病毒传播的时候加入网络非均匀性,对于没有标的网络来说,结点概率就是:
2.2电子邮件传播模型
关键词:复杂网络;重要节点;中心性方法
Key words: complex networks;identify influential nodes;centrality measures
中图分类号:TN711 文献标识码:A 文章编号:1006-4311(2016)14-0209-02
0 引言
当前,从疾病传播网络到全球医疗诊断网络,从电力网到交通网络,从交际网络到社会关系网络,复杂网络已经渗透到人类社会生活,给我们带来了极大的便利,但是,同时也产生了诸如交通瘫痪、谣言快速传播等不容忽视的负面冲击。因此,对复杂网络进行深入的研究和分析以方便对其负面影响进行预测、避免和控制是刻不容缓的。由于网络中的节点存在着许多的全局信息和局部信息,因此对有影响力节点的识别即节点重要度分析是一个非常重要的方向,在许多领域也得到了广泛的应用,如攻击防御、谣言传播控制、搜索排名等。目前,已提出多种复杂网络节点中心性方法解决节点重要度分析问题。本文介绍了几种常见的进行网络节点重要度分析的中心性,并通过算例对几种方法进行了分析比较。
1 基本理论
复杂网络是由数量巨大的节点和节点之间错综复杂的关系共同构成的网络结构,在数学上可以抽象为一个由点集V和边集E组成的图G=(V,E)。如图1所示,是具有11个节点12条边的简单无向无权网络图。为简化问题,本文仅针对无向无权网络进行研究。
2 节点重要度分析方法
所谓的重要节点是指与网络其他节点相比,能在更大程度上影响网络的结构与功能的一些比较特殊的节点。一般而言,一个网络中的重要节点的数量都是比较少的,但其影响却可以快速地波及到网络中的大部分节点[1]。为了解决识别网络节点重要度问题,已有多种不同的网络节点中心性方法。各种方法利用计算出的中心性值进行排序,确定节点重要程度。
2.1 度中心性(Degree centrality measure)
节点i的度中心性[2],用CD(i)表示,定义为:
其中i为当前所求节点,j表示其他所有的节点,N是网络节点总数,xij表示i与j之间有连接关系。两个节点之间相连,则为1,反之则为0。
2.2 介数中心性(Betweenness centrality measure)
节点i的介数中心性[3],用CB(i)表示,定义为:
其中gst表示从节点s到节点t的最短路径的数目,gst(i)表示从节点s到节点t所有最短路径中经过节点i的最短路径的数目,是用来对介数中心性值进行归一化,n为网络节点的数目。
其中表示节点i和节点j之间的最短距离dij,其定义如下:
d(i,j)=min(xih+…+xhj)(3)
2.3 接近中心性(Closeness centrality measure)
节点i的接近中心性[3],用CC (i)表示,定义为:
2.4 融合中心性(Compromise centrality measure)
节点i的融合中心性[8],用CED(i)表示。其来源于对度中心性、接近中心性和介数中心性的值的融合计算,具体计算方法步骤如下:
①设CD(i),CC (i)和CB (i)分别为节点i的度中心性、接近中心性和介数中心性的值,分别进行归一化,计算方法为:
其中i表示节点i的归一化中心值,N为复杂网络节点数。
②然后整合节点i的归一化中心值,得到CED(i)。设分别为别为节点i的度中心性、接近中心性和介数中心性归一化中心值。利用欧拉公式得到的融合中心性的值定义为:
其中n为网络节点的数目。
2.5 TOPSIS中心性(TOPSIS centrality measure)
节点i的TOPSIS中心性[7],用CTC(i),是利用度中心性、接近中心性和介数中心性的值结合逼近最优解的偏好顺序法(TOPSIS)的方法,具体计算方法如下:
①计算出各节点度中心性、接近中心性和介数中心性的值,并利用公式(5)进行归一化,再进行加权计算,得到加权归一化值;
②计算理想最优解A+和最劣解A-,具体说就是步骤二中的最大值和最小值;
③根据公式(7)计算节点与理想最优解和最劣解之间的相似紧密度即节点i的TOPSIS中心性值。
CTC(i)=, i=1,…,m(7)
其中S和S分别表示节点i与理想最优解和最劣解之间的距离。
3 算例
如图1为有11个节点,12条边的无向无权网络。利用前述各中心性定义,分别计算复杂网络所有节点的度中心性、接近中心性和介数中心性、融合中心性和TOPSIS中心性的值,其中计算TOPSIS中心性时假定权重都相等,即都为,计算结果如表1所示。
从表1可知,根据度中心性,各节点的重要度排序结果为:4、7>5、6>1、10>2、3、8、9、11;根据接近中心性,各节点的重要度排序结果为:6>5>7>10>4>1>11、9、8>3、2;根据介数中心性,各节点的重要度排序结果为:6>7>5>4>10>1>2、3、8、9、11;根据融合中心性,各节点的重要度排序结果为:7>6>4>5>10>1>8、9、11>2、3;根据TOPSIS中心性,各节点的重要度排序结果为:7>6>4>5>10>1>8、9、11>2、3。
4 结论
本文介绍了几种常见的进行网络节点重要度分析的中心性方法,并通过实例对几种中心性方法进行了分析比较。使用不同的中心性方法,可以得到不同的节点重要度结果。度中心性是在网络分析中刻画节点中心性的最直接度量指标,一个节点的节点度越大就意味着这个节点的度中心性越高,该节点在网络中就越重要。接近中心性是刻画节点通过网络到达其它节点难易程度的指标,相比节点度指标更能反映网络的全局结构。节点的接近度越高,那么离其它节点越近,传播难度越低,所需借助的节点越少,反之亦然。网络上传输时负载最重的节点是处于网络中心位置的节点,也就是经过此点的最短路径条数最多的节点。一个节点的介数越高,该节点在网络中就越重要。融合中心性和TOPSIS中心性是考虑前三种中心性进行综合处理所得,能更有效地识别复杂网络节点重要度。
参考文献:
[1]StefnaniaVtali,James B Glattfelder, and Stefano Battiston. The networkof global corporate control. PloS One, 6(10):e25995.2011.
[2]Phillip Bonacich. Factoring and weighting approaches to status scores and clique identification[J]. Journal of Mathematical Socioogy. 1972,2(1):113-120.
[3]Liton C Freeman. Centrality in social networks conceptual clarification[J]. Social networks, 1979,1(3):215-239.
[4]Zhang, Tingping, Liang, Xinyu, A Novel Method of Identifying Influential Nodes in Complex Networks Based on Random Walks Journal of Information and Computational Science, v 11, n 18, p 6735-6740, December 10, 2014.
关键词:网络模糊聚类;团—点相似度;团间连接紧密度;团间连接贡献度;对称非负矩阵分解;网络宏观拓扑
团结构是复杂网络普遍而又重要的拓扑属性之一,具有团内连接紧密、团间连接稀疏的特点。网络团结构提取是复杂网络分析中的一个基本步骤。揭示网络团结构的复杂网络聚类方法[1~5]对分析复杂网络拓扑结构、理解其功能、发现其隐含模式以及预测网络行为都具有十分重要的理论意义和广泛的应用前景。目前,大多数提取方法不考虑重叠网络团结构,但在多数网络应用中,重叠团结构更为普遍,也更具有实际意义。
现有的网络重叠团结构提取方法[6~10]多数只对团间模糊点进行初步分析,如Nepusz等人[9,10]的模糊点提取。针对网络交叠团结构的深入拓扑分析,本文介绍一种新的团—点相似度模糊度量。由于含有确定的物理含意和更为丰富的拓扑信息,用这种模糊度量可进一步导出团与团的连接紧密程度,以及模糊节点对两团联系的贡献程度,并设计出新指标和定量关系来深度分析网络宏观拓扑连接模式和提取关键连接节点。本文在三个实际网络上作了实验分析,其结果表明,本方法所挖掘出的网络拓扑特征信息为网络的模糊聚类后分析提供了新的视角。
1新模糊度量和最优化逼近方法
设A=[Aij]n×n(Aij≥0)为n点权重无向网络G(V,E)的邻接矩阵,Y是由A产生的特征矩阵,表征点—点距离,Yij>0。假设图G的n个节点划分到r个交叠团中,用非负r×n维矩阵W=[Wki]r×n来表示团—点关系,Wki为节点i与第k个团的关系紧密程度或相似度。W称为团—点相似度矩阵。令Mij=rk=1WkiWkj(1)
若Wki能精确反映点i与团k的紧密度,则Mij可视为对点i、j间相似度Yij的一个近似。所以可用矩阵W来重构Y,视为用团—点相似度W对点—点相似度Y的估计:
WTWY(2)
用欧式距离构造如下目标函数:minW≥0FG(Y,W)=Y-WTWF=12ij[(Y-WTW)。(Y-WTW)]ij(3)
其中:•F为欧氏距离;A。B表示矩阵A、B的Hadamard矩阵乘法。由此,模糊度量W的实现问题转换为一个最优化问题,即寻找合适的W使式(3)定义的目标函数达到最小值。
式(3)本质上是一种矩阵分解,被称为对称非负矩阵分解,或s-NMF(symmetricalnon-negativematrixfactorization)。s-NMF的求解与非负矩阵分解NMF[11,12]的求解方法非常类似。非负矩阵分解将数据分解为两个非负矩阵的乘积,得到对原数据的简化描述,被广泛应用于各种数据分析领域。类似NMF的求解,s-NMF可视为加入限制条件(H=W)下的NMF。给出s-NMF的迭代式如下:
Wk+1=Wk。[WkY]/[WkWTkWk](4)
其中:[A]/[B]为矩阵A和B的Hadamard矩阵除法。
由于在NMF中引入了限制条件,s-NMF的解集是NMF的子集,即式(4)的迭代结果必落入NMF的稳定点集合中符合附加条件(H=W)的部分,由此决定s-NMF的收敛性。
在求解W之前还需要确定特征矩阵。本文选扩散核[13]为被逼近的特征矩阵。扩散核有明确的物理含义,它通过计算节点间的路径数给出任意两节点间的相似度,能描述网络节点间的大尺度范围关系,当两点间路径数增加时,其相似度也增大。扩散核矩阵被定义为K=exp(-βL)(5)
其中:参数β用于控制相似度的扩散程度,本文取β=0.1;L是网络G的拉普拉斯矩阵:
Lij=-Aiji≠j
kAiki=j(6)
作为相似度的特征矩阵应该是扩散核矩阵K的归一化形式:
Yij=Kij/(KiiKjj)1/2(7)
基于扩散核的物理含义,团—点相似度W也具有了物理含义:团到点的路径数。实际上,W就是聚类结果,对其列归一化即可得模糊隶属度,需要硬聚类结果时,则选取某点所对应列中相似度值最大的团为最终所属团。
2团—团关系度量
团—点相似度W使得定量刻画网络中的其他拓扑关系成为可能。正如WTW可被用来作为点与点的相似度的一个估计,同样可用W来估计团—团关系:
Z=WWT(8)
其物理含义是团与团间的路径条数。很明显,Z的非对角元ZJK刻画团J与团K之间的紧密程度,或团间重叠度,对角元ZJJ则刻画团J的团内密度。
以图1中的对称网络为例,二分团时算得
Z=WWT=1.33760.0353
0.03531.3376
由于图1中的网络是对称网络,两团具有同样的拓扑连接模式,它们有相同的团内密度1.3376,而团间重叠度为0.0353。
3团间连接贡献度
ZJK度量了团J与团K间的重叠程度:
ZJK=na=1WJaWKa(9)
其中:WJaWKa是这个总量来自于点a的分量。下面定义一个新指标来量化给定点对团间连接的贡献。假设点i是同时连接J、K两团的团间某点,定义点i对团J和团K的团间连接贡献度为
Bi=[(WJiWKi)/(na=1WJaWKa)]×100%(10)
显然,那些团间连接贡献大的点应处于网络中连接各团的关键位置,它们对团间连接的稳定性负主要责任。将这种在团与团间起关键连接作用的点称为关键连接点。为了设定合适的阈值来提取团间关键连接点,本文一律取B>10%的点为关键连接点。
4实验与结果分析
下面将在三个实际网络上展开实验,首先根据指定分团个数计算出团—点相似度W,然后用W计算团—团关系和B值,并提取关键连接点。
4.1海豚社会网
由Lusseau等人[14]给出的瓶鼻海豚社会网来自对一个62个成员的瓶鼻海豚社会网络长达七年的观测,节点表示海豚,连线为对某两只海豚非偶然同时出现的记录。图2(a)中名为SN100(点36)的海豚在一段时间内消失,导致这个海豚网络分裂为两部分。
使用s-NMF算法聚类,海豚网络分为两团时,除30和39两点外,其他点的分团结果与实际观测相同,如图2(a)所示。计算B值并根据阈值提取出的五个关键连接点:1、7、28、36、40(虚线圈内),它们对两团连接起到至关重要的作用。图2(b)为这五点的B值柱状图。该图显示,节点36(SN100)是五个关键连接点中B值最大者,对连接两团贡献最大。某种程度上,这个结果可以解释为什么海豚SN100的消失导致了整个网络最终分裂的影响。本例说明,s-NMF算法及团间连接贡献程度指标在分析、预测社会网络演化方面有着独具特色的作用。
4.2SantaFe科学合作网
用本算法对Newman等人提供的SantaFe科学合作网络[15]加以测试。271个节点表示涵盖四个学术领域的学者,学者合作发表文章产生网络连接,构成了一个加权合作网络。将本算法用于网络中一个包含118个节点的最大孤立团,如图3(a)所示。
图3(a)中,四个学科所对应的主要组成部分都被正确地分离出来,mathematicalecology(灰菱形)和agent-basedmodels(白方块)与文献[15]的结果一致,中间的大模块statisticalphysics又被细分为四个小块,以不同灰度区分。计算了24个点的团间连接度贡献值B,从中分离出11个B值大于10%的点作为关键连接点:1、2、4、6、11、12、20、47、50、56、57,其标号在横轴下方标出,见图3(b),并在图3(a)中用黑色圆圈标记,这些连接点对应那些具有多种学科兴趣、积极参与交叉研究的学者。除去这11个点时,整个网络的连接布局被完全破坏,见图3(a)下方灰色背景缩小图,可见关键连接点的确起到重要的沟通各模块的作用。
4.3杂志索引网络
在Rosvall等人[16]建立的2004年杂志索引网络上进行测试。网络节点代表杂志,分为物理学(方形)、化学(方形)、生物学(菱形)、生态学(三角形)四个学科领域,每个学科中各选10份影响因子最高的刊物,共40个节点,若某刊物文章引用了另一刊物文章,则两刊间有一条连线,形成189条连接。使用s-NMF对该网4分团时,聚类结果与实际分团情况完全一致,如图4(a)所示。
由本算法得出的团—点相似度W在网络宏观拓扑结构的挖掘方面有非常有趣的应用,如第2章所述,用W计算团—团相似度矩阵Z=WWT,其对角元是团内连接密度,非对角元表征团与团的连接紧密程度,故Z可被视为对原网络的一种“压缩表示”。如果将团换成“点”,将团与团之间的连接换成“边”,利用Z的非对角元,就能构造出原网络的一个压缩投影网络,如图4(b)所示。这是原网络的一个降维示意图,也是团与团之间关系定量刻画的形象表述,定量地反映了原网络在特定分团数下的“宏观(全局)拓扑轮廓”,图上团间连线色深和粗细表示连接紧密程度。由图4(b)可以看到,physics和chemistry连接最紧密,而chemistry与biology和biology与ecology次之。由此推测,如果减少分团数,将相邻两团合并,连接最紧密的两团必首先合并为一个团。实际情况正是如此:分团数为3时,biology和ecology各自独立成团,physics和chemistry合并为一个大团,这与文献[11]结果一致。
5讨论
网络模糊聚类能帮助研究者进一步对团间的一些特殊点进行定量分析,如Nepusz等人[9]用一种桥值公式来刻画节点在多个团间的共享程度,即节点从属度的模糊程度。而本文的团间连接贡献度B反映出节点在团间连接中所起的作用大小。本质上它们是完全不同的两种概念,同时它们也都是网络模糊分析中所特有的。团间连接贡献度指标的提出,将研究引向对节点在网络宏观拓扑模式中的影响力的关注,是本方法的一个独特贡献。无疑,关键连接点对团间连接的稳定性起到很大作用,如果要迅速切断团间联系,改变网络的宏观拓扑格局,首先攻击关键连接点(如海豚网中的SD100)是最有效的方法。团间连接贡献度这一定义的基础来自于对团与团连接关系(Z)的定量刻画,这个定量关系用以往的模糊隶属度概念无法得到。由于W有明确的物理含义,使得由W导出的团—团关系Z也具有了物理含义,这对网络的宏观拓扑分析非常有利。
6结束语
针对复杂网络交叠团现象,本文给出了一个新的聚类后模糊分析框架。它不仅能对网络进行模糊聚类,而且支持对交叠结构的模糊分析,如关键点的识别和网络宏观拓扑图的提取。使用这些新方法、新指标能够深入挖掘潜藏于网络的拓扑信息。从本文的聚类后分析不难看出,网络模糊聚类的作用不仅在于聚类本身,还在于模糊聚类结果能够为网络拓扑深入分析和信息挖掘提供支持,而硬聚类则不能。今后将致力于对团间连接贡献度指标进行更为深入的统计研究。
参考文献:
[1]赵凤霞,谢福鼎.基于K-means聚类算法的复杂网络社团发现新方法[J].计算机应用研究,2009,26(6):2041-2043,2049.
[2]汪小帆,刘亚冰.复杂网络中的社团结构算法综述[J].电子科技大学学报,2009,38(5):537-543.
[3]NEWMANMEJ.Modularityandcommunitystructureinnetworks[J].ProceedingsoftheNationalAcademyofSciencesoftheUnitedStatesofAmerica,2006,103(23):8577-8582.
[4]WHITES,SMYTHP.Aspectralclusteringapproachtofindingcommunitiesingraphs[C]//ProcofSIAMInternationalConferenceonDataMining.2005.
[5]ENRIGHTAJ,DONGENSV,OUZOUNISCA.Anefficientalgorithmforlarge-scaledetectionofproteinfamilies[J].NucleicAcidsResearch,2002,30(7):1575-1584.
[6]BEZDEKJC.Patternrecognitionwithfuzzyobjectivefunctionalgorithms[M].NewYork:PlenumPress,1981.
[7]PALLAG,DERENYII,FARKASI,etal.Uncoveringtheoverlappingcommunitystructuresofcomplexnetworksinnatureandsociety[J].Nature,2005,435(7043):814-818.
[8]REICHARDTJ,BORNHOLDTS.Detectingfuzzycommunitystructuresincomplexnetworkswithapottsmodel[J].PhysicalReviewLetters,2004,93(21):218701.
[9]NEPUSZT,PETROCZIA,NGYESSYL,etal.Fuzzycommunitiesandtheconceptofbridgenessincomplexnetworks[J].PhysicalReviewE,2008,77(1):016107.
[10]ZHANGShi-hua,WANGRui-sheng,ZHANGXiang-sun.IdentificationofoverlappingcommunitystructureincomplexnetworksusingfuzzyC-meansclustering[J].PhysicalReviewA:StatisticalMechanicsandItsApplications,2007,374(1):483-490.
[11]PAATEROP,TAPPERU.Positivematrixfactorization:anon-negativefactormodelwithoptimalutilizationoferrorestimatesofdatavalues[J].Environmetrics,1994,5(2):111-126.
[12]ANTTILAP,PAATEROP,TAPPERU,etal.SourceidentificationofbulkwetdepositioninFinlandbypositivematrixfactorization[J].AtmosphericEnvironment,1995,29(14):1705-1718.
[13]KONDORRI,LAFFERTYJ.Diffusionkernelsongraphsandotherdiscretestructures[C]//Procofthe19thInternationalConferenceonMachineLearning.SanFrancisco:MorganKaufmann,2002.
灾害是指由某种不可控制、难以预料的破坏性因素引起的、突然的或在短时间内发生的、超越本地区防灾力量所能解决的大量人畜伤亡和物质财富毁坏的现象。由于灾害发生的突然性和破坏性,20世纪80年代以前我国在灾害信息传播上采取了谨慎的态度。而随着社会的不断进步和新的媒体形式层出不穷,网络媒体、手机媒体、数字电视以及即时通讯软件、“博客”等新型网络形式使得信息传播的渠道由单一化向多元化发展,因此灾害信息传播已经不可能受到单方面的控制。
“非典”前期,由于政府和主流大众传媒保持沉默,使得各种谣言通过网络和手机等新型信息传播方式在全国范围内大量传播,导致了严重的社会恐慌。由此可以看出灾害信息传播一旦失控,会使本来失序的社会更加混乱,并由此带来衍生灾害,造成不必要的社会恐慌和经济损失。因此,在当前的信息传播状况下对灾害信息传播方式和特征进行相关方面分析是十分必要的。
目前国内在灾害信息传播方面主要是从新闻学的方面来研究:灾害报道应该实现新闻价值与社会价值的平衡、新闻媒介在公共危机事件中起到重要作用,以及系统介绍灾害信息的发展史等。没有从灾害传播本身的特征进行研究,忽视灾害传播特征对灾害信息传播的影响。为了更有效地实现对灾害传播的控制,有必要针对灾害信息传播特征进行相关研究。
本文首先对灾害信息传播过程进行分析,在此基础上运用复杂网络相关理论对灾害信息传播方式和特征进行了初步探讨。
1灾害信息传播的过程分析
根据当前灾害信息的多样化,其传播内容主要可以分为政府和主流大众传媒的灾害信息和各种谣言、负面信息两大类。各种谣言、负面信息是指由于在灾害信息传播过程中出现的隐瞒或虚报、延迟报道而产生的各种、负面的受众不信任的信息。
本文以Fink(1986)提出的危机4阶段论为基础,对灾害信息传播过程进行了相关分析,给出灾害信息传播的4个阶段,分别为潜伏期、突发期、蔓延期、解决恢复期。以2007年台风罗莎信息传播过程为例(数据来源:百度指数),分析这4个阶段(图1)。
(1)潜伏期由灾害发生到灾害信息开始传播的这一阶段。随着现代信息传播的速度加快,潜伏期的时间越来越短。要对灾害信息传播进行控制,最好的方法就是在灾害信息传播的潜伏期对灾害进行有效控制,减小对社会产生的影响。台风罗莎10月2日08时在菲律宾以东洋面上生成,4日02时加强为强台风。即10月2日至10月4日为台风罗莎信息传播的潜伏期。
(2)突发期从灾害信息开始传播到灾害信息开始迅速传播的阶段。突发期是年阶段中时间最短、对受众心理冲击最严重的一个阶段。如果在突发期内对灾害信息进行刻意隐瞒或虚报、延迟、模式化报道,会使受众失去对传播者的信任,增加公众的疑惑,导致社会危机及衍生灾害的产生。10月5日、6日为台风罗莎信息传播的突发期。
(3)蔓延期灾害信息从迅速传播到平息的一个阶段。在新的信息传播环境下,灾害信息从迅速传播到平息需要一个相当长的时间。网络媒体、手机媒体、数字电视、即时通讯软件、多种传播形式使得灾害信息传播速度快、影响范围广、破坏性强。即使当灾害得到平息和解决时,在新型传播媒介中仍会存在很多议论和大量负面信息。台风罗莎在我国大陆l0月10日结束,但其仍然受到大众的普遍关注。10月7日至l0月16日为台风罗莎信息传播的蔓延期。
(4)解决恢复期灾害妥善解决、人民生活恢复正常、物质生产得到恢复、社会恐慌得到平息、整个社会恢复到灾害发生前的状态。在解决恢复期中,做好灾害信息的传播机理和影响的研究工作,总结灾害信息传播的经验和教训,为完善和健全相关的防灾体系提供依据。以10月17日起为台风罗莎的解决恢复期。
2灾害信息传播网络
2.1灾害信息传播网络的形成
目前国际上在流行病传播、计算机病毒在In.ternet上的传播等领域利用复杂网络进行研究是比较多的。此外,国内外专家对谣言的传播也进行了相关工作Zanette研究了在小世界网络中的传播情况;Moreno等发展了Daley等在1964年提出的谣言传播模型,认为非均匀网络传播过程最终听过但不传播的人数与感染概率有着紧密联系;
Dotts和Watts认为无论是社会网络还是信息网络中的传播蔓延现象,相应的模型都可以归结为泊松模型和临界值模型。
灾害信息传播的基础是社会网络,因此可以应用复杂网络的观点来阐释灾害信息传播的特征。灾害信息传播的网络模型示意图如图2所示。
用节点表示灾害信息传播中的个体,如果两个个体之间可以通过某种方式直接发生传播与被传播关系,就认为这两个个体之间存在连接,这样就得到了传播网络的拓扑结构,进而可以建立相关模型来研究这种传播行为。而灾害信息传播模型研究的关键是传播规则的制定和网络拓扑结构的选择。
2.2灾害信息传播网络的结构
2.2.1灾害信息传播网络结构的划分
灾害信息的传播途径与谣言基本一致,可以参照Moreno等人提出的谣言传播模型。的研究方法对灾害信息传播网络模型的结构进行分析,将灾害信息传播网络中的个体分为灾害信息未知者(Igorants)、灾害信息传播者(Spreaders)、灾害信息知情者(Stiflesr)三种类型。i(t)、s(t)、和r(t)分别代表这三种类型在人群中的比例。
如图3所示,灾害信息在灾害信息传播者、灾害信息未知者之间传播。灾害信息传播者向它的邻居节点传播信息。当接到信息的节点是灾害信息未知者的时候,灾害信息未知者以入的概率变成一个灾害信息传播者。而如果信息传给了灾害信息传播者或者灾害信息知情者,则前者以1/a的概率变成一个灾害信息知情者。
2.2.2网络结构中各参数的分析
参数A代表着信息传播过程中数据会出现丢失的情况,并不是每次连接都成功。参数是表示一个灾害信息传播者在变成一个灾害信息知情者前连接的灾害信息传播者或灾害信息知情者的平均次数。
灾害信息传播者把灾害信息传递到它的相邻节点时,如果该节点为灾害信息未知者,后者也将以入的概率变成一个灾害信息传播者,信息传播成功。如果后者已经知道了灾害信息,则会导致灾害信息传播者失去传播信息的兴趣,从而以l/a的概率变成一个灾害信息知情者,此次信息传播的小过程失败。
2.3灾害信息传播网络的统计性质
灾害信息传播网络的统计性质反映着网络内部结构的不同和系统功能的差异。它的统计性质有以下几个方面。
(1)平均路径长度是指所有节点之间的最大距离的平均值,它描述了网络中节点间的分离程度,即网络有多小,也就是灾害传播网络中所有传播途径传播信息的平均长度。
(2)聚集系数用来描述网络中节点的聚集情况。在灾害信息网络中表示灾害信息传播者与灾害信息未知者、灾害信息知情者的关联程度。
(3)度和度分布一个节点与其他节点相连的边数称为该节点的度。节点度分布是指网络中度为k的节点的概率P(k)随节点度k的变化规律。在灾害信息传播网络中,度就是表示一个灾害信息传播者向k个灾害信息未知者或灾害信息知情者传播信息。顶点的度指标用于描述该传播者对传播网络中其它传播者的直接影响力。节点度的分布函数反映了灾害信息传播网络的宏观统计特征。
(4)介数分为边介数和节点介数。节点介数为网络中所有的最短路径中经过该节点的数量比例;边的介数是网络中所有的最短路径中经过该边的数量比例。介数反映了相应的节点或者边在整个网络的作用和影响力。在灾害信息传播网络中,节点介数说明该节点对于网络中信息流动影响的大小。介数的分布特征反映了不同传播者在网络中的地位,即其传播速度、传播范围和影响程度。对于评价各种传播媒介的重要性、评价防灾体系有着十分重要的意义。
3基于复杂网络的灾害信息传播特征分析
3.1网络节点的大规模性
一个重大灾害发生后,其信息传播网络的节点数必定十分庞大。要做到灾害信息传播既维护了公众的知情权,又不会造成社会恐慌和由此带来的衍生灾害,就应该对大规模的灾害信息传播网络节点进行分析,找到网络中的关键节点,即公众信任度高、社会责任感强、在网络的影响大的节点。衡量这些节点是否关键的主要依据是它们的介数和度分布。
3.2网络连接的稀疏性
在灾害信息传播网络中,并不是所有节点的聚集系数和度分布是相同的。主流大众传媒由于其传递信息的真实性、全面性,受到公众的普遍信赖,那么主流大众传媒所代表的节点的聚集系数和度就要比其他节点的高。在这一区域的网络连接就比较密集。反之,过于失实的灾害信息会受到公众的质疑,其传播范围就比较小,则这部分的网络连接就很稀疏。
3.3连接结构的复杂性
灾害信息传播网络的节点是由主流媒体、网络媒体、手机媒体、数字电视等传播者和受众组成,因此每个节点都具有自己的动力学特征,且各个节点之间相互影响、相互制约,从而整个灾害信息传播网络也就具有极为复杂的动力学特征,不能简单的用规则网络和随机网络对其进行分析。因此,灾害信息传播网络具有连接结构的复杂性。
3.4信息传播的时间复杂性
信息在网络中传播所花费的时间与下一节点对信息的敏感程度、传播节点的度和介数及信息的可靠度等有关。沿海的人们对于有关台风的信息就会比较关注,而对于内陆城市的人而言,此类信息就不很重要。这就体现了灾害信息传播的时间复杂性。
3.5信息传播的变异性
在一个灾害信息传播者向灾害信息未知者传递信息的这一过程中,信息内容是否不会发生变异以及信息来源是否真实可靠,这就是信息传播的变异性。
3.6信息传播引发衍生灾害的可能性
灾害本身具有破坏性,由于灾害信息内容不同,公众对灾害信息的关注程度也不同,必然导致信息传播的速度不一样。而灾害信息的传播也可能引起各种社会问题,甚至形成衍生灾害。例如在“非典”期间各种有关SARS的信息肆意传播,引起某些药品的短缺、物价的抬高以及社会不安定因素突增。在灾害信息传播网络中可表现为信息中心增多、传播过程的重复性。
4结束语
doi : 10 . 3969 / j . issn . 1673 - 0194 . 2012 . 17. 044
[中图分类号] F272 [文献标识码] A [文章编号] 1673 - 0194(2012)17- 0078- 03
1 引 言
所谓复杂网络[1]就是具有复杂拓扑结构和动力行为的大规模网络,它是由大量的节点通过边的相互连接而构成的图。复杂网络的节点可以是任意具有特定动力和信息内涵的系统的基本单位,而边则表示这些基本单位之间的关系或联系。例如,Internet网、WWW网络、社会关系网络、无线通讯网络、食物链网络、科学家合作网络、流行病传播网络等都是复杂网络。复杂网络包含两层含义:首先,复杂网络是大量真实系统的拓扑抽象;其次,它既不是规则网络,也不是随机网络,而是介于两者之间 [2]。随着知识管理研究的不断深入,越来越多的学者们开始关注于从网络的角度研究企业知识共享问题,进而产生了知识网络的概念[3-5]。钟琦[6](2008)建立了企业内部知识流动网络理论体系和企业内部知识流动网络的结构模型,从知识节点、知识团体、网络整体结构三个方面提出了能够提高企业内部知识流动网络有效性的途径。曹春苗[7](2010)通过对知识价值链结构及特征的研究,认为知识价值链网络具有典型的复杂网络结构。李金华和孙东川[8](2006)在阐述复杂网络理论的基础上,分析了知识在知识合作网络中的传播特征,提出了一种网络上的知识传播模型。王夏洁和刘红丽[9](2007)基于社会网络研究了知识链上的知识获取、社会网络关系、结构对知识链中知识传递和共享的影响,以及社会网络对推动知识创新的重要作用。21世纪是知识经济的时代,企业间的竞争也逐步转变成供应链之间的竞争,有关知识共享的研究也从单个企业的层面扩展到了供应链的层面。从复杂网络的角度研究供应链企业间知识共享问题显得尤为重要。
2 复杂网络的特征量度
2.1 度分布
复杂网络的主要统计特征之一就是度分布,节点i的度ki就是与该节点连接的其他节点的数目。网络中的ki分布情况可用分布函数P(k)来描述。P(k)就是一个随机选定的节点的度恰好为k的概率。
度是网络节点的属性中最简单但也是最重要的性质,节点的度越大代表这个节点越重要,常常拥有资源和地位的优越性,对其他成员有很大的影响力。
2.2 平均路径长度
假设网络中所有边的权值是相等的,并定义连接i和j两个节点的最短路径上的边数dij为这一对节点之间的距离,那么网络的平均路径长度(APL,Average Path Length)就是网络中所有节点对之间距离的平均数。
2.3 簇系数
簇系数表示网络中某一节点的两个相邻节点也相邻的概率,反映网络的集团化程度。簇系数是这样定义的:设网络中节点i的度为ki,也就是说有ki条边将它和其他节点相连,那么这ki个节点就称为节点i的邻点。这ki个相邻节点之间,在忽略重边的情况下最多可以有ki(ki - 1) / 2条边(无向边)。节点i的簇系数Ci可定义为在节点i的ki个相邻节点之间实际存在的边数Ei和这ki个节点之间最多能有的边数ki(ki - 1) / 2的比值。若一个网络包含N个节点,那每个节点簇系数的平均值就是这个网络总的簇系数。
2.4 介数
介数[10]有两种,分别是节点介数和边介数。介数表示的是网络的一个全局变量,它反映节点或边在网络中的影响程度。若某个节点或边被其他许多条最短路径经过,就说明该节点或边在网络中的地位很重要。介数可以用来定量地描述某个节点或边在网络中的重要性。
3 供应链企业间的知识共享网络模型的构建
借鉴于晓丹[10]等人关于网络、知识网络要素的论述,知识网络应该包括3个基本的组成要素:行为主体、活动的发生和资源。其中行为主体不仅包括个人、组织和企业,而且在更广的范围上还包括政府、科研院所、知识服务机构等;活动的发生包括网络中企业内部知识和信息等的共享活动、企业间的交易活动以及整个网络中企业之间生产要素、信息、知识等资源流动的相关活动;而资源则包括可共享的知识资源、人力资源和生产要素资源。
在此,本文认为供应链企业间的知识共享网络模型应包括节点企业、企业之间的关系以及这些关系所承载的各类资源3个构成要素。
3.1 节点企业
供应链企业间知识共享网络中的行为主体就是节点企业,它通常有以下几种类型:制造商、供应商、需求方、竞争企业、知识服务机构以及相关企业等。不同类型的企业在知识共享网络中发挥着不同的作用。例如,制造商企业是核心企业,它积极协调知识共享网络中的各种活动,并引导其他企业融入这些活动。
3.2 企业之间的关系
DOI:10.3969/j.issn.1008-0821.2013.09.007
〔中图分类号〕G202〔文献标识码〕A〔文章编号〕1008-0821(2013)09-0035-09
伴随着移动通信技术的不断发展,移动互联网日趋成熟,为微博的发展提供了发展契机。Twitter是产生最早的微博,据Semiocast的数据调查数据显示,截至2012年12月,Twitter用户数达到517亿,成为仅次于Facebook的全球第二大社交网站,其中141亿美国用户;2012年6月,Twitter用户一共消息1058亿条[1],这个信息量是任何一家媒体,无论是传统媒体还是网络媒体,都无法企及的。目前国内较具代表性的微博主要以门户网站为主,如新浪微博、腾讯微博、人民网微博等,它们依靠网站自身的影响力与巨大的用户群,几乎占据了微博的全部用户,有着较大的影响力。据中国互联网络信息中心的最新报告,2012年12月底,我国微博用户规模为309亿,其中手机微博用户规模达到202亿,手机成为微博用户的首选终端,微博逐渐移动化发展[2]。
自2005年Twitter出现后,学术界关于微博行为的研究的不断增加,对于用户行为、用户关系、用户兴趣等都进行了较为深入的研究,也取得了较多成果。麦田(2009)认为,以Twitter为代表的微博信息平台能够成功的主要原因有:可迅速的内容,可迅速的网站结构以及病毒式的信息传播[3]。所以,微博自身的信息传播模式的便利性与快捷性对于用户来说吸引力是极大的。彭兰教授在《微博发展的动力》(2009)中指出,微博的发展除了来自微博形式的自动力外,还有来自微博用户需求的拉动力和微博社会功能的主动力[4]。实践方面,主要研究微博用户行为的动机,以及其对微博用户行为的影响程度,在此基础上对微博用户行为的表现进行预测,以及微博用户行为对兴趣构成和购买行为的影响;理论方面,主要运用相关的理论基础来解释微博用户行为,并通过一些实证研究对用户行为的具体表征进行统计分析。
基于复杂网络和社会网络的理论研究微博是近年来的一个热点,它能够较好的解释微博用户的信息、评论、转发等行为所呈现的网络关系,也可以从中挖掘出关键用户,可以较好的反映出用户之间的关系,并对用户行为进行预测。李林红和李荣荣认为,新浪微博社会网络是一个自组织系统,从整体网络、个体网络、小团体、小世界效应构建模型,通过实证研究考虑用户在信息“、转发、评论、@、回复”之间的关系,认为微博中存在自组织行为,通常整体的自组织现象弱,局部明显,而且这种关系的形成往往依据用户角度的不同,形成的自组织网的凝聚力也是不同的[5]。易兰丽(2012)利用人类动力学和复杂网络的相关理论,从网络互动的角度出发,对用户的信息、转发和评论行为进行统计分析,了解三者之间的关系,并建立用户信息评论模型和兴趣驱动模型,对微博用户的行为做了较详细的分析[6]。
从以上的分析可以看出,研究者主要是通过直观的静态分布的网络形态表现用户在关注、评论和转发方面的特征,大多是从数学和技术方面考虑,较少地考虑社会因素和用户因素。本文以复杂网络的基本统计特性为基础,以新浪微博为例,通过抓取相关数据,对其进行处理分析,对微博用户的关注行为和转发评论行为的网络特性进行分析,提出微博网络是典型的小世界网络;微博网络较为稀疏,但也存在部分密集的社群,即微博群体;微博网络是一个不均匀的网络,在信息传播与分享方面存在较大的信息不对称。
1数据获取与处理
通过新浪微博的最新数据报告可知,目前新浪微博的用户已超过4亿,同时在腾讯微博、人民网微博等平台上也拥有大量的用户;但在用户总量、活跃用户数量、微博影响力与代表性方面,新浪微博有着显著的优势。所以本文选取新浪微博中的数据作为研究样本,以期能够较好的反映微博的复杂网络特性,完整地呈现微博用户行为的基本特性。
目前获取微博中的数据有两大主流方式:一是通过新浪微博开放端口,利用API平台获取。这种方式获取较为简洁、方便、高效,便是数据数量有一定的限制;二是网络爬虫。通过设定的URL地址,按照一定的爬行策略抓取信息,这种方式获取的信息数量大且全,但是较为繁琐,且效率低,后期数据处理难度也较大。所以本文通过新浪的API平台抓取数据。
本文采用滚雪球抽样的方法,选中其中一个节点,对其粉丝的信息进行抓取,再对粉丝的粉丝信息抓取,持续若干轮,共获取节点信息65 536个、100万余条用户关系信息、10万条微博信息等。抓取的用户信息内容主要包括:用户ID、昵称、姓名、省、市、地区,个人描述、URL、图像URL、性别、粉丝数、关注数、收藏数、创建时间、是否加V、是否允许定位等用户的基本信息,用户评论信息主要包括:评论ID、评论内容、来源URL、方式、时间、者ID、评论者ID等基本信息。微博内容信息主要包括:内容ID、创建时间、具体内容、来源URL、方式、收藏数、时间、者ID等基本信息。以这种方式获取的微博数据使一些孤立的节点和“僵尸粉”也被囊括其中,使得网络密度可能较稀疏;但在很大程度上反映了微博的整体特性,无论是活跃用户,还是僵尸粉,都是分析数据的组成部分。
在进行实际分析的过程中,为了确保分析的准确性和真实性,剔除无效信息后,对获取的64 961条信息进行基本分析。在数据库中,选取1 021个关注信息,组成关注矩阵,对其关注行为进行分析;提取1123*386的微博评论矩阵和1122*537的微博转发矩阵,对微博用户的评论转发行为进行分析。
2微博用户行为的复杂网络特性
2.1小世界网络特性分析
小世界网络最基本的特征是有较短的平均路径长度和较大的聚类系数。用N表示节点数量,dij表示节点之间的最短距离,那么网络平均路径长度的计算公式如下所示:
L=21N(N-1)∑N-11i=1∑N1j=i+1dij
另外,假设节点i与其他Ki个节点都相连,如果这Ki个节点也相互连接,那么它们之间应该有Ki(Ki-1)/2条边;但这Ki个节点之间实际存的边数只有Ei,那么二者之比即为聚类系数Ci,用公式表示如下: