时间:2024-03-28 11:07:29
序论:速发表网结合其深厚的文秘经验,特别为您筛选了11篇社交媒体文本分析范文。如果您需要更多原创资料,欢迎随时与我们的客服老师联系,希望您能从中汲取灵感和知识!
中图分类号: G206.2
文献标志码: A
文章编号: 10012435(2017)02022306
Key words: Gender Language;topic;corpus;text classification;priority sequence
Abstract:
The priority sequence of topic selection between genders is variable.The previous researches mainly focus on the change of priority sequence in the daily conversation context,instead of the network virtual context.The thesis classifies 500,000 pieces of Chinese blog texts written by two genders respectively,which are gathered from the corpus of Network Media Language Branch in National Language Resources Monitoring Research Center(CNLR).Based on this largescale data,it investigates the priority sequence of topics and the intergroup differences between genders.It finds out that the priority sequences of topic selection between genders in new media context and daily conversation context are distinctively different.Also,highfrequency topics between genders in the new media context have similarities,while significant differences of the sequences,as well as topic amount exist between groups.“Rapporttalk” always dominates females both in daily chats and new media contexts,consequently the priority sequence is relatively stable.However,the mode of discourse by men is transforming from “Reporttalk” to “Rapporttalk” in the new media context,thus the priority sequence is less stable.
性e语言研究是社会语言学的研究热点,同时也是心理学、社会学、人类学等多个学科领域共同关注的课题。近年来,性别语言研究的重点逐渐转向交际中的话语模式。话语模式的性别差异主要表现在话题选择、话语量、话轮控制和交际策略方面(Wardhaugh 2010)[1]。其中,话题选择的性别差异一直受到国内外学者的重视。Klein(1971)、Kramer(1974)、Aries(1976,1982)、Tannen(1991)、Myerhoff(2006)[17]等考察了工人阶级、中产阶级等不同社会阶层,以及美国犹太社区等不同社会族群的日常言谈话题,发现男性之间的话题焦点围绕政治、经济、体育、商业等,通常不涉及个人情感;女性之间的话题焦点倾向于感情、家庭、孩子、夫妻关系等。许力生(1997)、李经纬(1998)、赵蓉晖(2003)、崔艳英(2012)[811]等国内学者也对此进行过探讨,但以介绍和综述国外研究为主,缺少以汉语为语料的实证研究。
话题选择优先序列会因语境、地域、种族、文化等差异而产生变化,以往针对家庭和公共社交场合的调查研究,说话人在话题选择时容易受到交际对象、交际目的、交际场景等诸多因素的影响,虽然结论真实,但并不具有普遍性。而网络虚拟语境下,交际场合由现实的语言生活转变为虚拟的网络空间,交际对象由特定受话人转变为网络中的预设受话人,外界环境因素对作者话题选择的影响降低。尤其是新媒体中的博客,因其具有个性化、开放性、交互性、共享性等特征,文章更接近于单向独白式语体,不同于以往研究的双向会话式语体。文章更能体现的博主对话题喜好,能更真实地反映两性的话题选择倾向。同时,相比以往针对日常言谈语境的小样本调查,基于新媒体语料的大规模统计分析在数据处理上占有独特的优势,避免了因小样本和个案研究带来的偏差。再者,由于中外语言文化的差异,国外的研究结论并不一定符合汉语的性别语言特征,而且重视汉语语料、加强本土化研究符合当代语言性别差异研究的多元化、动态化、微观化和本土化的发展趋势。因此,本文基于大规模新媒体博客语料库,在文本分类处理的基础上对汉语博客中两性话题选择的优先序列所进行的实证研究和探索,可以开拓汉语性别研究的新前景,拓展新媒体下语言研究的新视野,展现性别语言差异在时代变动中的新发展,对于新媒体语言研究和监测具有理论和实践上的启示作用。
一、两性话题的文本分类过程
(一)实验文本的甄别与筛选
国家语言资源监测与研究中心的网络媒体监测分中心从2005年开始对网络新闻、网络论坛、网络文学,以及博客、微博、微信等新媒体进行动态监测,并建有网络媒体监测语料库。其中,博客语料来源于新浪博客(blogsinacomcn)、搜狐博客(blogsohucom)、中国博客(wwwblogcncom)、博客网(bokeecom)、和讯博客(bloghexuncom)、博客大巴(wwwblogbuscom)等境内著名博客网站。本文选取其中的博客语料,主要基于两个方面的因素:首先,文章作者元信息的提取原因。博客、微博、论坛的作者在社交平台上注册时会提供包括性别在内的作者身份信息,因此可以在语料爬取过程中对作者身份信息进行元数据标注,进而便于提取出有性别信息的作者。其次,文本分类的技术原因。微博和微信都比较短小,计算机对其进行文本自动分类处理时效度不高,难度较大。而博客文本相对较长,分类效果较好。因此,博客文本比微博、微信等其他新媒体语料更能有效地进行话题分类研究。
两性博客语料的筛选步骤如下:第一步,甄别身份信息真实的作者,以筛选出有效的两性博客文本。博客文本在抓取的过程中对作者身份等元数据信息进行了采集和标注,根据元数据信息筛选出标注了性别的作者及其博文。由于少数作者虽然在博客平台登记了性别等身份信息,但信息并不一定真实,如果这些不确定的文本被用于统计分析,将会影响统计结果的可靠性与可信度,因此必须抽取作者身份相对真实的博文用于统计分析。为筛选身份可信度高的文本,本文依据博客作者的“博客等级”和“博客积分”高低、“博客访问量”和“博客关注量”大小,以及是否为“加V博客认证”等标准进行甄别,筛选出博客等级和积分较高,访问量和关注量较大,同时为加V认证的作者。这类作者的博客活跃度较高,作者身份信息较为真实可信。第二步,将筛选出的作者所有博客建立语料库,编写小型程序随机抽取了博客文本共计1 008 755篇,其中男性500 889篇,女性507 866篇为了有效的进行文本分类,本文在随机抽取博客文本时,剔除了文本词汇量小于100词的文本。〖ZW)〗。第三步,将筛选出来的语料建设成两性博客语料库,用于下一步的文本分类处理。
(二)文本分类步骤与统计结果
本文针对博客文本所特有的话题类别,进行了计算机文本分类处理,具体步骤如下:第一步,对所有博客文本进行繁简转化,剔除表情符号、图片等非文字符号;第二步,采用中科院自动化所的自动分词工具对文本进行自动分词和词性标注;第三步,用正则表达式和停用词表过滤已分好词的博客;第四步,参考新浪博客、中国博客网(博尚网)、网易博客、赵蓉晖(2003)[10]的主题类别,同时在文本抽样的基础上,确定了博客文本分类的27个话题类别。第五步,从语料库中人工筛选出用于机器学习的训练语料和测试语料。在这一过程中,人工筛选和机器学习两个方法交替进行,最后一共收集了26个话题(不包括杂谈)的文本训练语料各约500篇,测试语料各约500篇,将52组话题的约26 000篇文本用于机器学习,统计得到26个话题类别的词频表;第六步,对26个话题的词频表进行组间差异比较,筛选出各话题的高频独用词,以及词频、频序组间差异较大的词。由于这类词与话题内容关系较为密切,因此利用专家的领域知识,通过人工干预加强这类词汇的权重;第七步,按照朴素贝叶斯算法判断每篇博客的后验概率,取后验概率最大的类别作为分类结果。第八步,检验文本识别的效度,并调整识别方法,优化统计结果。表1为文本分类后各话题的文本数量及其差值。
二、两性话题选择的优先序列
两性话题选择的优先序列是建立在文本分类和数据统计基础上的定量分析,是指将不同的话题类别按照其使用频率的高低进行分级或有序的排位,并对形成的优先序列做出合理的解释说明。下面将分别考察两性话题选择的优先序列,并剖析两性高序位话题的特征及其形成原因。
(一)男性话题的优先序列
在博客本文分类时,某些博客文本由于主题不明确而无法根据其后验效率将其有效归类,这些无法有效归类的文本,本文统一将其另列为“杂谈类”。“杂谈类”文章的平均文本长度最短,仅为561个字符,但其文本数量最大,约占男性文本总量的3025%,其位序居27类话题之首。其次是“家庭生活”话题,它是计算机自动识别所得到的文本数量最多的话题,约占男性博客文本总量的2528%,平均文本长度为793个字符,话语量高于“杂谈类”。位序居前列的“杂谈、家庭生活、感情婚姻、电子数码,体育运动,电视电影”等6类话题占据总文本数的8615%,而其他21类话题的文本量仅占文本总量的1385%,位序最低的“两性生理”的文本仅占文本总数的0025%。
各话题文本量的分布特征与Zipf定律中的词汇分布特征相似,呈现出典型的幂律分布特征,即只有少数的话题被经常使用,而大多数话题很少被使用。将各话题按照文本数量大小排列,得到男性博客话题的优先序列,见图1。
将男性博客话题的优先序列与日常言谈时的话题选择倾向比较后发现,两者的高位序话题存在较大差异。赵蓉晖(2003)[10]曾用双向横坐标描绘了两性的话题选择倾向,男性话题的优先序列依次是“政治、军事、性、金钱、体育、科技、自然”,本文与之对应的话题分别为“政治体制、军事战争、两性生理、经济金融、w育运动、科学技术”。从文本量上看,这6类话题所占比例非常小,仅占全部话题总量的745%,除“体育运动”比例达到573%以外,其他话题均未达到百分之一;从话题的位序上看,除“体育运动”的位序相对靠前以外,其他话题位序都较为靠后,其中政治体制第23位、军事战争第21位、两性生理第27位、经济金融第14位、科学技术第19位。可见,男性博客语境下的话题优先序列明显异于日常言谈时的话题倾向,日常言谈时的高频话题在网络博客虚拟环境下并非为优先话题。
(二)女性话题的优先序列
女性博客话题中,文本量最多的是“家庭生活”,占女性文本总数的4114%,然后依次为“杂谈、感情婚姻、娱乐追星”,所占比例分别为2283%、156%、355%,这四类位序居前的话题占女性文本总数的8312%,其他23个话题所占比例仅为1688%,位序最后的话题和男性相同,均为“两性生理”。从女性各类话题的文本量分布情况看,女性话题的文本量分布也呈幂律分布特征,但高频话题比男性更集中。将各话题按照文本数量大小排列,得到女性博客话题的优先序列,见图2。
女性博客话题优先序列中的高序话题与其日常言谈时的话题选择倾向比较相似。赵蓉晖(2003)[10]认为女性最感兴趣的话题依次为“时尚、感情、家务、家庭、儿童”等,本文与之对应的话题依次为“时尚消费、娱乐追星、情感婚姻、家庭生活”,这些话题位序都较为靠前,分别为第16、第4、第3、第1位。可见,日常言谈时的高频话题在网络博客虚拟环境同样是优先话题,主要围绕家庭生活与感情婚姻展开。
(三)高位序话题的稳定与变化
通过以上考察发现,虽然学界一致认为现实语言生活中的两性高频话题存在明显差异,“家庭、感情、婚姻、时尚”等为典型的女性话题,“政治、体育、经济、军事”等则为典型的男性话题,但是这一规律并不适用于虚拟网络环境下的新媒体语言生活。网络博客中的两性高频话题已经变得趋同,两性话题优先序列中的高位序话题都是“家庭生活”和“感情婚姻”。
通过比较现实语言生活的两性高频话题和网络新媒体语言生活的高位序话题后发现,女性的话题选择倾向具有稳定性,高位序话题没有明显变化,最热衷的话题始终以家庭婚姻与情感生活展开;男性的话题选择倾向具有较大变动性,男性在日常言谈语境下“政治”“经济”等高频话题成为博客文本中的低位序话题,这两类话题总数仅占男性博客文本总数的097%,而“家庭”“情感”等话题却成为高位序话题,这两类话题总数占男性博客文本总数的39%。男性的高位序话题会因语境的改变而产生变化。
(四)稳定的机制及变化的动因
Tannen(1991)[7]将谈话分为关系式谈话(rapporttalk)和报告式谈话(reporttalk)两大类。前者以感情交流为主,其目的是通过交谈建立关系、维系感情;后者则是以信息交流为主,其目的是交流对事物的看法和意见,提出某一问题的解决办法等。在日常言谈中,女性谈话以关系式为主,倾向于通过谈论涉及个人生活的内容,以交流情感的方式来建立社交关系;男性通常以报告式为主,信息交流量较大、目标明确、针对性强;在日常言谈和网络博客中,女性的话语方式始终以“关系式谈话”为主,因此高频话题比较稳定;男性在网络虚拟环境下“报告式”动力相对减弱,“关系式”动力增强,话语方式的转变导致高频话题产生变化。
在公共社交场合,由于男性比女性更注重掌控话语权,以说教、演讲等报告式的话语姿态展现自身能力,通过较为正式的话语风貌获得社会认同和大众赏识,这种动力驱使男性在言谈时会优先选择擅长的优势领域,如政治、军事、经济、体育等。但是在非正式场合,尤其是在网络社交媒体平台中,两性的话语交际目的都是以建立和维系社交关系为主,通过博客、微博、微信等自媒体平_抒感、记录生活。因此,博客中的两性话语方式都以“关系式”为主。在网络虚拟语境下,由于作者身份信息相对隐匿,话语身份构建和凸显的动力减弱,因而男性倾向于选择轻松的生活话题。
男性“报告式”动力减弱是多种动因共同作用的结果。首先,交际场合由公共社交场合转变为自媒体环境下的非正式场合;其次,交际场景由现实语言生活转变为虚拟网络语言生活;第三,交际媒介变为网络自媒体平台;第四,交际“对象”由现实语言生活的特定受话人转变为网络语境中的预设受话人,虽然博客文本的受众具有不确定性,但是作者在撰写博文时会带着认知关联假设信息,以吸引读者、构建虚拟关系为目的。Yus(2011)[12]也认为作者对文章的受众和交际对象存在一种预设或假定。第五,交际目的由自我展示型向社交关系型转变;第六,交际身份由公共突显型向虚拟隐匿型转变,男性在正式和非正式场合下对性别话语身份凸显程度的改变对话题选择产生影响。以上因素促使社交媒体的话语方式以关系式为主,因此,女性的高位序话题保持不变,男性则发生改变。“家庭生活”“感情婚姻”等男性日常聊天较少谈及的话题,成为男性博客文本中的高位序话题。
三、两性话题选择的组间差异
虽然两性的高位序话题相似,但是话题优先序列的组间差异仍然存在,主要表现在话题位序的组间序差和话题量分布的组间差异两个方面。
(一)话题序差比较
由于同一话题在男性话题中的位序与其在女性话题中的位序存在一定差距,其组间序差反映了该话题在两性话题序列中的地位差别,计算其组间序差可以用于比较两性对该话题的偏好程度。序差越大,偏好差距越大,反之则小。例如“家庭生活”在男性话题序列中的位序为2,在女性话题序列中的位序为1,其组间序差为1,说明女性比男性更倾向于优先选择“家庭生活”,但差距较小;“游戏网游”在男性话题序列中位序为8,在女性话题序列中的位序为19,其组间序差为11,说明男性比女性更倾向于优先选择“游戏网游”,且差距较大。将全部话题的组间序差有序排列,构成话题“序差序列”。“序差序列”能将话题的“地位差别”集中并有序地表现出来。为较为直观反映两性对不同话题的选择偏好,将升序排列的序差序列绘制散点图,得到序差分布图,见图3。
从分布图可以看出,除了“情感婚姻”“两性生理”为零以外,其他话题均存在组间序差。男性比女性更优先选择的话题依次为:游戏网游、法律法规、体育运动、历史文化、经济金融、、军事国防、科学技术等;女性较男性更优选选择的话题依次为:美容护肤、时尚消费、星座占卜、美食佳肴、医疗卫生、教育培训、汽车房产、工作求职、娱乐明星等。
(二)话题量的组间差异显著性检验
为了进一步考察两性话题倾向的组间差异,下面以话题文本量为依据进行差异显著性检验。由于27个话题分类为非定距数据,因此采用非参数检验。非参数检验是不依赖总体分布的统计分析方法,指在总体不服从正态分布且分布情况不明时,用来检验数据资料是否来自同一个总体假设的一类检验方法。本文采用卡方验证中的独立性验证,借助统计软件SPSS(220)得到卡方验证的结果,见表2。
通过表2中“Pearson ChiSquare”一栏对应的Value值和AsympSig值可以查到,x2值为86702647,P值为0000。当P值小于005,说明两者之间存在显著性差异。假若P值大于005,说明两者之间没有显著性差异。由于独立性验证中的自由度df=(r1)*(K1),即行的数目减1乘以列的数目减1,df=(271)*(31)=52。查卡方分布表,对应的自由度df=52,a=005的x2的临界值为6750,检验统计值x2为86702647,远远大于临界值,同时P值为0000,小于005。因此通过检验统计值X2和P值的所在范围可以判定:在博客文本中,两性话题量的组间差异存在显著性,具有统计学意义。
四、结语
通过以上研究发现,两性在言语交际中的话题优先序列组间差异客观存在,不同语境下的两性话题差异不尽相同。日常言谈等现实语言生活中的两性高位序话题完全不同,男性话题以政治、军事、体育、经济等男性擅长的优势领域为主,女性话题则以情感、家庭、婚姻、生活等方面为主。但是在博客等虚拟网络空间中,两性的高位序话题变得趋同,话题优先序列中的前三位话题都是家庭生活、感情婚姻、杂谈。虽然高位序话题相同,但是优先序列中话题的组间序差明显,且话题量的差异具有显著性。
造成两性话题差异的原因有很多,诸如两性固有的生理和心理基础、受教育程度、身份角色以及社会交往方式等,但根本原因源于传统社会文化下逐渐形成的性别文化、性别心理和性别角色的差异。男性由于更多地参与社会经济活动,表现在话题上更多地涉及政治、经济等方面内容,而负责执掌家庭内务的女性们则更多地关注家庭生活等方面的话题,话题差异是两性社会分工不同的必然结果。但是两性的话题优先序列不是绝对的,往往会因场合、交际对象、个人文化程度、年龄等因素而变化,并随着社会、环境、文化的发展而相应发展。
参考文献:
[1]Wardhaugh,Ronald An introduction to sociolinguistics[M] 6th Edition Blackwell Publishing 2010
[2]Klein,J The family in “traditional” workingclass England[C] In M Anderson(ed) Sociology of the Family,Baltimore,Penguin 1971
[3]Kramer,CWishywashy mommy talk [J] Psychology Today,1974(8): 8285
[4]Aries,E 1976 Interaction patterns and themes of male,female,and mixed groups[J]Small Group Behaviour 7(1):718
[5]Aries,E 1982 Verbal and nonverbal behavior in singlesex and mixsex groups[J] Psychological Reports 51,12734
[6]Tannen,D You just don't understand:Women and men in conversations[M] New York: William Morrow 1991
[7]Meyerhoff,Miriam Introducing Sociolinguistics[M] New York,NY: Routledge,2006
[8]S力生话语风格上的性别差异研究[J]外国语,1997(1):4348
[9]李经伟语言性别差异及其原因解释[J]山东外语教学,1998(3):1216
在针对金融学领域进行实证研究时,传统研究方法通常选择结构化数据作为研究依据,常见类型如股票市场数据、财务报表等。大数据技术发展后,计算机技术逐渐成熟,在实证研究中可获取更加多样化的数据,非结构化文本大数据得到应用,例如:P2P网络借贷文本、财经媒体报道、网络搜索指数、上市公司披露文本、社交网络文本等。本文探讨了相关文本可读性、相似性、语气语调与语义特征等。
1.在金融学研究中文本大数据的挖掘方法
传统研究方法通常采用人工阅读方法对文本信息进行识别,因为文本数量庞大、信息构成复杂,人工识别效率较低,而且信息识别质量不稳定,信息识别效果受到阅读者专业素养、理解能力等多方面因素影响。计算机技术发展后逐渐被应用于分析文本大数据,利用计算机技术获取语料,对文本资料进行预处理、文本表示、抽取特征等操作。完成上述步骤后,在研究分析中使用文档特征,从而开展深入分析[1]。在分析文本大数据时,主要采取如下流程:(1)从众多信息来源中获取语料,对语料文档进行解析,明确文本定位,清洗数据,获得文本分词,标注词性,将其中停用词清除。(2)构建词云、词嵌入、词袋模型与主题模型。(3)分析文本情绪、可读性、相似性,分析语义关联性。(4)监督机器学习、词典语法处理[2]。
1.1获取语料
获取语料的方法主要分为两种:(1)人工获取;(2)利用网络工具爬取或抓取。其中人工获取语料投入成本较高,耗时较长,需要投入大量人力,因此网络抓取的可行性相对较高[3]。网络抓取方法可有效应对大量文本量,在一定程度上降低文本大数据获取难度。在网络抓取语料时,需要借助编程语言,通过直接抓取或爬取的方法获取文本大数据。采用此种语料获取模式具有两方面显著优势,不仅获取文本信息耗时较短,效率较高,而且可直接使用编程语言整理内容和规范形式,为后续文本分析工作奠定基础[4]。
1.2预处理环节
获取目标语料后,前期需要预处理文本,解析、定位文本,清洗数据,标注分词与词性,最后去除停用词。金融市场通常要求企业采用PDF格式作为信息披露文档格式,文本预处理中首先需要解析富格式文档,获取文档信息。定位文本和清洗数据环节中,利用计算机程序定位文本信息[5]。在该类研究中,MD&A研究热度较高,使用正则表达式进行财务报告正文MD&A定位首尾信息部分,提取上述信息。此外,文本信息中除核心内容结构外,还包括超文本标记语文、脚本语等代码信息、图片信息、广告信息等,该类信息在文本分析中属于噪声内容,需要删除和清洗相关信息,从文本中筛选有价值的核心内容[6]。文本分词处理与文本语言密切相关。英文文本使用空格划分单词,即自然存在分词形式,也可采取提取词干、还原词形等方法划分单词。中文文本中不使用空格分词,根据中文语言习惯,词语为最小语言单位,可独立使用。基于此种背景,分析文本时需要专门分词处理中文文本,例如:使用Python开源“jieba”中的中文分词处理模块处理文本,股票论坛帖子文本、年度业绩说明会以及企业财务报告均可使用该类工具处理,完成分词。在针对中文文本进行分词处理时,其中实施难度较高的部分是识别新词、歧义词与控制切分颗粒度。在处理歧义词时,需要科学选择分词方法,采用“jieba”针对文本进行分词处理时,选择分词模式是否科学直接影响分词精准度。分词处理新词时,需要用户在相应模块中自行添加新词,完善自定义词典,从而使分词软件识别新词[7]。语义信息被识别的关键依据是词性等语法特征,词语切分后标记词语词性操作被称为词性标注。词性标注操作可帮助计算机进行词语种类识别,避免词语歧义,对语法结构进行有效识别,从而促进计算机顺利进行语义分析。词性标注时,中英文操作方法不同,词性划分英文单词要求比较严谨,利用词尾变化反映词性变化。在英文词汇中,许多固定词尾可提示详细词性信息。在处理中文词语中,并无明确词性指示,词性识别依据主要为语法、语义等。简言之,英文词性识别标记注重形式,汉语词性标记以语义为主。在处理文本信息时,需要将文本信息中停用词去除,从而保证文本挖掘信息具有较高精度。所谓停用词,即自身词义表达有限,然而对于句子语法结构完整性而言非常重要的词语。停用词导致文本数据具有更繁琐维度,导致分析文本的成本较高。英文中动词、连词、冠词均为常见停用词。中文处理方法比较复杂,必须结合语言习惯分析停用词,不仅需要处理特殊符号、标点符号,还需要处理连词、俚语。除此之外,应根据具体研究内容确定停用词。在进行文本情绪研究时,特定标点符号、语气词等会影响文本表达的情感信息,对于此类信息需要予以保留,从而保证文本情感程度得到准确分析。
1.3文档表示环节
文本数据为高维度数据,具有稀疏特点,使用计算机处理文本数据时难度较高,预处理实施后,必须通过特定方式表示文档信息,通过此种处理降低后续计算机分析和人工研究难度。词云、词嵌入、词袋模型、主题模型均为核心表示方法[8]。词语技术具有可视化特点,是文本大数据技术之一。所谓本文可视化,即使用视觉符号显示复杂内容,展示文本规律。根据生物特性,人们习惯于通过视觉获取文本信息,实现文本可视化可提高信息提取效率。使用词云技术可有效描述文本中词汇使用频率,采用醒目形式显示高频词汇。词袋模型的构建基础是无严格语序要求的文字词组存在[9],以此种假设为前提,文本相当于众多词语集合,采用向量化方法表达文本,在此过程中只计算各个词语出现频率。在词袋模型中含有两种构建方法:(1)独热表示法;(2)词频-逆文档频率法。前者的应用优势是可行性较高,操作难度较低。例如:现有如下两个文档:(1)文档一:“经济学中文本大数据使用”;(2)文档二:“金融学中文本大数据使用”。以文档一、文档二为基础建设词表,根据词序实施词袋化处理,确定词袋向量。对于出现的词,以“1”表示,未出现的词以“0”表示。但是在实际操作中,不同词语在文档中出现频率存在差异,通常文本中高频词数量较少,许多词汇使用频率较低。为体现文档中不同词语的作用,对单词词语赋予权重。TF-IDF是计算文档定词语权重的有效方法。含有词语i文档数描述为dfi,集合中文档总量描述为N,逆文档频率描述为idfi,第j个文件中词语i频率描述为tfi,j,第j个文档内词语数量描述为aj,第i个文档内词语i权重描述为tf-idfi,j,则公式应表示为[10]其中,的前提条件是不低于1,0定义为其他情况。较之独热表示法,TF-IDF方法的特点是对每个单词赋予不同权重。在赋予其权重的基本方法时文本中该词汇出现频率越高,其重要性越高,与此同时语料库中该词汇出现频率越高,则其重要性相应降低。词嵌入处理中,主要是在低纬度连续向量空间嵌入指定高维空间,该高维空间维数包括全部词数量。在金融学领域中进行文本研究时,词嵌入技术通常采用Word2vec技术,该技术中主要使用CBOW技术与Skip-Gram神经网络模型,针对神经网络进行训练,促使其有效捕获词语中包含的上下文信息,对词语进行向量化映射,得到的向量语义信息更加丰富,信息密度更大,信息维度更低。主题模型中应用频率较高的是LDA模型,应用此种模型进行文本分析属于无监督机器学习法,通过此种方法才能够大量集中语料中提取主题信息。在应用该方法时,将生成文档的过程分为两步,首先假定各文档具有对应主题,从这些主题中抽取一个主题,然后假定文档具有对应词汇,对比之前抽取的主题,从词语中选取一个与主题对应的词语。完成上述迭代后,将其与文档中各词语拟合,从而获得各文档主题、主题中词语分布情况。LDA模型主要优势是,与手动编码相比,该模型性能更完善,可有效分类大规模文档。该模型做出的文本主题分类支持复制,准确性较高,而采用人工手段分类文本时较易受到主观性影响。此外,使用此种模型时,无需人工分类进行关键词、规则设定。LDA模型的缺点是在主题预设个数时,受到研究者主观因素影响,选择主题个数的数量受此影响显著,因此生成主题过程与归类文本主题时较易受到相关影响。
1.4抽取文本特征的方法
文本特征是指文本可读性、相似性、文本情绪以及语义关联性。其中文本可读性即读者在阅读文本时是否可较容易地理解文本信息。在编辑文本时应保证文本具有较高可读性,保证投资者通过阅读文本可有效理解文本信息,即确保文本对投资者投资行为产生积极影响。有研究者在文本分析中使用迷雾指数,该类研究认为,迷雾指数与年报可读性呈负相关。年报文本字数、电子文档规格也是影响年报可读性的重要因素。在使用迷雾指数评价文本可读性时,常见的问题是,随机排序句子中词语将导致文本难以理解,然而正常文本和经过随机排序处理的文本在分析计算时,显示相同迷雾指数。不仅如此,在进行商业文本测量时采用迷雾指数作为依据具有显著缺陷,例如,当对企业披露信息进行可读性分析时,难以有效划分年报可读性与该企业实际复杂性。基于此种背景,在针对年报文本可读性进行评价时,需要结合企业业务复杂性等影响,提出非文本因素[11]。在提取文本情绪时,通常采用有监督机器学习法与词典法进行提取操作。词典法即在文本情绪、语气语调研究中使用情绪词典辅助分析。词典确定后,该类研究即支持复制。不仅如此,建设词典时还需要融合大量金融学专业知识,从而使词典与金融文本分析需求一致。使用现有多种类词典、文献等分析媒体报道情绪,针对财务报告进行语气语调分析,以及进行电话会议等进行语气语调分析等。中文大数据分析时,通常是以英文词典、词库等为模板,构建中文情绪词典。使用该类词典辅助分析股票成交量、收益率,评估股市崩盘风险高低。在词典法应用中需要结合加权法进行文本情绪分析[12]。有监督机器学习法包括支持向量机、朴素贝叶斯等方法。采用此类方法时,重点环节在于对分类效果进行检验和评价。交叉验证法是常见检验方法。有监督机器学习法的缺点是必须人工编码设置训练集,工作量较大,并且人工编码较易受到主观因素影响,分类效果鲁棒性较差,并且研究难以复制。其优点是分类精确度较好。
2.文本大数据分析
大数据分析主要是进行财务报告等公司披露文本信息、搜索指数、社交网络文本以及财经媒体报道等进行分析。通过文本挖掘从海量文本中抽取核心特征,分析其可行性、相似性、语义特征、语气语调等,然后分析股票市场行为与文本特征等相关性。分析披露文本信息时,主要是利用文本信息对企业财务、经营、管理层长效经营信息等进行研究。在进行此类研究时,重点是分析文本可读性、相似性,以及分析语气语调。披露文本可读性较高时,有利于投资者有效获取公司信息,影响投资行为。迷雾指数理论认为,财务报告具有较高可读性的企业通常具有更长久的利润。此外,有研究者提出,财务报告可读性直接影响盈余预测离散性和可靠性。财务报告可读性较低时,公司为减轻此种消极影响,可采取自愿披露措施缓解消极影响。管理者通过控制财务报告可读性可对投资者行为做出影响[13]。在针对企业发展情况和股票市场发展趋势进行分析时,披露文本语气语调具有重要参考价值。相关研究认为,MD&A语气内含有增量信息,该类信息为企业长效经营能力进行预测,同时可根据该类信息分析企业破产风险。管理者情绪状态可表现在电话会议语气中,此种语气分散情况与经营决策具有相关性,同时语气对投资者感知、分析师评价产生影响。分析财经媒体报道时,主要关注媒体情绪,分析媒体报道着眼点,针对经济政策进行分析,了解其不确定性,此外还需要研究媒体报道偏向信息、假新闻等。进行社交网络文本研究时,主要是分析策略性信息披露情况与文本情绪。搜索指数研究方面,主要通过搜索指数了解投资者关注度。
引言
随着web2.0的快速发展,社交网络逐渐从各个方面影响着中国网民。微博成为了社交网络中社交工具的典型代表。网民使用微博在互联网上的活动主要是获取信息与信息,的信息含有自己对某事物的看法、观点、感知等个人情感。
它们主要以文字,表情符号(新浪微博默认表情及标点符号)形式出现。通过用户之间的互动传播(一个微博用户具有双重角色,即博主与粉丝),这种社交网络媒体具有传播速度快,传播范围广等特点。因此对微博情感识别与分类就显得尤为重要。
对微博文本的情感进行识别与分类,不仅能让企业及时了解客户需求寻找到潜在的客户群体,通过实时、准确地评估其情感。能够获得客户市场反馈信息及客户的消费习惯,帮助企业进行有效的需求管理及企业战略调整,从而快速应对市场变化,提高企业竞争力。还能帮助政府部门实时监控民众情绪,对负面情绪及时采取措施,防止不法分子企图通过微博平台传播谣言,以此保证社会的和谐稳定,政府了解民意,为制订国家政策提供参考。
同时也能协助医生分析心理障碍者,及时掌握患者情绪波动,准确对患者病情进行有效的对症下药。避免了患者不能准确描述病情,而带来的不相关治疗。
因此对微博情感进行研究具有重要的理论与实践意义。文章意在为政府或企业等利用到微博情感分析数据的领域提供基础。
鉴于自主采用Java语言开发的新浪微博的情感识别与分类系统,对中文微博的情感进行识别与分类研究。系统使用爬虫技术[1],抓取微博的文本内容,然后进行分词,去停用词,文本规范等预处理操作,再抽取情感特征,对文本情感识别与分类,最终输出分类结果。
一、相关工作
1.1文本获取及预处理
对微博数据资源的获取有两种形式,一种是用户以普通文本形式直接在系统前台相应位置输入待分析的文本,系统可以自动进行情感识别与分类;另一种是用户以微博文本URL形式输入,系统对用户输入URL连接采用网络爬虫技术抓取微博正文内容。
网络爬虫结构先将用户输入URL作为爬虫起点,通过web协议(主要是HTTP协议)采集页面,使用多线程或并列技术获取网页数据信息,网络爬虫结构也提供了链接过滤模块(过滤掉不符合URL规范的链接),页面数据库模板(存储已经爬取到本地的原始页面数据,以备预处理阶段建立索引使用)。
为了提高分类的准确率,减少获取文本内容不必要干扰,对文本进行预处理操作十分必要。系统的预处理操作主要包括:
1.文本规范化处理,判断待处理的文本是否含有由两个#组成的话题标签,若有则删除两个#及它们之间的文字内容。
2.使用正则表达式判断微博文本是否含有以下三种含@微博标签,若有将它们删除①以@开头,以:结尾②以@开头,以空格结尾③以回复@开头以:结尾。
3.判断英文词语是否含有感彩,删除不必要的英文词语。
4.用中文描述替代含有感情的“?”和“!”去除一些标点符号。
5.使用得到普遍认可的支持Java开发语言的ICTCLAS分词工具分词,去除停用词。
1.2文本特征抽取
文本特征抽取[2-3]是从文本中选取一部分能够反应其内容信息的特征词汇并计算其特征权重。特征抽取的主要目的是为了降低向量空间的维度,消除无关特征的噪音,通过选择可区分性强的少量特征来提高分类器的分类精度和效率。常用的特征选取方法有: 文档频率、信息增益法、期望交叉熵等。文档频率[4](Document Frequency )一种简单的特征约减技术,常用自动特征选择,通过设置目标特征的文档频率阈值来进行特征的抽取。DF是含有该目标特征的文档数与所有文档数的比值,可表示为
信息增益法[5]是指文本包含该特征项与不包含该特征项时的信息熵的差值,根据所获信息增益的多少筛选有效特征,已成为机器学习领域应用较为广泛的特征选择方法。信息增益法计算公式可以表示为:
由于当特征数目较少时,使用该方法得到的数据稀疏,分类结果会不理想,因此本文首先对预处理后待分析的文本里出现的每个词计算其信息增益,设置一个阈值,抽取特征词,按照信息增益值降序选择特征项组成特征向量。
期望交叉熵[6](Expected Cross Entropy)反应了文本类别的概率分布与在出现了某个词条的情况下文本类别的概率分布之间的距离。
词条的交叉熵越大,对文本类别分布影响也就越大。所以选CE最大的K个词条作为最终的特征项。
期望交叉熵计算公式:
为了提供特征词抽取的时间效率,针对微博的数据量很大的特点,使用期望交叉熵和TF-IDF求方差的方法抽取情感特征词。
1.3文本情感识别与分类
采用基于朴素贝叶斯主客观句识别方法[7]和支持向量机的分类方法[8-11]对文本分类。朴素贝叶斯方法是一种基于事件概率简单而误差率较小的分类方法。基本原理是:在事件相对独立的条件下,事件A在事件B发生的条件下的概率且与事件B在事件A发生的条件下概率是不相同的。及文档A属于B i类概率表示为
系统应用思想:对有已知类别集合S(x1,x2,…,xn),求在待分类项出现的条件下,集合中各个类别出现的概率,哪个类别的概率值大,就认为待分类项属于那一类别。并将对每个特征项主客观句的条件概率计算结果输出,作为支持向量机分类器的输入值。
系统的工作流程图如图1所示。
二、实验分析
使用第二届自然语言处理与中文计算机会议所提供包含4000条已经标注是否含有情感色彩的中文微博语料,含有13252个句子,且主观句中又表明了所属具体情感类。情感类别分为7个类别,分别是:喜好、安乐、惊奇、厌恶、悲哀、愤恨和恐惧。
选择这些数据作为系统测评数据主要是与系统测试结果进行比较,核实评价实验结果的召回率(R),准确率(P),性能评价指标F值。求解公式如下所示:
系统将实验测评数据首先进行预处理,对其进行规范化、分词去除停用词、抽取情感特征,然后采用朴素贝叶斯方法,使用其公式计算结果来识别主观句,支持向量机方法先将抽取的特征词转换成向量形式,再将向量化后的文本放到向量机的模型中,最终输出分类结果。通过计算支持向量机的情感分类方法召回率达到74.4%,准确率高达63.76%,F值达到0.6534.
实验中采用准确率,召回率,F值测评指标,对常见的情感特征抽取方法[16]实验结果进行了对比,见表1,通过对比朴素贝叶斯和支持向量分类方法对主客观句的识别结果,得出结论:本实验中对主客观句的识别朴素贝叶斯方法比支持向量机方法的实验结果更好。因为支持向量机方法准确率虽更高,但召回率较低。
实验结果见表2。对已识别的主客观句,我们采用支持向量机的一对一的多步分类方法及一对其余的一次分类方法进行情感分类。
实验结果见表3。实验结果表明:一对一多步情感分类方法效果优于一对其余一次分类。因为一对其余分类方法可能出现重叠现象或因不可分类现象而引起数据集的抖动。因此实验最终选择支持向量机的一对一多步分类方法。
三、结语
微博作为网民在互联网主要活动之一,逐渐从各个方面影响着人们,网民带有情感的言论对各行各业都有着不可估量的使用价值。因而对微博文本的数据分析研究有一定的社会意义。
通过查阅文献发现基于朴素贝叶斯识别主客观句的方法及基于机器学习支持向量的方法有较高的精度。而由于针对中文微博的研究大部分是理论性的研究,因此本文通过构建系统,将基于朴素贝叶斯的识别主客观句个方法及支持向量机的方法的研究思路实践化。实验结果对企业、政府及广大网民均有重要的社会意义。
展望:
1.后期会打破仅在初步解决微博文本的情感识别和分类问题的研究,接下来会投入对用户的图片信息,链接的视频声音信息进行研究。
2.本文去除英文词语,采用的是人工标注方法。鉴于部分国人倾向于有使用英文的习惯,所以会不断的完善系统情感库,或设计系统能自动翻译,以此减少人工工作量。
参 考 文 献
[1] YANG Yuekui,DU Yajun,HAI Yufeng,et al.A topic-specific web crawler with web page hierarchy based on HTML Dom-Tree[A],Asia Paciic Conference on Information Processing (APCIP 2009)[C].Washington DC:IEEE Computer Society,2009:420-423.
[2] 张彪.基于关联分析的文本分类特征选择算法[J].计算机工程.2010(22):184-186.
[3]谢丽星,周明,孙茂松.基于层次结构的多策略中文微博情感分析和特征抽取[J].中文信息学报,2011,26(1):73-83.
[4] Dai Liuling,Huang Heyan,Chen Zhaoxiong.A Comparative Study on Feature Selection in Chinese Text Categorization[J].Journal of Chinese Information Processing,2004,18(1)26-32.
[5] 李海瑞.基于信息增益和信息熵的特征词权重计算研究[D].重庆大学,2012.
[6] 廖一星.文本分类及其特征降维研究[D].浙江大学.2012
[7] 蒋良孝.朴素贝叶斯分类器及其改进算法研究[D].中国地质大学,2009
[8]杨鼎,阳爱民.一种基于情感词典和朴素贝叶斯的中文文本情感分类方法 [J].计算机应用研究,2010,27(10):3737-3739
[9]A.Basu,C.Watters,M.Shepherd.Support Vector Machines for Text Categorization.Proceedings of the 36 th Hawaii International Conference on System Sciences,2003.
[10]赵晖.支持向量机分类方法及其在文本分类中的应用研究[D].大连理工大学,2006.
[11]张博.基于SVM的中文观点句抽取.[D].北京.北京邮电大学,2011
[12]Youngjoong ko,Pjinwoo Park,Pjungyun Seo.Automatic Text CategorizationusingtheImportanceofSentence s[A].Proceedingofthe19thinternationalconferenceonComputationlinguistics[C],Taipei,Taiwan,2002:1-7.
[13] 韩忠明,张玉莎,张慧,等.有效的中文微博短文本倾向性分类算法[J].计算机应用与软件,2012,29(10):89-93.
中图分类号:F820 文献标识码:A 文章编号:1003-9031(2014)02-0054-05 DOI:10.3969/j.issn.1003-9031.2014.02.12
一、引言
截至2013年6月末,我国网民规模达到5.91亿,互联网普及率为44.1%。其中微博网民规模为3.31亿,网民中的微博使用率达到了56.0%①。目前微博已经成为网民获取信息的重要途径之一,由于微博具有庞大的用户群体以及其开放性、互动性和低成本等特点,越来越多的企业开始挖掘微博潜在的商业价值并开设企业官方微博。就汽车行业来说,自新浪微博2009年推出企业微博应用,此后汽车品牌以每5天开设一个新官方微博的速度平稳增长,于2011年8月份基本达到饱和,说明汽车企业对微博营销的重视,但是51.7%的汽车品牌官方微博粉丝数都在7万左右,相对于我国8839万私人汽车保有量来说,汽车品牌官方微博还是有很大的粉丝增长空间②。总的来说,微博的发展以及其优质的传播特性为企业营销提供了一个新的平台,也为企业实现品牌推广、提高品牌价值提供了新的机遇。
但是,许多企业使用微博营销效果与其品牌不能匹配,实施效果并不理想,存在诸如战略与资金的匹配、营销策略的制定和执行等问题,使得企业在微博中的营销效果往往会向两极发展,要么通过持续运作赢得更多粉丝关注和响应,要么不温不火,直到消失(Court,2009; Shandwick,2009; Passant,2010; Xu,2010)[1-4]。
综合以上考虑,企业如何通过官方微博提高微博营销效果成为了研究的重点,长期的微博营销效果是由短期效果的叠加形成的,而短期微博营销效果是由每条微博文本内容的价值等体现的。企业微博的目的是希望其具有尽可能广的传播范围,而微博文本内容是影响其传播的重要因素之一。微博与文本分析的结合是近年来理论和实务界研究的热点,本文以沃尔沃汽车官方微博为案例,将其的微博文本分为公共类、有奖活动类、产品宣传类、品牌事件类,研究不同类型的微博对总转发量的影响;与此同时,将微博的时间分为空闲时间和非空闲时间,研究不同时间段微博对总转发量是否有影响,从而为沃尔沃汽车微博平台管理提供指导意见,提高其微博营销效果。
二、文献回顾和问题提出
(一)微博营销效果的评估
传统营销效果的度量指标有很多,如产品的销售额、所占的市场份额、营销的回报率等,这些指标的数据获取相对容易,但运用到社会化媒体(如微博)的营销效果评估存在一定的局限性。国内外对社会化媒体的营销效果研究至今仍没有一个公认的评估模式,比较有代表性如下几个:Chris(2009)总结了具有一定普适性的社会化媒体营销效果度量标准框架,其中包括定性的评估指标(用户评论的观点和讨论的主题等)以及定量的评估指标(评论量、粉丝数、产品手册的下载量等)[5];Richard(2010)将社会化媒体影响用户的过程划分为四个阶段(Awareness-Appreciation-Action-Advocacy),根据4As不同阶段定义核心指标[6],但该模型的构建表现为单方向递进,针对企业微博营销互动反馈的特性,具有一定的局限性;Yamaguchi(2010)等将提出TURank ( Twitter User Rank) 来计算用户影响力排名[7];Park等(2011)通过TAM模型实证分析了企业微博用户的知名度、互动性、信任度对Twitter上的企业微博营销有显著影响[8]。上述研究的重点在于整个企业微博营销效果的评估,对博文营销效果进行评价的研究尚不多见。
国内微博起步较晚,API开放性较低,数据获取相对困难,也导致了国内以企业微博营销为研究对象的学术文章相对较少。金永生等(2011)指出对企业微博营销效果的测量主要针对短期效果,用“被微博用户转发的含有有奖营销信息标签的企业微博的总数”作为衡量企业微博营销短期效果的评价指标[9],但是笔者在咨询新浪微博客服后发现,微博搜索引擎会将相同结果合并,所以该评价指标的可靠性值得商榷。赵爱琴(2012)借鉴了Murdough 的研究框架,结合国内企业微博运营现状,提出企业微博营销效果的评估模型AESAR(Awareness 注意-Engagement参与-Sentiment 态度-Action 行动-Retention保留) 与评估指标[10],但模型没有给出各个指标相对于营销效果的重要程度,也没有实证数据的支持。陈晓明(2012)给出了微博营销的投资回报率(ROI)的计算公式[11],但没有用于实证分析,因为公式中的微博营销总收益难以衡量。毕凌燕(2013)根据微博传播信息流,运用PageRank算法思想和用户行为权值,提出一种评价企业微博博文营销效果的量化方案[12]。由于新浪对企业微博数据进行了保护,这种方法的数据抓取有一定的难度。
本文拟以单条微博的总转发量作为博文营销效果的评价指标,该做法的意义及理由如下:一是研究博文的营销效果对企业管理微博平台具有更强的可操作性;二是从2012年3月起,新浪微博等实施实名认证,没有通过认证的用户只能浏览微博内容,而不能进行评论、转发等相关操作,这对打击“僵尸粉”、保证传播效果的真实性起到了一定的作用,也使得用“总转发量”作为评价指标具有一定的可靠性;三是毕凌燕(2013)的研究指出博文被评论和转发的次数(而不是粉丝数),更能确切反应其微博被用户关注的程度和营销效果;四是程雪芬(2012)研究得出企业微博营销效果与真实粉丝数和平均转发量正相关[13],本文假设短期内企业微博真实粉丝数保持不变,故“总转发量”一定程度上可以用于衡量企业微博营销效果。
(二)微博文本分析
微博平台与文本挖掘技术的相结合是近年来理论与实务界研究的热点,但其研究成果还处于初级阶段。陈致中(2012)以腾讯微博为例,采用问卷调查法探讨什么样的文本组合最能起到改变受众态度的效果,结果发现广告类信息的态度改变效果不明显,而非广告类的信息能够有效改变受众对企业微博的态度[14],由于其采用的是问卷调查法,而非真实的微博数据,其可靠性有待检验。程雪芬(2012)把微博文本内容分为工具型和情感型,结果得出工具型微博对粉丝数和平均转发量都有显著的正向影响,情感型微博对二者几乎没有影响。
本文选取“沃尔沃汽车中国”官方微博为案例,将其微博文本分为公共类、有奖活动类、产品宣传类和品牌事件类,根据前人的研究以及经验提出如下假设:
H1:公共类微博对总转发量有正影响;
H2:有奖活动类微博对总转发量有正影响;
H3:产品宣传类微博对总转发量有负影响;
H4:品牌事件类微博对总转发量有正影响。
(三)微博时间
学术界目前尚未有探究微博时间对企业微博短期营销效果的影响,这也是本文最大的创新点所在。前人与微博时间相关的研究有:Schneider等(2009)通过对Facebook, LinkedIn, Hi5, StudiVZ等四种社交网站上同样账号的属性、特点、动态变化等进行跟踪分析,得出用户喜欢在不同社交网站做相同的事情,用户总上网时间有限,在某个社交网站停留时间越多,会明显挤占在其它社交网站的停留时间[15],这从侧面反映了企业微博需要迎合用户的兴趣及使用时间;新浪的《2012企业微博白皮书》显示,企业微博集中在周一到周五,从24小时分布情况看,早上9点至10点是企业发博的最高峰。笔者在前期研究江淮乘用车官方微博时发现,可能是由于企业聘用专职员工管理微博平台,其微博的时间集中在周一至周五的上班时间;而个人发博时间(也可看成是个人微博活跃时间)比较均匀,而在22点到凌晨24点达到峰值(见图1)。
本文认为,企业微博的时间与真实用户活跃时间不一致,可能会导致微博营销效果受到影响。在此,从个人用户使用微博的角度来看,定义“非空闲时间”为工作日的上午8:00至下午18:00,其余时间定义为“空闲时间”,并提出如下假设:
H5a:空闲时间的微博对总转发量有正影响;
H5b:非空闲时间的微博对总转发量有负影响。
本文研究的创新点在于,研究单个企业微博文本的营销效果的影响因素,对企业微博平台管理更具有可操作性;由于文本分类的灵活性,为其他企业研究其自身微博营销效果提供了方向;提出了微博时间对博文营销效果可能的影响。
三、主要研究变量与数据样本
(一)主要研究变量
1.因变量
本文以单条微博的总转发量作为博文营销效果的评价指标,由于总转发量的数字不仅包括一级转发,还包括以后的各级转发(即:A发表原创微博a,B转发该条微博a;C再转发B转发的a,D再转发C转发的a……所有的这些转发量都体现a的转发量中),所以总转发量在一定程度上体现了微博文本的传播广度和深度,可作为博文营销效果的评价指标。
2.主要解释变量
前人研究的企业微博营销影响因素主要有粉丝数量、企业品牌本身的影响力、微博数量、微博内容价值等等,本文针对单个企业短期的博文营销效果进行研究,并假设短期内企业品牌本身的影响力和活跃粉丝数等因素保持不变,故主要解释变量设定为微博文本内容和发博时间。
(1)微博文本内容
在对“沃尔沃汽车中国”微博文本阅读后,本文将其微博文本内容分为公共类、有奖活动类、产品宣传类和品牌事件类。公共类指与企业无直接关系的内容,如公共事件、时事、趣闻、祝福、实用信息等;有奖活动类指用户参与并有机会获得奖励的内容,如转发送礼品、话费充值等;产品宣传类指与企业产品或服务有关的介绍,如车型介绍、广告、产品设计等;品牌事件类指与企业有关的客观事件的报道,如企业新闻、品牌活动等。
为分析不同类型文本对总转发量的影响,引入虚拟变量sort1、sort2、sort3,其中:
sort1=1 公共类0 有奖活动类、产品宣传类或品牌事件类
sort2=1 有奖活动类0 产品宣传类或品牌事件类
sort3=1 产品宣传类0 品牌事件类
(2)发博时间
考虑到2013年9~10月期间中秋节和国庆节的放假安排,将所有法定工作日的8:00~18:00定义为“非空闲时间”,其余时间为“空闲时间”,引入虚拟变量time,并定义:
time=1 空闲时间0 非空闲时间
(二)数据样本
本文记录了“沃尔沃汽车中国”官方微博2013年9月1日至10月24日的所有341条微博作为基本研究对象,对其微博文本进行了人工分类,公共类、有奖活动类、产品宣传类和品牌事件类的微博占比分别为41.9%、1.2%、49.0%和7.9%,说明沃尔沃主要利用微博平台进行产品的宣传。发博时间方面,空闲时间与非空闲时间占比分别为42.5%和57.5%,此处空闲时间的样本量占比并不低,可能是9~10月中秋和国庆长假的原因(微博平台在假期有专人维护)。
四、实证分析
考虑到空闲时间与非空闲时间企业微博的内容可能存在差异,故将类型虚拟变量与时间变量的乘积作为模型的交叉项,构建计量模型(见表1)。
以上所有自变量及交叉项均通过检验,R2值较高,F统计量也在1%水平下通过检验。总体来看,有奖活动类微博最能够刺激转发,其次是品牌事件类,公共类和产品宣传类促进转发效果较差,假设H2、H3、H4得到验证;空闲时间相比于非空闲时间更能够促进转发,假设H5a、H5b得到验证。具体到各类微博内容的分析,相关数据见表2。
由表2可知,公共类微博在促进转发方面表现最差,企业可适当减少公共类微博的,或者精选优质的公共类微博;公共类微博在空闲时间的总转发量要高于非空闲时间,故企业可将部分公共类微博的时间调整到晚上或者周末,以迎合个人用户的上网时间,提高微博营销效果。
有奖活动类微博的总转发量都比较大,但是企业不太可能增加太多该类微博的,所以如何利用好有奖活动类微博加强与用户的互动联系以及提高活跃粉丝数成为微博营销的关键,如在实际操作中,企业可以在有奖活动类微博时设置关于品牌的相关问答题。
产品宣传类比较特殊,其在空闲时间的总转发量不如非空闲时间,可能的原因是,空闲时间大量微博充斥,对个人用户而言,其兴趣点可能并不在企业产品宣传上(此结论并不一定适用于其他行业的企业)。对汽车企业来说,在空闲时间要控制产品宣传类微博的数量,以免引起用户的反感。
品牌事件类微博总体转发量较好,空闲时间比非空闲时间的营销效果更好,可能是因为品牌事件类微博比较客观,对于传播品牌理念和提升品牌影响力有积极的作用,企业应当增加该类微博的量。
五、结论与展望
本文的研究结果表明,有奖活动类微博最能刺激转发,企业应充分利用有奖活动提高真实粉丝数;品牌事件类微博较公共类和产品宣传类微博具有更好的传播效果,企业可以对品牌事件类和公共类微博进行精选后,促进品牌价值的传播;总体上空闲时间的微博具有更好的营销效果,企业可根据不同类别的微博内容选择合适的时间。
本文采用案例分析方法,其研究结论的可推广性有待检验。可能进一步的研究方向是采用大数据,以前沿的文本和图片分析技术,更细致地分析企业微博内容的价值,为提高企业微博营销效果提供更为精确的指导建议。■
参考文献:
[1]David C., Dave E., Susan M., Ole J.V.. The consumer decision journey[EB/OL].[2009-06].,http:///insights/marketing_sales/the_consumer_decision_journey.
[2]Shandwick W. Do for 100 companies need a vention
[EB/OL].[2009-11], http:///resources/ws/flash/Twittervention_Study.pdf.
[3]Passant A, Bojars U, Breslin J G, et al. An Overview of SMOB 2: Open, Semantic and Distributed Microblogging[C].//ICWSM.2010.303-306.
[4]Xu T, Chen Y, Fu X, et al. Twittering by cuckoo: decentralized and socio-aware online microblogging services[C].//ACM SIGCOMM Computer Communication Review. ACM, 2010, 40(4): 473-474.
[5]Murdough C. Social media measurement: it's not impossible[J]. Journal of Interactive Advertising, 2009(10):94-95.
[6]Pentin R, Senior Planner T M W. A New Framework For Measuring Social Media Activity[R]. TMW, 2010.
[7]Yamaguchi Y, Takahashi T. TURank: Twitter User
Ranking based on User-tweet Graph Analysis[C].WISE 2010:240-253.
[8]ByungHee P., JungHoon L., SoYeon P.. A study focusing the factors that influence SNS users' usage of corporate SNS sites focusing on Twitter[C].//The 11th International Conference of Decision Sciences Institute and The 16th Annual Conference of Asia-Pacific Decision Sciences Institute, Taipei: IEEE Press, 2011: 681-687.
[9]金永生,王睿,陈祥兵.企业微博营销效果和粉丝数量的短期互动模型[J].管理科学,2011(4):71-83.
[10]赵爱琴,朱景焕.企业微博营销效果评估研究[J].江苏商论,2012(1):89-92.
[11]陈晓明.企业微博客营销效果的影响因素分析[D].广州:暨南大学,2012.
[12]毕凌燕,张镇鹏,左文明.基于微博传播信息流的微博效果评价模型及实证研究[J].情报杂志,2013(7):69-73.
微软亚洲研究院网络图形组主管研究员刘世霞博士告诉CHIP,之所以现有的文本挖掘技术不够用,首先是因为目前技术尚处于研究阶段,精准度不够;其次是因为技术的灵活性不足,很难满足不同人的需求。她和同组的副研究员崔为炜以及香港科技大学屈华民教授共同主导的TextFlow项目在破解这个难题方面提出了新的思路,他们将文本挖掘技术与可视化这种交互技术结合在一起,不仅突破了传统静态文本挖掘技术的限制,而且能让人利用直观的流式图形迅速把握海量信息的发展脉络。在国际最顶尖的信息可视化学术会议IEEE InfoVis 2011上,TextFlow论文的引发了业内人士的关注。有评委表示,“该论文的主要贡献是在海量文本分析中引入主题合并和分裂的理念,这是分析主题演化时面临的最大挑战之一,从文本挖掘和可视化两个角度来说都意义非凡。”
有趣的是,他们在论文中以自身最熟悉的领域——可视化研究作为其中一个案例,将2001年至2010年间发表在IEEE Vis和InfoVis两个学术会议上的933篇论文作为文本数据集合,通过TextFlow模型得出了与实际学术发展潮流相当吻合的图表,其结论令人信服。例如,整体上看,过去10年间Vis相关主题有日渐式微的趋势,2006年之后各个主题独立发展;InfoVis与之相反,整体的趋势是上升的,主题之间的合并和分割非常多,说明该领域的研究更活跃。
他们是如何做到的呢?崔为炜向我们解释了文本可视分析的步骤(如上图所示)。首先,主要由机器来完成海量文本的收集和预处理工作。然后,利用自然语言分析中的概率模型HDP(Hierarchical Dirichlet Process)计算出文本所属的主题(topic)。这里假设每个主题都是由一组关键词来描述的,关键词以不同的概率出现在不同的主题中,每篇文章自然也会以一定的概率属于不同的主题(注:传统聚类方法会认为每个文本只属于一个主题)。刘世霞强调,HDP模型的优势是可以自动确定文本中的主题数量,但是它只能计算出一组静态文本数据的主题,无法进一步找出主题之间的关系。2010年的时候,他们成功改进了HDP模型,将这个语言模型扩展到能处理动态的文本数据流。简单地说,就是跟踪比较T1和T2两个时刻文本内容的变化情况,由此来确定主题之间是否发生了合并或者分裂。文本分析的最后一步就是利用前面得出的主题演化结果,计算出其中的关键事件和关键词,从而更好地展示事件发展的来龙去脉。
在谈到TextFlow模型对于主题合并和分割判断的准确率时,刘世霞表示目前还没有一个固定的样本集可供测试,但把多个领域的分析结果拿给相关领域专家查看时,他们都认为结果比较准确,可以达到满足应用的水平。另外,我们还了解到TextFlow模型的主要算法本身与语言是无关的,中文与英文的区别主要在于海量文本预处理阶段的分词技术,这方面已经有成熟的技术可以完成。
William Ribarsky是北卡罗莱纳州大学Charlotte可视化研究中心创始董事,非常关注微软亚洲研究院在文本可视分析方面所做的工作,他在美国召开的一次学术会议的发言中提到刘世霞所做的交互式可视文本分析,并称“这项成果令人刮目相看”。在扑面而来的大数据时代,相信未来利用TextFlow模型可以做许多帮助企业提升生产效率的事情。崔为炜向我们演示的案例中既包括对历史新闻事件的回放,也包括跟踪社交媒体的数据预测即将发生的新闻事件。由此引申开来,所有之前难以度量的文本数据或许都能迎来一次重生的机会。在信息时代,谁能把握住信息的脉搏,谁就能更好地把握住时代的脉搏。
文章开头虚构的面试题,大家找到答案了吗?
声音
我们应该把文本挖掘技术和可视化这种交互技术结合在一起,让人去做人擅长的事情,机器去做机器擅长的事情。机器擅长做什么呢?机器比较擅长去存储,做大数据量的运算,而人有分析的能力。因此,我们的工作主要就是把人的智能和机器的计算能力结合在一起。
——刘世霞
微软亚洲研究院网络图形组主管研究员
1.时代背景
自21世纪以来,数据爆炸已是人类的重大挑战,人们淹没在数据海洋中,却对信息,知识极其缺乏,人类分析数据的能力与获取数据的能力相差甚远。同时,数据的多态、高维、获取的动态性、数据关系的异构更增加了数据使用的难度。在传统企业占据主流地位的关系型数据库有越来越多无法进行管理的数据。这类数据的量巨大,具有多样性,如各类文本、图像、视频、传感器信息,且数据产生和更新的频率上升到一个新层次。总结下即为海量化(Volume),多样化(Variety),快速化(Velocity),这三点为大数据的主要特征。人们要从海量非结构化数据中挖掘有用信息的这种推力,使大数据技术正逐步代替传统信息管理技术。伴随着推力巨大的互联网,大数据时代的大幕正逐步拉起。而在这发展过程中,能有效呈现多元化数据, 便于决策的数据可视化便越来越引起关注。
2.数据可视化的作用
在信息科学与知识管理中,DIKW(Data,Information,Knowledge,Wisdom)体系作为最基础的模型,在数据处理流程中完成从数据到智慧的转化。人们急切的需要能展示演绎数据的工具,并且能够传达数据身后真正的知识与智慧的工具。在整个转化过程中,可视化于沟通,传递,表达方面表现出明显的优势。
数据可视化运用计算机图形学,图像处理等技术,并以其在视觉感知与人脑认知上的优势使美学因素融合在数据分析中。优秀的数据信息图甚至可以达到艺术的层面,令人赏心悦目。其在数据处理流程中持续的优势,使数据可视化交互工具市场逐步做大。
数据就是石油,传统的各类领域中不被重视的数据重新归纳总结会释放出巨大潜力。新闻中的数据信息可以归纳为信息图表,再与其他新闻进行分析整合,人们往往可以从中有收获。政府机关的数据通过有效整理并进行可视化,可以增加其透明度,民众可以更容易获取有效信息。企业数据可视化,可以对整个企业运营流程有很好的掌控,便于管理与盈利。网络数据及公共资源的潜在价值也极大,各类社交网站开放的API可以供开发研究人员挖掘人们生活消费习惯,甚至可以通过文本分析并进行可视化发现流行病的爆发趋势,购物网站对用户已购货物记录进行地域偏好分析,也可获得有价值的情报。
3.主要应用
3.1 文本可视化
将文本信息提取技术与可视化相结合的文本可视化可以辅助用户将文本中的信息简洁地呈现出来。原始文本经过文本信息挖掘,视图绘制和人机交互,这便是基本的可视化流程。在诸多网站上,文本可视化的标签云技术已越来越常见,其为基于关键词的最简单的文本可视化技术,用颜色和字体的大小体现关键词于文本中的分布差异,衍生的Wordle技术改进了空间布局,提升了美学效果。在进行信息检索时,也可以使用TileBar,Sparkler等可视化方法来提升检索效果。除此之外,文本信息中还包含了大量的人类主观信息,可以在RSS新闻内容,社交平台中挖掘用户情感倾向信息,帮助调查者从宏观角度进行分析并为决策提供依据。
3.2 多媒体数据可视化
大数据时代,人们早已对半结构化数据及非结构化数据充满了好奇。图像,视频,音频中的数据价值推动了多媒体数据的可视化。比如社交照片中群体成员之间的关联多使用了海赛图方法;视频的可视化则经常使用将图像堆叠成立方的方法,为抽取视频中的运动信息提供方便;音乐的可视化如今也多是媒体播放工具的一个功能。
3.3 商业智能的数据可视化
如今的大量在线商业数据具有强烈的跨媒体特征与丰富的时空地理属性,用户的消费日志包含了大量个人信息,这些都催生了该领域的可视化发展。当前商业智能的数据分析大多借助于OLAP的多维分析模式实现,采用可视化技术进行数据探索。从最早的柱状图、饼图、网状图等简单图表,发展到呈现公司状态与商业环境的仪表盘、子弹图,新成长的技术能有效地传达数据背后的知识和思想。同时随着Tableau,Spotfire等软件的推广,可视化极大推动商业智能的大众化,降低了普通人进行数据分析的门槛。
3.4 Web端可视化
Web端的可视化是通过HTML,CSS,Javas-cript技术,在网页上实现可交互的可视化作品及时全面显示信息。Web端的可视化可以提升用户效率,使选择操作更加方便,感官更加舒服。D3.js就是一套面向Web的数据可视化的Javascript库,具有极大的设计灵活性和可移植性。国内开发的DataV.js同样出色,可以便捷的调用且兼容各类浏览器。
4.数据可视化的注意点
可视化虽然是非常好的了解数据的方式,不过也很容易以错误的方式执行从而背离了其价值所在。为充分展示信息而不顾图表的整体协调,想要包含更多的信息效果却适得其反,这样做很容易使图表缺乏美感。有限的仪表盘空间要包含的是重要的且值得优先考虑的数据,且当图表显示过多的信息时,过于紧密的布局很容易显示出错误的信息。而另一种错误则是为了追求画面的美观,却使数据内容的表达不佳。所以在可视化的过程中,目标的确立是最为基本的,专注于自己的目标有助于更好地传递表达数据,同时与图表的美观之间也能达到一种平衡。
真实的数据往往需要占用大量时间进行规范化,特征选择,维归约等预处理操作,数据集的清洗与规范化或许是实践中占最多时间的部分,此点不容忽视。同时,数据可视化是一种辅助分析的工具,非分析工具,正常的处理流程还要借助传统的统计手段及其他专业的知识。总而言之,数据可视化作为一种对数据信息进行专业化处理的优秀工具,其理论与技术将在未来获得逐步提升,最终一定会对商业社会及科研领域的发展作出重大贡献。
参考文献
然而,NPS模型也面临着一个挑战。通过反馈把客户分成3组,然后通过计算方法{净推荐值(NPS)=(推荐者数/总样本数)×100%—(贬损者数/总样本数)×100%}得到一个单一的平均分,这一方法尽管简便,但同时也使企业也许失去了对客户更全貌信息的宝贵见解。在当今日益以客户为中心的市场环境中,要求客户反馈,言下之意是你打算用收集到的信息采取后续行动。如果你不打算利用这个信息来倾听或没有能力积极跟进,要求客户反馈可能会导致弊大于利。尤其是对于你企业客户中的“贬损者”。甚至是NPS模型的支持者都同意,如果只是简单地问一个问题,而没有任何额外的细节或跟进是不够的。如客户把你的企业评价为零分,并且不告诉你为什么,那么你也就无法跟进及采取行动。而监控一个你并不知道如何提高的指标,往往非常令人沮丧。
尽管添加太多后续问题会影响简单的一题式调查的吸引力及显著降低客户的响应率。但是,很多企业依然在它们的NPS调查中添加了一些问题,以试图找出和确定高分数及低分数背后的驱动因素。另外,专注邮件、短信、微信及APP等多渠道个性化会员营销服务的webpower中国区也在服务企业的客户实践中看到,一些企业也尝试通过电话、短信或电子邮件等渠道跟进调查对象。这使得企业能够收集更多丰富的洞察力信息,以为了解驱使客户作出响应的动机提供见解。除此之外,还有一些企业也试图通过建立一个服务补救与客户挽留流程以接触到“贬损者“,并且在某些情况下,设法使企业过去的“贬损者”转变为新的“推荐者”。而通过邀请“推荐者”加入顾问理事会或客户座谈小组,以争取进一步了解客户见解,并鼓励其成为品牌拥护者,也成为企业的策略之一。
不管企业在跟踪、衡量及量化客户忠诚度的过程中采用了哪些指标、策略和方法,在目前的内外部环境下,以下重点非常值得关注:
强化可操作性细节 全方位理解客户体验
保持客户调查的简短和简单是至关重要的,因为客户几乎被其使用的每一个供应商的多个请求“轰炸”。这使得企业必须创建一个关于重购愿意、购买更多等客户忠诚度的简短调查。但是,它是否使你全面理解整个客户生命周期旅程了呢?哪些是企业希望去影响客户体验的关键因素?
webpower中国区认为,通过加入哪怕一个开放式的问题,如“我们怎样才能提高?”企业就可以显著地增强搜集到的信息的可操作性细节。对于大型企业来说,最重要的是还要使该方法具有可扩展性,并且需要一个可挖掘非结构化意见的解决方案。如挖掘文本评论的文本分析,挖掘录制语音批注的语音分析。同时,如今的消费者有太多可以发表自己意见的场所,除网站、博客等传统渠道外,社交媒体也在成为流行的客户意见平台。所以,这要求不管企业愿不愿,它都必须监控社交传媒上正在发生的事情,而有一些企业也将用户主动张贴在社交传媒网站上的评论纳入VoC的范畴。而VoC现在也变种成任何形式的用户反馈,包括未经请求的用户输入。
超越NPS调查反馈 挖掘所有客户接触点
一 非结构化数据处理流程
非结构化处理流程主要以网页处理为例来阐述,包括三个阶段,分别是信息采集、网页预处理和网页分类。
信息采集是将非结构化的信息从大量的网页中抽取出来保存到结构化的数据库中的过程;网页预处理主要是进行一些数据清洗的工作,保证分类质量;网页分类工作则是通过数据挖掘算法训练出来的分类模型,对分类数据进行分类提炼,得出有价值的信息。
信息采集
信息采集面对的是特定的专业人群,其采集的信息只限定于特定的主题和相关的领域,出于对性能和成本的考虑其不必也不可能对整个互联网进行遍历,因此主题信息采集中通常需要研究以何种方式预测链接指向的页面与主题的相关性,并判断其是否值得访问;需要研究以何种爬行策略访问Web,以在尽可能多地采集到主题相关页面的同时尽可能少地采集到主题无关的页面。
信息采集的基本方法是通过预先设定的种子链接集,利用HTrP协议访问并下载页面,在用各种分析算法分析页面与主题的相关性之后提取出待访问的链接,预测链接指向主题相关页面的可能性,再以各种不同的爬行策略循环迭代地访问网页。
信息采集根据基于主题的不同可分为以下两类:一类是基于内容的主题信息采集:它需要建立一个针对主题的词表。另一类是基于超链接的主题信息采集:它是基于网页之间的引用关系,类似Page rank算法。
网页预处理
网页预处理部分本文主要介绍一下网页去重,网页去重可以归为两类:一类是基于URL的对比去重,它适用哈希算法;另一类是基于内容的对比去重,它适用基于信息指纹的文本相似度算法。
网页去重需要先对文档对象的特征抽取,需要将文档内容分解,由若干组成文档的特征集合表示,该步骤主要是为了方便特征比较计算相似度。之后需要针对特征的压缩编码,主要通过哈希编码等文本向数字串映射方式以方便后续的特征存储以及特征比较,起到减少存储空间,加快比较速度的作用。最后需要进行文档的相似度计算,这一步需要根据文档特征重合比例来确定是否重复文档。一般是对网页提取一个信息特征,通常是一组词,或者是词加权重,调用特定的算法,转化为一组代码,也被称为指纹。若两个页面有相当数量的相同指纹,那么可以认为这两个页面内容重复性很高。
网页分类
分类问题是人类所面临的一个非常重要且具有普遍意义的问题。将事物正确地分类,有助于人们认识世界,使杂乱无章的现实世界变得有条理。自动文本分类就是对大量的自然语言文本按照一定的主题类别进行自动分类,它是自然语言处理的一个十分重要的问题。文本分类主要应用于信息检索,机器翻译,自动文摘,信息过滤,邮件分类等任务。文本分类的一个关键问题是特征词的选择问题及其权重分配。
在搜索引擎中,文本分类主要有以下用途:相关性排序会根据不同的网页类型做相应的排序规则;根据网页是索引页面还是信息页面,下载调度时会做不同的调度策略;在做页面信息抽取的时候,会根据页面分类的结果做不同的抽取策略;在做检索意图识别的时候,会根据用户所点击的URL所属的类别来推断检索串的类别等等。
网页分类方法有SVM分类方法和朴素贝叶斯方法:其中比较推荐的是SVM分类方法,Vapnik等人在多年研究统计学习理论基础上对线性分类器提出了另一种设计最佳准则。其原理也从线性可分说起,然后扩展到线性不可分的情况。甚至扩展到使用非线性函数中去,这种分类器被称为支持向量机(SupportVector Machine,简称SVM)。支持向量机的提出有很深的理论背景。支持向量机方法是在近年来提出的一种新方法。
典型的SVM分类有两种,一种是针对线性可分情况进行分析,对于线性不可分的情况,通过使用非线性映射算法将低维输入空间线性不可分的样本转化为高维特征空间使其线性可分,从而使得高维特征空间采用线性算法对样本的非线性特征进行线性分析成为可能;另一种是基于结构风险最小化理论之上在特征空间中建构最优分割超平面,使得学习器得到全局最优化,并且在整个样本空间的期望风险以某个概率满足一定上界。
典型的朴素贝叶斯分类,它可以分为模型训练、模型分类和分类结果评估三个阶段:模型训练阶段,主要计算训练集下所有类别的先验概率,以及所有特征词在每一个类别下的条件概率;模型分类阶段,对训练集建立模型;对每个待分类文档计算后验概率,后验概率大的类别为文档所属类;分类结果评估阶段:对分类结果进行抽样、人工检验。分别计算出每个类别分类的查准率和查全率,通过F―度量公式评估模型准确度。
二 自然语言处理的典型方法与应用
自然语言处理是计算机科学领域与人工智能领域中的一个重要方向。研究能实现人与计算机之间用自然语言进行有效通信的理论和方法。自然语言处理是一门融语言学、计算机科学、数学于一体的科学。
自然语言处理部分主要以舆情分析为例,舆情分析系统的数据来源有三个渠道,一是网络上公开的信息,如各大交易所每日评论,社交网络各方观点和财经门户网站。二是从合作方获取的信息,如交易信息等。三是微博、人人网等社交网络信息。
网页信息摘要
网页信息摘要需要将同一主题下的多个文本描述的主要信息,按压缩比提炼出一个文本的自然语言处理技术。对于互联网上海量的期货分析报道,如果能从中提炼出一个覆盖性强、形式简洁的摘要将具有重要的意义。
如何收集企业的战略信息?面对海量信息,一个研究员需要花费4个小时阅读相关信息。借助语义引擎,把50篇文献缩略成10余条概要,面对概要信息,一个研究员需要花费3分钟阅读相关信息,并形成思考。借助文字情绪引擎,把概要内容指数化、知识化,面对指数信息,一个研究员需要花费2秒钟阅读相关信息,并获得决策支持所需的知识。
热点事件预测
热点事件的发现与预测的算法有很多,最行之有效的方法是做大规模的逻辑回归。在大数据的背景下,我们拿到的数据是全量并非抽样,这使得类似逻辑回归等简单算法起到事半功倍的效果。通过历史事件传播数据,提取向量,并做逻辑回归出规则,就可以做很多预测。例如美国大选,疾病传播,甚至预测死亡。
维克托・迈尔-舍恩伯格写的《大数据时代》一书中就有这么几个关于热点事件预测的案例:
案例一:华尔街“德温特资本市场”公司首席执行官保罗霍廷每天的工作之一,就是利用电脑程序分析全球3.4亿微博账户的留言,进而判断民众情绪,再以“1”到“50”进行打分。根据打分结果,霍廷再决定如何处理手中数以百万美元计的股票。他的判断原则很简单:如果所有人似乎都高兴,那就买入;如果大家的焦虑情绪上升,那就抛售。这一招收效显著――当年第一季度,霍延的公司获得了7%的收益率。
案例二:美国一个超市将女性顾客中的孕妇视作购物的黄金消费者。为了将这部分目标人群在怀孕前就争取过来,该超市通过调查罗列出几十种购物偏好,当某位顾客的收银条上集中呈现这类商品时,就会被认定为可能是孕妇或家中有孕妇,超市随后向其发送孕妇产品广告。一次,当有人以“家中并无孕妇却总是收到相关产品广告”为由控告这家超市后,却发现原来是自己还在上高中的女儿怀孕了。
案例三:2009年甲型H1N1流感病毒出现,在没有疫苗的情况下,公共卫生专家能做的只是减慢传播速度,要做到这一点,专家必须先知道流感出现在哪里,这只能依靠各地医生发现并告知疾控中心,信息肯定是滞后的。可是,Google的工程师们比疾控专家更早地判断出流感从哪里传播出来,他们依靠的就是Google所掌握的大数据。
历史相似事件可使用文档相似度比较。文档相似度比较算法首先采用TF-IDF方法把文档建模为词频向量,然后使用向量距离计算算法求得。常用的距离计算方法如:Jaccard距离、欧式距离、余弦相似度等。
情感分析
正负情感度量化统计分析一般用于分析金融机构和大众对期货产品的态度、情感和观点倾向,对行情走势往往具有十分重要的意义。通过对收集来的信息进行情感度分析后,可以统计出社会舆论对期货未来走势的观点倾向度。通过计算历史舆论观点与走势的相关度可以验证情感度分析模型的有效性。
情感词监测模块是通过对金融期货网站定时采集更新,对舆论话题进行连续监控,提取热点关键词,实现热点信息的实时发现。通过搜索引擎抓取情感关键词热度,计算关键词与趋势相关性。
主题词表的优劣在相当程度上影响了系统后续的信息采集内容和效果。首先,由领域专家给出相关领域的权威网站作为基础语料来源,通过对权威网站网页内容的整站抓取获得领域语料资源。之后对语料资源进行中文切分词和词频统计,获得一张高频词表。再由领域专家对高频词表中的高频词汇进行整理,人工选取出与领域相关的词语。然后,对从高频词表中选取出的领域主题词进行上位词(花是鲜花的上位词,植物是花的上位词)、下位词、同义词、近义词扩展,去除重复词汇,从而最终形成相关领域的主题词表。在信息采集系统后续的采集中还将不断收集相关领域的新词汇,在发现领域新词后加入到领域主题词表中,形成系统性的反馈机制,从而不断对主题词表进行更新维护。
正负情感度量化统计分析是从抓取的文章中进行情感度分析打分,分数范围为不等。负数越大表示负面观点强度越强,正数越大表示正面观点强度越强,0表示持有中立态度;通过情感度分析可以统计出一段时间内社会舆论对于某个话题的正负面态度,舆论压力往往可以导致市场波动。
情感词检测通过对金融期货网站定时采集更新,对舆论话题进行连续监控,提取热点关键词,出现频率较高的词语作为热点信息词,实现金融热点的实时发现。
趋势分析和预测
根据交易的价格曲线走势,与综合指数对比,使舆论指数趋势体现与交易价格曲线的相关性和一定的前瞻性。通过构建时间序列模型,对未来走势进行预测,如图1所示。综合指数包括各个相关因素的变化趋势(天气因素等)以及舆论指数。
三 行业应用案例
数据挖掘和自然语言处理的应用范围广泛,其中也不乏一些有意思的案例,它可能应用于运营商、银行、传统企业和券商,挑选几个具有代表性的案例与大家分享。
电信行业
某城市电信运营商的上网日志分析系统,该系统通过收集用户上网日志历史记录数据,分析出每个用户的偏好。首先该系统通过并行统计清洗出每个人有效历史上网日志URL;然后从日志URL中抓取网页内容,提取正文,并通过文本分类算法计算分类;最后通过统计出每个用户上网关注类别总数,分析出每个用户的偏好。
金融行业
某大型股份制商业银行供应商风险评估系统,该系统通过抓取供应商内部数据,如企业年报、公司变动、领导情况、财务状况等数据,分析公司运营指数;通过计算各供应商社交数据,对其社会影响力做评估;通过同行之间的数据分析对比,对供应商进行实力评估。这些数据指数可以有效协助商业银行进行供应商风险评估。
地产行业
某房地产企业的社会化品牌实时营销系统,该系统通过社交媒体(微信、微博等)数据,进行网络口碑监测,负面情绪被及时发现并制止;通过与客户进行互动,争取客户忠诚度;通过监控同行及竞争对手的各方面资讯,量化评估竞争态势;快速提升品牌知晓度和美誉度,将媒体影响力转换为客户量,缩短人气聚集周期。
一手打造网络体育社区,一手出品足球电视节目的“欢呼吧”创始人兼CEO陈昊认为,用“足球魔方”的文本分析和数据挖掘技术,足以将各种体育现象背后的实质提炼出来。
给你好看的体育
陈昊把与查立的认识归结为一种“缘分”。在一场起点创业营举办的派对中,不同于那些不断向查立演说项目方案的创业者,陈昊更多的只是静静站在一边旁听,甚至忍不住开口帮助查立回答一些创业的基础问题。虽然与查立之间的交流很少,但仅仅这样的一次会面,却让查立记住了他,也邀请他入驻了起点创业营。
当时,陈昊正在进行一个互联网媒体项目,欲从传统电视媒体对于足球赛事转播的主流中另辟蹊径,摆脱频道资源和转播费用的束缚,建成一个体育新闻和数据的社交分享源和体育垂直社区(这就是后来的“欢呼吧”),以及包含全球大量比赛新闻和数据的赛前分析预测节目“足球魔方”。
在他看来,国内体育传媒严重滞后于发达国家的水平。“国内体育赛事的转播模式十分单一,而且深度、专业的体育内容不多。”也正因为存在诸多问题,才让陈昊嗅到了商机。做国内跨媒体体育社交服务商的想法也刚好迎合了查立对于互联网的判断。
有激情、有梦想、执行力强、善于思考……是陈昊给记者最直观的印象,刚好吻合了起点创业营喜爱的创业者的特征。而更为重要的,是一份破釜沉舟的决心:“为了创业,我鼓励我们团队全部都搬到园区附近租住,以便全心全意地实施我们的创业大计”。
让创业不再孤独
虽然陈昊在此之前已经从事体育产业十几年,并追随“温格教授”的足迹,专赴足球经济最发达的英国拿下了足球营销的MBA学位,然而要落实到具体的操作层面,遇见具体的事情时,依然会有很多困惑。
毕竟,入驻起点创业营,要获取的不仅是较为低廉的租金和办公成本,更重要的是内在的“软件”优势。
“这里有一个较好的培训机制,每周的创业公开课,会根据创业者自身需要面对的问题进行详细的讲解。”作为创业公开课的忠实听众,陈昊之前所学的理论知识通过梳理和实战渐渐“落地”。在入驻“起点创业营”短短几个月的时间里,“欢呼吧”网站以及“足球魔方”电视节目已经开始运作。
不仅如此,创业者的聚集,带给陈昊更多的交流。“通过别人的成功和失败来反观自己,而且创业过程中遇到的诸多问题还可以进行深入的讨论,这样的分享非常有用。”而更为重要的,陈昊认为这消除了创业者的孤独感。
考虑到这一点,IBM 与 Twitter建立合作,旨在管理与利用当今社交互动平台所传输信息中蕴含的能量。研究团队访问了数十名高管与行业专家,并对两家公司的数百个客户互动案例进行了分析,以更好地了解各个企业如何利用社交数据参与当今数字市场的竞争。
不止于营销部门
社交互动平台在过去10年里的使用越来越普遍,许多企业已开始将其作为市场营销与品牌推广的工具,并逐渐开发出包括“倾听”客户在内的被动式实践方法。与客户间的大部分直接互动,一直局限于品牌管理、客户服务、社交推广、公共关系和危机干预等五大职能领域。例如,针对领先品牌的用户名或“标签”的推文,在过去两年里增加了 2.5 倍。
但是,从这些社交互动平台获取的强大数据可能会影响更多的业务流程。Twitter、Foursquare、博客、论坛、浏览网站及内部协作工具等平台,正在以前所未有的方式提供有关客户、员工、竞争对手和市场的深刻洞察力。
目前,全球约40%的企业会收集实时事件与数据。这些企业中有些会将来自社交平台的数据与内部和外部数据相结合,以改进业务流程并推动创新,从而打造由此类平台的互动所支持的沉浸式体验。在该过程中,它们逐步获得竞争优势并建立全新的业务模式。
互动性社交平台的价值,源于其具有能在公共平台上实时揭示买家、卖家和竞争对手等因素的独特能力。借助此类平台,企业便可了解围绕价值链的各项因素,从而得到以前无法获取的深入洞察力。从互动式社交平台产生的信号中“获取或学习”是真实可靠的,其影响力非常强大,甚至能创建快速捕捉全球10多亿人和企业的日常生活、关注问题、愿望和需求的能力。
精通社交的企业正将从社交平台中获取的公开数据融入到业务流程之中,并将此类数据与已有的内部数据或其他公开数据源相结合。在此过程中,它们能够持续辨别并发现有助于在整个业务流程中做出决策的洞察力。此外,这种综合数据还能够为决策者提供更好的情境、深度和执行信心。
我们已经识别了企业可通过融入社交数据改变业务流程的五大职能领域:
销售与营销
除了社交倾听和推送式营销,现在一些领先企业还将社交平台用作“预警系统”,帮助它们了解如何、何时以及为何与客户互动。
USAA 是一家主要服务于军属的全球性金融服务机构。它不仅将 Twitter 用作与其分布广泛的会员进行互动的主要平台,还将其作为不良运营事件和消费者事件的主要指示器。社交商务副总裁 Renee Horne发现,在社交中围绕某一具体话题产生的讨论峰值,通常预示着将发生可能具有更大下游影响的事件,因此她使用这类信息作为支持运营的预警机制。她的团队还分析了围绕负面消费者事件(如零售商数据泄露)发生的社交聊天内容。
研究与开发
消费者驱动型企业也利用该功能更深入地了解潜在客户和最终客户的愿望与需求,以便在产品使用周期内做出战略决策。
传奇娱乐 (Legendary Entertainment)电影公司就借助社交活动平台锁定具有影响力的消费者。“在为角色选演员时,你必须观看他们之前的作品,与他们的经纪人谈话并和曾与他们一起工作的人交流,从而对他们形成一定印象。”传奇娱乐首席分析官 Matthew Marolda说道,“你为什么不通过社交媒体去了解公众对他们的看法呢?我们会运用先进的文本分析技术全面分析他们对话中的音调与音色,然后考虑他们是否适合我们要拍摄的电影题材。”
供应链
企业正在运用社交数据更好地了解并满足消费者在某些情况下的非直观需求。一家全球零售商综合使用包括天气、竞争对手的促销政策、Twitter 信息、经济统计数据和新闻资料在内的内部与实时公开数据,识别强烈但目前属于非直观的需求信号。该公司开发了一套基于算法的形势引擎,用于针对无法对其进行准确趋势和季节性预测的特定产品提供非直观预测。结果是,根据这些实时预测,该公司从根本上重新调整了商品输送的大规模供应链。
规划部
深入反映用户日常生活情况的社交平台对话,可帮助企业和研究人员更准确地了解并预测世界各地的趋势和事件,使其更具战略眼光。农业是利用社交数据制订战略规划的领域之一,利用大数据和分析,该行业正在迅速发生着变化。
孟山都公司是一家跨国农业公司,正在寻找可以更好地预测未来消费需求的新方式。由于新产品的育种周期长达15年之久,因此该公司的全球创新与战略团队需要预测哪种食品的发展趋势能够维持10年。孟山都早在 10 年前便开始了消费趋势的研究,但那时都是采用扫描的零售与食品服务数据。
该公司发现,在零售级数据到达峰值的前几个月,零售食品趋势就开始在 Twitter 等社交媒体平台上显示出来。孟山都非常注重了解对食品话题最热衷且影响力最大的消费者,并与他们进行互动。
行政管理
交互式社交平台对涵盖从人力资源到法律合规的内部运营流程具有巨大影响。例如,一流企业使用了内部互动社交平台,来了解并处理与员工流失、员工保留、雇主品牌推广和劳资关系相关的问题。它们还采用开放政策所无法替代的方式,以听取客户和员工等人群的意见。
一家美国食品与饮料供应商曾对同店销售额的异常波动感到困惑,因为没有哪项常规指标能够给出合理解释。但是客户在Twitter上的推文给出了解释:一旦某商店最受客户喜爱的员工离职,客户总会想换一家商店买早点。基于这样的认识,现在该公司更加注重员工保留项目,除了提供标准的培训外,该公司还推出了助学金和职业认同等项目。
超越社交倾听
将重点从倾听转移到社交商务的第一步,是找到社交平台中尚未被开发的价值,也就是从产品开发到政策合规,以及二者之间其他职能领域在内的整个企业内可以实现的价值。
作为上海报业集团改革后问世的第一个新媒体成果,澎湃新闻自2014年推出以来,其网站、微博、微信公众平台及新闻客户端等多款新媒体产品共同推进,作为传统媒体数字化转型的样本,澎湃新闻的多媒体融合及数字化发展模式具有一定的研究意义。
今日头条则是完全脱胎于互联网环境、基于数据挖掘技术的新媒体产品,以移动客户端为主打产品。自2012年8月上线至2015年12月以来,今日头条已吸纳用户超过3.5亿,且在2014年6月获得1亿美元的C轮融资,并仍保持每天超过3500万的用户增长速度。这一基于数据挖掘技术和数据算法来完成的新媒体项目,对媒介融合和新媒体的创新发展也具有可研究价值。
一、平台:多渠道并进与专注APP的差异
(一)多渠道并进的澎湃新闻格局
媒介渠道是新闻信息流动的通路,合理有效的媒介布局是信息有效传播的基础。①向社交媒体平台延伸已成为传统媒体应对移动互联网时代的挑战、寻求生存渠道必不可少的转型方式之一。具备多元化传播渠道的澎湃新闻,不仅注重多平台内容传播,也重视不同平台间的关联性。基于网络端与移动端的使用差异,其界面设计和部分细节功能上也有所差异,而且相较于网站或WAP网页版的运作,澎湃新闻更重视对移动客户端的推广,例如其网站首页右侧顶端吸引用户的位置展示对移动端的推广信息,首页右侧则放置了微信二维码提醒用户扫码下载客户端。这种推广趋势意在表明,移动客户端在未来将会成为澎湃新闻的主要推广平台,也是其未来应对移动互联网发展进行多媒体转型的主要渠道。但重视推广移动客户端的同时,与同类新闻客户端相似,澎湃新闻也在客户端的文章结尾处提供了微博、微信等社交媒体的分享按钮,以期以此形成信息的多平台、多层次传播。
尽管如此,澎湃新闻以移动客户端为主要新媒介传播平台的渠道战略趋势仍较为明确,例如在其新浪微博和腾讯微博的每条博文中,都附有下载移动客户端的超链接,其官方微信账号的菜单栏设置有“下载APP”的按钮,且每篇推送文章结尾处也都提示读者通过“阅读原文”下载移动客户端。值得注意的是,除了澎湃新闻的官方微信之外,其运营团队还推出了包括“市政厅”等与其新闻客户端的子栏目同名的微信公众号,并分属给各自的内容团队运营,从而形成多平台紧密联系又各有专攻的渠道运作结构。
(二)以客户端为主的今日头条数据挖掘者
今日头条平台最大的特点在于它以自己的客户端为连接点,链接各大新闻门户网站的热门新闻,使其以新闻聚合工具的身份出现在媒介市场和公众视野。根据其对自身“基于数据挖掘的推荐引擎产品”而非新闻客户端的定位,今日头条得以运营、推广和盈利的基础是技术。如何实现网络媒体资源的再利用和再传播是今日头条的关注焦点。作为新闻聚合类应用,今日头条的算法模式与美国Prismatic公司有相似之处,即“收集网上资源并排序,这种排序建立在文本分析、用户喜好、社交网络普及和大数据分析的基础之上。”②这与其公司属性有关:虽然今日头条是新闻类产品,但其公司六成员工为技术开发人员,使该产品可以根据算法技术对用户偏好进行较为精准的分析与判断,并通过智能推荐方式,根据用户对推送设置的偏好,向用户实时推送信息。
同时,作为一款社交媒体,今日头条并不局限于重点打造的客户端平台,与澎湃新闻的多媒体关联运作方式相似,今日头条的客户端也通过分享功能将其与自身的微信、微博等其他社交媒体平台相关联,为用户收藏、分享或转发新闻资讯提供可能。这一方面使用户成为今日头条资讯的二次传播者;另一方面,通过用户自发传播的方式,今日头条也通过其他社交媒体平台再次推广了自己的移动客户端。
二、内容:侧重时政与海量信息的差异
(一)专注时政与思想的澎湃新闻
澎湃新闻的定位是“专注时政与思想的互联网平台”,以此定位为基础,“内容原创”成为澎湃新闻致力发展的目标和方向,同时也是其重点打造的核心竞争力。凭借上海报业集团的新闻品牌和公信力优势,澎湃新闻采集并汇聚大量原创报道,突出内容的独特性和不可替代性。而且澎湃新闻的采编队伍依托其传统媒体――《东方早报》,在内容采编观念上与传统媒体“内容为王”的核心理念相契合,使其能够利用并强化基于纸媒基础发展起来的深度报道特长,将内容集中在“时事、财经、思想、生活”四个方面,以时政新闻报道为主。同时,澎湃新闻并不拘泥于单一的新闻报道角度,而是多视角、多方面地报道同类新闻。