【摘要】随着以互联网为代表的现代信息科学技术的飞速发展,社会科学研究也迎来新的学术机遇。作为社会科学和信息科学的交叉学科,计算社会科学主要采用信息科学技术及其工具获取和分析互联网络等媒介中蕴含的海量人类行为数据,探索社会科学范畴问题。计算社会心理学是计算社会科学的重要分支之一,且已有一些优秀成果诞生。信息科学和社会科学的彼此融合、相互促进,必将是未来社会科学的主要发展方向之一,但它同时也面临诸多挑战。社会科学家,尤其是社会心理学家,应抓住机遇积极投身到计算社会科学的研究中去。
【关键词】计算社会科学;社会网络分析;社会建模;计算社会心理学
互联网络的诞生和发展改变了人类生活,同时也改变了人类观察自身的方式。尤其是随着互联网Web 2.0时代的到来,人们的网络生活形态从被动接收信息向主动生产、交流信息转变。社交网络(social network services,SNS)、博客(blog)、微博客(micro-blog)、微信等新兴网络社交媒体平台以及各类移动互联网工具兴起之后,每时每刻都有海量用户在使用它们记录着自己当下的感受、思想和情绪。这些信息大多会以文本、图像、视频、音频的形式在互联网空间中留存下来。而由众多个体不断生产并被实时存储下来的海量网络数据,恰好可成为研究者们观察人类个体和群体心理行为特征与规律的宝贵资源。同时,计算科学、数据挖掘等信息分析技术的迅速发展,也使得高效处理和分析海量数据成为可能。上述两大条件的渐次成熟,促成了社会科学与信息科学的交叉学科“计算社会科学(computational social science)”的诞生。该学科有望为社会科学和信息科学的进一步发展带来新机遇,而计算社会心理学作为计算社会科学的重要分支,理应引起社会心理学家群体的注意。
一、从社会物理学、社会计算到计算社会科学
计算社会科学并非是社会科学与自然科学技术的首次“联姻”,其现代努力可追溯至社会物理学。19世纪时,社会学创始人、实证主义哲学大师Auguste Comte指出社会科学的发展大致会经历三个阶段:神学、形而上学和现代实证阶段。他认为在现代实证阶段,社会科学研究应采用物理学方法,追求发现各类现象之间的规律性联系,从而使社会科学成为能够接受科学检验的学科,即社会物理学[1],其核心思想是借助物理学中的一些概念和方法研究社会现象及其规律[2]。社会物理学的诞生为社会科学的现代发展奠定了基础,对社会科学研究摆脱哲学思辨起到了重要作用。20世纪40、50年代之后,社会物理学获得迸发式发展,诸如哈佛学派、剑桥学派、瑞典学派、MIT学派如是等等,他们不断努力尝试用物理世界的规则描述和解释人类社会的种种现象,并产生了众多有影响力的理论。
与此同时,信息科学也开始在西方萌芽,信息科学以信息为主要研究对象,以信息的运动规律和应用方法为主要研究内容,以计算机与计算科学技术作为主要的研究工具与技术手段。半个多世纪以来,信息科学领域取得了举世瞩目、众所周知的巨大成就,深深地改变了人类社会的技术生态。
信息科学开始尝试与社会科学交叉融合,最初体现在“社会计算(social computing)”这个信息科学分支领域。社会计算概念最早于1994年出现在英文文献中,由信息科学家提出,当时主要指社会软件,即电子邮件等计算机支持协同工作软件[3]。但随着现代信息网络的兴起和信息科学技术的快速发展,社会计算被不断赋予新的内涵和意义。
中国科学院自动化研究所的王飞跃研究员从2004年开始系统提出社会计算的学科体系,他认为社会计算主要关注两大块内容:(1)关注信息技术在社会活动中的应用,主要目的在于利用先进的信息技术达成高度有效的人际交流;(2)关注将社会人文知识嵌入在信息技术中,目的在于提高社会活动的效益和水平[4]。国际上一些知名IT企业,如IBM、微软等,先后成立了社会计算研究小组,探索如何利用社会科学等人文知识,开发有利于社会成员之间沟通协作的社交软件酯]。此时,社会计算的主旨在于强调以信息技术和社会人文知识为指导,目的在于开发有利于人们之间高效协作与交往的交流平台。刘挺进一步发展了社会计算的学科内涵,指出社会计算研究的目的在于如何利用计算系统帮助人们进行沟通与协作,以及如何利用计算技术研究社会运行的规律与发展趋势印一。这里,社会计算已不仅仅局限于信息技术在社会活动中的应用,还包括使用信息科学技术研究社会科学问题。
为与内涵不断流变的社会计算概念相区隔,进一步明确研究范畴、方法和原则,并强调社会科学理论思想在其问的地位,同时呼应Web互联网、移动互联网背景下人类社会行为信息“大数据(Big Data)”时代的到来,2009年2月,由哈佛大学学者David Lazer牵头的来自信息科学、社会科学和物理学界的十余名国际学者在《科学》杂志上发表了名为《计算社会科学》的文章。在这篇纲领性文章中,这些世界一流学者共同勾画了利用Web互联网、移动互联数据,研究人类社会行为和社会运行规律等社会科学问题的学科思想框架,标志着计算社会科学正式成为一个独立的学科[7]。
主要由信息科学一方主动向社会科学抛出橄榄而催生出的计算社会科学,在分析工具上偏重计算科学为代表的信息科学技术工具,分析对象上倚重人类个体和群体在Web互联网、移动互联网及无线移动设备上留下的各类行为和互动信息,着重探索个体行为偏好、动态人际互动、集群行为、社会演化、社会网络等问题。计算社会科学使用信息科学技术研究社会科学问题,这与社会物理学方法论理念相类似,但又不拘泥于借用物理学体系框架去解读社会现象。计算社会科学使Auguste Comte提出的社会科学“科学化”理想具备了新的可能性与可行性。
“计算社会科学”的学科概念已提出四年多,但国内信息科学界的很多学者仍习惯沿用“社会计算”这一术语。他们认为计算社会科学基本等同于社会计算,或者干脆将计算社会科学看作社会计算的一部分,比如刘挺就提出,社会计算包括计算社会科学和社会计算应用两大部分[8]。而本文作者认为计算社会科学与社会计算之间确有交叉,但两者同时也有不同的侧重面向。社会计算关注的重点有两个,其一是关注信息技术在社会活动中的应用,关注在信息技术中如何嵌入人文知识使之更好地服务于社会活动;其二是为社会科学领域研究提供研究工具,重点关注信息技术的使用和发展。而计算社会科学关注的重点主要是使用信息存储、分析技术研究社会科学领域中的各种问题,发现社会运行规律。
短短几年时闯里,计算社会科学就已成为国际科学共同体中众所瞩目的热点领域。信息科学和社会科学界诸多学者投身于计算社会科学研究之中,《科学》、《自然》、《美国国家科学院院刊》等国际顶尖科学刊物上,不断刊登计算社会科学研究成果,国内外众多学术刊物出版专刊介绍计算社会科学相关研究。与此同时,美国还成立了“计算社会科学学会(Computational Social Science So-ciety,CSSS)”;美国George Mason大学甚至成立了计算社会科学系,同时也是世界上第一个正式授予计算社会科学博士学位的系所。
二、计算社会科学的主要研究范式
计算社会科学以计算机等现代计算科学技术工具获取和分析海量社会化数据,数据形式主要包括文本、图像、视频和音频等,其大部分来源于Web网络信息(如新闻网站、网络论坛、博客、社交网站、微博客等),还有一部分来源于现实空间中各种移动传感设备,如全球定位系统(Global Posi—tioning System,GPS)、智能手机等工具感知的个体活动信息数据[9-10]。除了数据挖掘、机器学习等信息科学通用分析技术之外,就目前已有研究而言,社会网络分析(social network analysis)和社会建模是计算社会科学的两大主要且具有特色的研究范式。
Wellman和Berkowitz认为,社会网络是指由某些特定社会群体问的社会关系构成的相对稳定的关系网络[11]。近几年,随着信息科学技术的发展和普及,这种关系已经延伸到网络虚拟环境中。通过基于社交网络服务,如讨论组、即时通讯、实时消息、博客、微博客等,用户可以彼此分享和交流信息[l2]。这种虚拟社会网络的迅猛发展正深刻影响人们的生活和工作方式[13]。社会网络分析是社会学大师C.Wright Mills在研究人类关系网络时提出的研究范式,社会网络分析依网络视角看待社会,把社会个体当作节点,将社会关系当作边,社会网络即由节点和边构成[14]。社会学家们最早开展了社会网络分析的研究,主要集中于小规模群体的人际关系、群体行为和社会结构等问题。发展至今,社会网络分析已广泛地应用到社会学、经济学、心理学、物理学、信息科学等研究之中[15]。
目前,计算社会科学领域研究者眼中的社会网络分析对象,主要包括对虚拟社会网络下的人物节点分析、社群挖掘和社会信息网络分析等[16],具体包含以下研究内容:(1)对人物节点的分析,主要通过个体的一系列网络行为(评论、转发、收藏等)分析其主要特征,根据用户之间的互动(关注、回复、跟帖等)分析人物节点的影响力,从而按照影响力大小将人物节点分为意见领袖、桥节点等;(2)社群挖掘是社会网络分析的另一研究重点,社群通常由性质相似或功能相近的人物节点构成,在一定程度上反映了个体自发、无序行为背后的局部弱规则性和全局有序性[17]。因此,发现虚拟网络中有意义的、相对稳定的社群对网络信息的搜索与挖掘、信息的推荐以及网络演化与扩散的预测具有重要价值;(3)社会信息的网络化分析,从宏观角度对社会信息进行量化分析,加强信息梳理,提升信息服务能力[18]。
社会建模技术由信息科学家和数学家提出并发展完善起来,是指对社会空间中个体或群体的心理和行为、交互模式、人际关系、社群结构等复杂社会性问题,进行抽象描述并建立仿真模型。通过仿真模型,研究者可以模拟社会演化进程、社会现象的发展、人类社会行为及其变化过程,可进一步结合实验分析或为现实提供决策支持[19]。20世纪60年代早期,社会建模方法开始应用于社会科学领域,至20世纪90年代社会建模才真正为社会科学领域学者所接受。时至今日,社会建模已广泛应用于社会学、心理学、经济学、公共政策研究等领域。
目前,在社会科学领域应用最广泛的仿真模型是基于智能主体的社会仿真模型(agent—basedmodels,ABMs),ABMs模型可以很好地模拟信息传播、社会规范的出现、集群行为等人类现象。ABMs模型的建立是自下而上的,采用Agent(智能主体)概念研究社会问题,Agent是一段特殊的程序,代表着现实中的社会个体模型。Agent具有能动性,即可以根据程序中的运行环境和规则自主地反应决策,学习并适应环境,还可与周边网络中的其它Agent彼此联系、相互影响[20]。基于ABMs模型,研究人员发展出在计算机上建立“人工社会(artificial society)”的构想。人类社会是由大量真实社会个体构成的复杂系统,人工社会则是在计算机上模拟出的由大量虚拟社会个体模型构成的复杂系统。其研究思路是在计算机中建立多个Agent模型,对不同特性的Agent设定不同的运行规则,让这些Agent相互作用并遵循一定规则运行,最后通过观察大量Agent相互作用的涌现属性,找到人工社会的规律,并用这些规律理解和解释现实人类社会中的宏观现象[21]。目前,利用社会建模技术对社会演化过程进行实验分析和评估,是计算社会科学热点方向之一,譬如通过社会建模测试和验证社会经济政策的效果,已被应用到社会公共管理与控制之中[6]。
社会心理学家Andrzej Nowak等人在1998年时曾提出对社会人际关系建立仿真模型的研究构想,并由此抛出“计算社会心理学”(computational social psychology)的学科概念。AndrzeiNowak等人分析指出,人际关系就如同神经元之问互相连接和影响,因此可以将动态的人际过程类比为神经网络模型,从而进行社会仿真建模[22]。社会学家Macy和Willer于2002年向社会学界详细介绍了ABMs模型,倡导使用ABMs模型进行社会学研究[23]。之后,Goldstone和Janssen将ABMs模型用于集群行为研究之中[24]。Smith和Conrey提出ABMs模型适合社会心理学研究,并通过实验证明ABMs模型比其它模型更适用于群体人际互动建模[25]。
三、作为重要分支的计算社会心理学
社会心理学作为社会科学的重要分支之一,诸多研究者已开始关注和尝试采用计算社会科学研究范式和工具,专门探讨社会心理学领域的相关问题,同时社会心理学中也蕴含着丰富的理论假设,可源源不断地激发信息学家们的实证研究灵感。
上文已有提及,计算社会心理学作为一个学科概念,早在1998年就已经由社会心理学家An—drzej Nowak等人提出,当时的内涵是利用计算机社会模拟技术对社会群体心理及行为进行仿真、建模,属于信息科学与心理学的交叉学科。如今随着研究的不断推进、分析技术的不断发展,计算社会心理学的内涵也在不断演化。计算社会心理学已不局限于最初的社会仿真模拟,也开始关注使用信息科学技术作为存储和计算的工具,获得、存储与分析现代网络生活中海量人群的各种行为和互动数据,揭示人类心理特征和社会认知的形成机制及其发展规律。纵观近几年计算社会心理学领域的研究,大致可分为以下几个方向。
(一)大众情绪分析及其规律发现
互联网络空问中的大众情绪表达是计算社会心理学关注的重要问题之一。从事在线文本信息分析的传统信息学者一般只对文本情绪做简单分类,比如以“积极一消极”、“支持一反对”、“支持一中立一反对”这种简单二元或三元分类方式,划分分析对象的情感态度,而依据心理学的情绪结构理论,我们可将人类情绪划分为5~6类基本情绪,以及多种复合情绪,并对每一种情绪的效价和唤醒程度进行客观评级,继而获得更为丰富和精准的人类情感信息。前者简单的情感划分框架可称为“倾向性分析”,后者可称为“情绪分析”,两种分析可合称为“情感倾向性分析”[26]。已有研究证明,依据情绪心理学理论成果或成型情绪量表扩充构建的网络情感倾向性分析指标工具,能够有效地预测实际的社会经济现象,如对产品市场份额、影视票房、疾病或信息传播状况、政治选举结果、宏观经济形势的预测,以及对突发事件的预警等[27]。这类网络情感分析工具能够实时地测量网络大众情绪,不仅为传统情绪心理学理论研究注入活力,增强了社会科学的实用价值,而且还支撑扩展了信息科学中传统的文本情感分析技术。譬如,同时兼具信息科学和心理学背景的学者JohanBollen等人,基于心境量表(Profile of Mood States,POMS)开发了网络情绪分类标准及其测量工具,并分析了2008年美国微博客网站Twitter.com上高达几百万条微博条目(tweets)中情绪表达信息,发现Twitter微博条目中的“镇定(calm)”类情绪词汇量的每日变化趋势,可以成功预测2~6天后美国道琼斯工业指数的升降,预测准确率达到87%[28]。目前针对网络论坛、博客、社交网络的情感倾向性研究已有很多,而由于微博客应用的快速发展,基于微博客平台的情感倾向性研究有快速增长乃至爆发的趋势[16]。研究者可基于微博客平台,针对某些重大社会事件,进行网民情感倾向监测和分析,从而准确把握社会大众态度和情绪的变化过程,这对民意问询、公共管理决策等都具有重要应用价值。
(二)经典心理学假设在网络大数据层面上的验证
心理学是研究人类心理和行为的科学,自诞生以来已建立和发展起庞大的理论假设库。这些假设通常要经过问卷调查、实验设计、统计分析等一系列研究程序和方法进行验证,其中往往存在非代表性取样、研究情境不真实等问题,因此传统心理学研究方法论存在一定缺陷。然而,计算社会心理学研究能收集和分析实时更新的海量人类信息数据,这些数据具有大范围、真实和完全描述的特征,能够显著有效地解决非代表性取样问题,并避免实验条件真实性的拷问。因此,在大数据技术时代背景下,可采用信息科学技术或计算社会科学新研究范式,对已有的可计算心理学理论假设进行逐一检验和发展。譬如,美国心理学家Markey夫妇通过分析美国大选期间搜索引擎网站Google.com上各州的色情类词汇搜索量波动趋势,发现如果某政党“票仓州”所支持的参选者最终确实获胜,选举之后该州的色情类词汇搜索量会快速上升,并显著高于其它州。该搜索行为现象验证了进化心理学中经典的“挑战假说(challenge hypothesis)”[29]。Golder和Macy则通过分析2008年2月至2010年1月之间Twitter.com上正向情绪类词汇和负向情绪类词汇出现频率的波动趋势,结果发现正向情绪随季节变化而变化,未发现支持日照绝对时长与正向情绪之间存在显著相关的证据,但验证了情绪心理学中有关情绪与季节、生物节律间关联的“阶段转换假说(phase—shifthypothesis)”[30]。
(三)海量信息中的社会心理新规律发现
现代互联网络技术的迅速发展给人类活动带来了深远影响,用户可以使用BBS、博客、社交网络、微博客等多种工具或方式将自己当下的观点、状态和情绪表达出来;同时随着信息科学技术的不断成熟,使研究者可轻松获得这些海量的网上信息,并从中发现隐藏的、有价值的人类社会心理新知识。譬如,美国心理学家曾发现,利用谷歌网站应用软件“谷歌趋势(Google Trends)”记录的网民对于自杀、自残、抑郁类词汇的搜索量数据,发现其与现实中的大众自杀、自残数据呈显著统计相关关系:在成人群体中呈显著负相关,在青少年群体中呈显著正相关[1]。再比如,通过对新浪微博海量信息的分析,中国社会心理学家周欣悦教授及其团队初步发现,自然灾害之后公众对于“公平”的关注会下降,具体表现在公平类词汇的每日词频变化趋势:在地震后的5~6天会有一个词频低谷,而在大约20天后会有一个高峰。
值得注意的是,以上这些可被归类为计算社会心理学研究的成果,有很多是由信息科学家与社会学家、经济学家甚至政治学家合作发起,计算社会心理学的巨大学术价值还未被广大社会心理学家充分意识。在未来,信息科学与社会心理学的相互交流和促进,将是计算社会科学的重要发展方向。
四、问题与挑战
随着互联网络的迅速普及以及随之而来的信息数字化、生活网络化浪潮,给社会科学研究带来了新的挑战。同时,互联网络海量数据提取、挖掘和分析技术的相对成熟,也给社会科学带来了方法论革新机遇。计算社会科学或社会计算已逐步获得国内外学术界的重视。我国学者于2004年提出开展社会计算研究的倡议[32-33],之后许多学者纷纷投身其中,目前,开展相关研究的单位主要包括中科院自动化所、中科院计算技术研究所、天津大学、哈尔滨工业大学和中国人民大学等。计算社会科学正在以前所未有的广度、深度和尺度影响着我们收集、整理、分析海量人类行为数据的能力,为社会科学研究提供了全新的工具和视角。与此同时,它在发展过程中也面临着一些亟待解决的问题。
第一,数据收集和存储中的问题。首先,计算社会科学在数据收集上存在着隐私权隐患。在互联网络中,用户存放了大量个人隐私,如个人信息、人际关系、共享信息等。不合理地使用这些隐私数据将会给公众生活带来不良影响,因此,部分网络数据是无法公开提供给学术界使用的[34]。另外,当今的信息技术虽然能实现对大规模人类行为的全面实时记录,但在数据存储方面却仍然面临着巨大数据如何存储和管理的技术难题,当前的计算机系统还无法完全满足这一需求[6]。
第二,传统社会科学研究思维不适用于大数据时代。计算社会科学的主要研究对象是互联网新兴计算平台下实时收集、更新的海量人类数据,传统社会科学研究方法和理论不再适用于这些数据的分析和规律总结工作。无论是相关关系亦或是因果关系,经典的社会科学研究都要求在实证之前明确相应理论假设,实证操作才能以此作为指导原则,去证实或证伪假设。但是在茫茫大数据之中,基于先期有限的前提假设寻找特定变量问的关系,无异于大海捞针。因此,计算社会科学领域亟需新的适于大数据分析的方法论思想及其具体技术。计算社会科学方法论研究者们也在不断努力,譬如Reshef等人于2011年在《科学》杂志上发表文章,介绍了一种在海量数据集中发现潜在重要关系的新统计方法“最大信息熵非参探索”(maximal information-based nonparametric explo-ration,MINE)。这种方法能对变量间不同类型关系进行快速评估,发现大尺度网络范围内的关系类型,利用这种方法研究者无需对其寻找的关系有所了解或设立前期假设,就可以检测由多种因素驱动的复杂模式。作者还将MINE方法与其它方法进行了比较,结果发现MINE更适合于做快速的数据关系探索,这将有助于计算社会科学领域的大幅发展[35]。
第三,学术复合型人才缺乏。计算社会科学是信息科学和社会科学的交叉学科,现在明显缺乏具备跨学科思维与实践能力的研究人才。针对于此,需要信息技术界和社会科学界两者学术培养资源的有效整合,但由于学术队伍组织背景各异,学科认同传统不同,如何使信息科学学者和社会科学学者之间彼此配合,共同培养跨学科的学术复合型人才,也是亟待探索的问题[6]。另外,国内的教育培养体系里文理科之间区隔非常明显,学生偏科现象严重,计算社会科学人才的成功培养也将遇到国内教育培养体制沉疴的阻碍。
计算社会科学为社会科学基础研究提供了新的发展契机,同时还可为社会、经济、安全等重要应用领域提供决策支撑。作为一门新兴交叉学科,计算社会科学的发展需要信息科学和社会科学领域学者之间更为密切的联系与交流。本文作者在此吁请广大社会科学学者,尤其是社会心理学者,积极与信息科学家展开合作,贡献自身专业知识,主动投身于已然到来的计算社会科学研究大潮之中。
[参考文献]
[2]王飞跃.关于社会物理学的意义及其方法讨论[J].复杂系统与复杂性科学,2005,2(3):13-22.
[4]王飞跃.社会计算的意义及其展望[J].中国计算机学会通讯,2006,2(2):28-38.
[5]王飞跃.社会计算:科学、技术与人文的数字化动态交融EJ],中国基础科学•科学前沿,2005(5):5-12.
[6]刘挺.方兴未艾的社会计算[J].中国计算机学会通讯,2011,7(4):56-58.
[8]刘挺.社会计算[J].中国计算机学会通讯,201l,12(7):6-7.
[9]毛文吉,曾大军,柯冠岩.社会计算的研究现状与未来[J].中国计算机学会通讯,2011,12(7):8-12.
[10]刘经南,郭迟,彭瑞卿.移动互联网时代的位置服务[J].中国计算机学会通讯,2011,12(7):40-50.
[12]马晓君,孙宇清,刘发朋.社会网络中的隐私保护[J].中国计算机学会通讯,2011,7(1):52-56.
[13]李国杰.关于网络社会宏观信息学的一些思考[J].中国计算机学会通讯,2006,2(2):2-6.
[14]罗家德.社会网络分析讲义[M].北京:社会科学文献出版社,2005.
[15]马绍奇,焦璨,张敏强.社会网络分析在心理研究中的应用[J].心理科学进展,2011,19(5):755-764.
[16]刘挺,徐志明,秦兵.从语言计算到社会计算[J].中国计算机学会通讯,2011,12(7):31-39.
[17]程学旗,沈华伟.社会信息网络中的社区分析[J].中国计算机学会通讯,2011,12(7):12-20.
[18]程学旗,陈海强,韩战钢.社会信息的网络化分析初探[J].中国计算机学会通讯,2006,2(2):18-26.
[19]罗卫东,程奇奇.社会仿真研究:中国社会科学跨越式发展的可能路径[J].浙江社会科学,2009(2):2-7.
[26]赵妍妍,秦兵,刘挺.文本情感分析[J].软件学报,2010,(8):1834-1848.
[33]王飞跃.人工社会、计算实验、平行系统:关于复杂社会经济系统计算研究的讨论[J].复杂系统与复杂性科学,2004,1(4):25-35.
[34]马晓君,孙宇清,刘发朋.社会网络中的隐私保护[J].中国计算机学会通讯,2011,7(1):52-56.