当社会心理学遇上大数据

联系我们

凯途心理学院
深圳：0755-82666230
地址：南山区桃源街道平山一路世外桃源创意园D栋二楼
广州：020-36299048
地址：白云区梅岗路1号广州商务大厦
西安：029-89572826
地址：西安市未央区未央路107号荣民时代SOHO 6楼616

首页 > 当社会心理学遇上大数据

当社会心理学遇上大数据

内容提要：互联网和计算机科学技术的快速发展，使得基于网络大数据的心理行为研究越来越受到研究者的关注。这为研究人类的心理与行为规律提供了新的视角。心理学作为社会科学的重要组成部分，在计算社会科学的大浪潮中也展示出了巨大的发展潜力，在情绪心理学、人格心理学、行为金融学、健康心理学、政治心理学等诸多领域催生了一批具有重要理论和现实意义的研究成果。我国的社会心理学研究者，已围绕微博情绪问题，并结合股市预测、社会风险感知、精英与大众关系、地区民族主义等诸多具有重要社会现实意义的研究问题，开展了一系列探索性研究。关于网络大数据的社会心理学研究，未来的研究者应该理性地看待这一新兴研究范式，并且充分发挥该范式的优势，从而更好地为解决社会科学的理论和现实社会问题服务。

以互联网和信息科学技术的快速发展推动的信息技术革命，使得人类步入了数据充裕的数字化信息时代。在生产、存储数据的能力获得了巨大发展的信息化时代，人们生活在一个规模难以想象的庞大数字化世界里。人们在论坛、博客、微博、微信、电子商务交易平台、搜索引擎等平台上积累的海量数据，成为大数据时代宝贵的信息资源和财富。目前，大数据已经被广泛应用于政治选举、企业(尤其是电子商务公司)战略布局、金融交易、生物研发、医疗卫生、国防安全、公共管理、社会治安、交通管理、气象监测等诸多实践领域。

一、心理学与大数据的相遇

网络的广泛应用以及与现实的密切交织，不仅改变了人们的生活方式，也推动了学术研究范式的变革。一方面，海量的(移动)互联网用户借助微博、论坛等社交媒体产品和移动互联网工具记录自己的生活，并高密度地进行突破传统时间、空间限制的人际、人机互动，积累了前所未有的海量在线文本、图片、视频信息；另一方面，数据挖掘等计算机和信息科学技术的发展，使得高效处理和分析海量人类行为数据成为可能，从而奠定了海量数据挖掘的技术基础。网络大数据为社会科学的发展带来了前所未有的机遇，Lazer等一批来自政治学、计算机科学等诸多跨学科领域的研究者于2009年在《科学》杂志上联合撰文，正式提出了“计算社会科学”(Computational Social Science)的研究领域。

心理学作为社会科学的重要组成部分，致力于探讨人类的心理与行为规律。(移动)互联网平台和网络应用积累的海量网络大数据记载着大规模人群所思、所想和所感，这为挖掘人类的心理与行为规律提供了庞大、客观、真实的数据资源。尤其是现代化数据分析技术的发展，例如，开源统计分析软件R语言、社会网络分析技术，为数据挖掘和数据分析提供了坚实的技术支撑。受信息科学在生物基因、天文学等领域成功应用的启发，Yarkoni首次提出了“心理信息学”(Psychoinformatics)这一新颖的交叉学科概念。他把利用计算机和信息科学技术工具来获取、管理和分析心理学数据的研究领域称为“心理信息学”。作为一门立足于心理学研究问题的新兴交叉学科，心理信息学的研究重点关注如何借助计算机和信息科学技术的优势，在心理学研究的各个分支领域和研究环节中充分发挥作用，从而为心理学问题提供更为科学、客观的研究证据。

正如计算社会科学可追溯到社会物理学、社会计算(social computing)等研究领域，心理学与大数据、信息科学的相遇，并非出于历史的偶然巧合，而是心理学与信息科学为寻求自身发展而产生的必然结合。心理学与大数据、信息科学的结合最早可追溯到1998年Nowak等提出的计算社会心理学(computational social psychology)研究领域。该领域最早的内涵是指利用计算机模拟的技术手段对社会心理学中的群体心理与行为进行建模和仿真模拟，从而揭示社会群体的心理与行为模式和规律特征。但后来随着计算机科学技术的发展，尤其是社交媒体的发展，信息科学可为心理学提供的不再局限于仿真模拟这样一种特定的技术手段，而是数据获取、数据管理、数据分析等全方位的支持。研究者通过计算机数据抓取手段(例如，网络爬虫)或由网络服务商提供获得的Twitter、新浪微博、Google网络搜索等网络大数据，在数据的样本覆盖量、时间精度等方面都具有突破性优势。此外，研究者可以通过(移动)互联网平台和以更经济、更快捷的方式，招募大批量的被试，从而完成在线问卷调查或网络心理学实验。例如，比较流行的在线问卷调查平台“调查猴子”(Survey Monkey)，和被试招募平台“亚马逊土耳其机器人”(Amazon's Mechanical Turk，MTurk)。有研究证据表明，由于网络覆盖面广、成本低等优势的存在，通过网络平台收集的数据在样本多样性、数据质量等方面等同于甚至高于传统研究方法采用的数据收集手段。

心理学与网络大数据的结合，既为传统心理学通过具有代表性的大样本深入挖掘个体层面的心理与行为机制提供了更为广阔的平台和机会，也同时为深入挖掘大规模人群在群体层面涌现出来的群体心理行为规律提供了可能。近些年，在心理学等社会科学和信息科学研究者的合作和共同努力下，在应用社会心理学的诸多领域取得了一批具有代表性意义的研究成果。

二、大数据视角下的社会心理学研究进展

(一)大数据与情绪心理学

情绪是心理学研究的重要研究对象之一，也是目前为止和大数据结合最为紧密、成果最为丰富的研究领域。传统心理学关于个体情绪在日周期水平上的波动节律研究，尤其是主要围绕积极情绪和消极情绪开展的研究，一直没有得到较为一致的结果。在分析其原因时，研究者普遍承认目前的研究抽样存在偏差(主要以美国大学生样本为主)，在实验室或者通过自我报告的调查等测量方式对情绪的波动节律进行精确测量也均存在较大的偏差。但遵循心理学范式的研究者又暂时无法找到切实可行的，能够对跨文化大样本人群进行数周以上以小时为时间精度上追踪研究的测量方法。考虑到以上研究现状，美国康奈尔大学心理学家Golder和其合作者Macy认为，社交媒体的兴起及其产生的覆盖跨文化、大样本、客观、实时的海量用户行为数据，为解决这一困境提供了可能。他们发表在《科学》杂志的一项研究分析了2008年2月至2010年1月期间，覆盖全球84个使用英文的国家，约240多万用户产生的5亿多条Twitter数据的情绪信息。结果发现，积极情绪和消极情绪在一周七天内的波动节律几乎一致，积极情绪在周六、周日显著高于工作日。在日内波动上，积极情绪在早上(大约在人们上班的时间)开始下降，而在晚上(大约在人们下班的时间)回升；而消极情绪则在早上(早上7～9点附近)达到最低点，随后在一天内均呈上升趋势，达到0点左右的峰值。这种模式支持了人们可通过一晚上的睡眠恢复情绪的假设。关于积极情绪和消极情绪的关系，研究者发现消极情绪的波动模式并不完全等同于积极情绪的反向波动特征，二者仅呈现出低度相关(r=-0.08)。该证据通过跨文化、地域的大样本数据为积极情绪和消极情绪是两个独立的维度提供了支持。研究者进一步由情绪的日内波动规律拓展到季节性波动规律，并尝试同样借助Twitter情绪数据探索当前心理学研究中关于季节性情感障碍的成因的两种观点，即光照时间不足的解释和基于生物昼夜节律的“阶段转换假说”(Phase-shift Hypothesis)。结果发现，绝对日照时长对积极情绪和消极情绪均没有显著作用，但相对日照时长却与情绪有显著关联。因此，该结果支持了有关情绪与季节关联的“阶段转换假说”，而没有获得“情绪随日照时间变化”的竞争假说证据。

情绪传染和情绪传播也是社会心理学中关于社会影响领域的重要议题。Kramer等基于Facebook上近69万用户的实验研究发现，人们的情绪状态会无意识地体验到与他人相同的情绪状态，即情绪可通过情绪传染机制传播给他人。他们通过客观实验的方法证实了仅仅暴露在完全缺乏非言语线索的好友情绪表达的网络环境中也可以发生情绪传染效应。Coviello等也探讨了类似的问题，研究者抓取了2009年1月至2012年3月期间美国100个大城市Facebook用户的“状态”数据，结果发现，下雨天会直接影响人们的Facebook状态中的情绪水平，有趣的是，这种情绪状态还能进一步影响到远在其他城市，没有直接体验到下雨天气的好友的情绪水平。该研究也证实了情绪传染的传染机制，并且揭示了在线社交网络在放大全球情绪同步中扮演的重要作用。Facebook数据已经成为心理学研究者探索大规模人群社会影响作用机制的重要工具。例如，Aral和Walker通过130万Facebook用户的随机实验，较为系统地揭示了人们在社交网络中影响力和易受影响程度的规律特征。结果发现：年轻人相对年长者更容易被影响；男性比女性影响力大，但女性对男性的影响力比她们对其他女性的影响力大；已婚人士在新产品决策中最不容易受影响。

(二)大数据与人格心理学

揭示人们心理行为一般规律的人格心理学是心理学的基础性研究领域。传统心理学研究主要通过自我报告的线下问卷调查方法对人格结构开展了一系列卓有成效的研究，例如经典的“大五人格模型”(Five-factor Model)。对于人格心理学研究者而言，网络大数据为刻画和挖掘人们的心理行为规律提供了新的视角和数据资源。对于计算机科学领域的研究者而言，挖掘用户的心理与行为规律对于提高技术的准确度、提升产品的用户体验具有重要意义。因此，基于大数据的人格心理学研究，也成为了心理学与信息科学结合的重要研究议题。

语言被认为是人们在表达自己内在想法和感受时使用最为普遍、稳定的方式。因此，研究者致力于挖掘人们在网络上的语言表达与人格特征之间的关联。例如，Schwartz等基于7.5万志愿者提供的人格测验结果，以及从用户Facebook信息中提取得到的7亿条单词、短语和话题数据，较为系统地探索了用户在Facebook上的语言表达与其人格、性别、年龄之间的关系。结果发现：外向型的用户更倾向于提及“聚会”“爱你”等词汇；开放型的用户更倾向于提及“音乐”“艺术”“梦想”等词汇；而神经质的用户则更倾向于提及“厌烦”“抑郁”等词汇。研究者采用了开源词汇技术(open-vocabulary technique)来构建人格预测模型，并在样本外测试中达到了91.9%的预测准确率。[11]该团队的Park等进一步通过Facebook用户的样本检验了该人格预测模型的稳健性，结果证明了基于社交媒体语言表达数据和开源词汇技术的自动化人格预测模型具有较好的信度和外在效度。

还有不少研究发现，人们在社交网络上的一些客观行为，例如Facebook上的点赞行为，也为开发自动化预测用户人格或其他属性的计算机模型提供了可能。例如，Kosinski等通过5.8万Facebook用户的点赞数据、人格测试等心理测验数据以及人口统计学调查数据，发现人们在Facebook的点赞数据能自动化地、较为准确地预测出用户的人格、性取向、民族、宗教信仰、政治观点、幸福感、物质滥用、年龄、性别等特征和属性。其中，对开放性人格维度的预测准确性几乎与标准化的人格测试精度相近，对性取向的预测准确率达到88%，对民主主义和自由主义的政治态度预测准确率达到85%。Wu等通过8.6万Facebook用户网络账户信息和人格测试数据发现，基于用户的Facebook点赞等电子化行为信息构建的机器学习计算机模型对人格具有显著预测力。尤为有趣的是，基于Facebook点赞数据构建的人格预测模型(与用户自身的人格测验相关r=0.56)准确率要比与用户关系亲密的好友通过问卷调查的判断(r=0.49)准确率还高。

(三)大数据与行为金融学

行为金融学的研究致力于揭示人们的非理性成分在金融决策中的作用，或者说人们在有限理性情境下的决策规律。其中，以情绪与决策之间的关系最具代表性，例如，情绪预测股市的研究。赖凯声等对情绪预测股市的理论机制，围绕投资者情绪指标、社会情绪指标的实证研究等多方面进行了较为系统的梳理。他们认为，近些年随着网络的普及和信息科学技术的发展，基于网络大数据的社会情绪研究，为情绪与股市的关系这一远未形成定论的研究领域注入了新的活力。尤其是考虑到股市走势是宏观群体层面市场投资者共同决策的结果，传统行为经济学常用的实验范式难以直接回答宏观群体心理与金融决策之间的关系。因此，基于人们在网络环境下留下的客观行为数据成为挖掘群体心理与宏观金融决策关系研究的重要线索。

例如，Bollen等利用心理学情绪量表设定的情绪分类标准，分析了2008年美国微博网站Twitter上的海量数据，发现Twitter用户微博条目中的“镇定”(calm)类情绪词汇量变化趋势可以成功预测2～6天后美国道琼斯工业指数的升降趋势，对于指数升降的预测准确率可达到87%。Bordino等的研究发现，纳斯达克100指数与其成分股的雅虎搜索量显著相关，并且在搜索指数的峰值附近有提前1天的预测作用。Preis等系统考察了98个金融相关词汇的Google搜索数据与美国股市走势之间的关系。结果发现金融词汇的搜索数据能提前预测股市的走势，并且也证明了基于以上规律构建的量化策略的确能跑赢随机策略。

(四)大数据与健康心理学

随着人们对健康问题的关注，与健康相关的心理与行为规律也逐渐受到公共医学、心理学等跨学科领域研究者的关注。大数据应用于健康相关的研究议题，无论是在学术界还是产业界都是关注度非常高的应用领域之一。利用网络大数据进行健康心理领域研究的基本前提假设是：人们线下的健康状况、健康行为等特征与其在线上的社交媒体表达、网络搜索关注等行为之间存在一定的联系。因此，基于大数据的健康心理学研究，可通过人们在网络上行为特征来尽可能地揭示、解释甚至预测人们的健康状况。

例如，Ginsberg等认为，每年大约有9 000万成年人会通过网络搜索引擎搜索特定疾病相关的信息，这为通过网络搜索引擎数据监测疾病暴发状况提供了可能。他们利用人们在Google上5 000万条搜索数据，成功开发了预测季节性流感传播的模型。相较于传统的流感预测工作，由于数据收集方法和过程的限制，往往会有1至2周的延迟。因此，他们的预测研究对于监测和预测流感的暴发趋势，从而为政府相关部门做好流感应急准备和部署具有重要的价值。该研究引领了一大批基于网络搜索数据预测各种疾病的探索和尝试。此外，社交媒体数据也被证明对于预测健康问题具有重要作用。例如，Eichstaedt等的研究发现，人们在Twitter上的网络表达对于美国郡层面的心脏病死亡率有显著预测作用。其中，与负面社会关系、分离和负面情绪(尤其是愤怒)相关的网络表达与心脏病死亡率正相关；而积极情绪和心理参与相关的网络表达与心脏病死亡率负相关。

除了疾病预测外，还有一些研究者也开展了一些借助网络大数据揭示网络线上行为与线下健康行为(例如，自杀行为)之间关系的研究。例如，McCarthy利用谷歌网站记录的2004年至2007年间网民对于自杀、自残类词汇的搜索量数据，发现其与美国疾病控制与预防中心(the Centers for Disease Control and Prevention，CDC)记载的2004年至2007年期间大众现实自杀、自残数据呈显著统计相关关系。但在大众群体中呈显著负相关，在青少年群体中却呈显著正相关。

(五)大数据与政治心理学

大数据也被广泛应用到政治心理学议题中，包括选举行为及其相关心理规律，与政治意识形态相关的心理学规律。例如，Caldarelli等的研究发现，意大利网民在Twitter上提及各党派领导人的微博数量及其随时间的变化特征对于预测全国政治大选具有显著价值。Markey通过分析2004、2006、2008年美国大选期间，搜索引擎网站Google上美国各州的色情类词汇搜索量波动趋势，发现如果某政党“票仓州”所支持的参选者最终确实获胜，选举之后该州的色情类词汇搜索量会快速上升，显著高于其他州。该网络行为现象验证了进化心理学中著名的“挑战假说”(Challenge Hypothesis)。

在政治意识形态方面，Bond和Messing的研究证明了通过Facebook数据预测大众政治意识形态的有效性和可行性，并提出了以此进一步开展政治计划、政治意识形态结构及其与政治参与率关系研究的研究方向。Wojcik等最近发表在《科学》杂志的一项研究试图探索到底持保守主义政治意识形态者和自由主义者谁更幸福。结果发现，在自我报告的问卷调查结果中，持保守主义政治意识形态者报告了比自由主义者更高的幸福感，而通过Twitter等社交媒体数据的客观幸福感指标(例如积极情绪的表达、微笑)看，保守主义者却显著地表达了比自由主义者更低的幸福感。

(六)其他富有前景的应用领域

大数据已经广泛应用于心理学的各分支领域，并不局限于以上列举的这些应用领域。例如，在文化心理学研究领域，有研究者通过Google Ngram基于Google扫描全球所有已出版书籍中约4%数据集所提供的历时近200年的大数据来研究文化的变迁[29-30]，包括个体主义—集体主义文化的历史变迁，美国性别平等文化与女性地位的历史变迁等。还有其他丰富的数据来源也被巧妙地应用到各研究中。例如，通过15万历史名人的出生地、死亡地数据来反映欧洲和北美的文化历史变迁；智能手机的数据被应用于实时刻画大规模人群的人口分布，研究人们对突发事件的集群行为规律。

三、我国的大数据社会心理学研究实践

我国的社会心理学研究者已经主要就中国微博情绪的在线测量和应用问题，尝试与信息科学领域的研究者一起展开了一系列的研究和探索。

(一)微博情绪测量工具的开发

微博积累的海量信息为直接测量大规模人群的态度、社会情绪提供了可能。对在线文本进行情感分析一直是信息科学领域的热点问题，但传统在线文本分析技术主要以数据驱动或者经验驱动，例如包含正向情绪和负向情绪的二分法。情绪、情感是心理学领域的经典研究问题，将心理学领域关于情绪相关的研究成果应用于在线文本分析技术，可从理论视角为提升在线文本分析技术的有效性提供支持和帮助。乐国安等对情感分析技术、情绪词库的构建与发展、在线文本情感分析技术的实践应用等问题进行了较为系统的总结和归纳。

词汇匹配技术是目前分析海量微博客(例如Twitter、新浪微博)使用最为广泛，也是效果相对较好的方法。该方法的原理主要是通过统计目标文本中与情绪词库中特定类型的情绪词的词频多少来计算该文本的情绪定向。[39]因此，情绪词库的建设是基于词汇匹配技术的在线文本情感分析技术的核心。董颖红等基于心理学经典的基本情绪结构理论，将微博情绪分为快乐、悲伤、愤怒、恐惧和厌恶五种(其中惊奇情绪由于在测试中发现使用频率较低而未纳入词库中)，构建了包含818个情绪词(快乐306个；悲伤205个；厌恶142个；恐惧72个；愤怒93个)的标准化微博客基本情绪词库(Weibo Basic Mood Lexicon，Weibo-5BML)。

为了检验该情绪词库和工具的有效性，研究团队与华东师范大学软件学院海量计算研究所团队合作，在160多万新浪微博用户2011年7月至2012年11月期间发布的微博文本上进行测试。首先，对五种微博情绪之间的内部相关性进行测试，结果发现：快乐和悲伤、厌恶、愤怒、恐惧情绪均为显著负相关；而悲伤、厌恶、愤怒和恐惧情绪之间呈现显著正相关。该检验结果与心理学经典的情绪理论，例如效价—唤醒理论，有较好的一致性。其次，通过整理五种微博情绪在一周内(周一至周日)的周变化趋势，结果发现：快乐情绪在周末显著高于工作日，而周三的快乐情绪达到最低点。这为探索大规模人群的整体情绪的节律变化提供了新的证据。最后，为了检验微博情绪测量工具的生态效度，研究团队还分析了五种微博情绪对现实社会中重大节日、重大社会热点事件的反应。结果发现，微博情绪对2011年“7·23甬温线旅客列车特别重大事故”、2012年“钓鱼岛之争”、春节、中秋节、感恩节等重大事件和节假日都呈现出了较为灵敏而合理的反应。例如，2011年7月23日，甬温线段发生了旅客列车特别重大事故，事故发生当天，快乐情绪开始下降，而悲伤、愤怒和恐惧情绪开始上升。随后的几天人们一直沉浸在悲伤、愤怒和恐惧的氛围中，一直到7月29日悼念活动结束以后公众的各种基本情绪才逐渐恢复到往日的水平。尤其是在事故发生之初，生命至上、紧急救援是主要问题，因此人们的悲伤情绪首先上升到高点；但随着时间的推移，事故的处理方式和对原因的调查使得公众对政府的不满、愤怒情绪不断推高。以上检验结果表明，研究团队基于基本情绪结构理论开发的Weibo-5BML微博情绪测量工具，在分析大众情绪信息时是有效的，这对于实时、高效地感知公众的社会情绪变化具有重要的意义。

(二)基于微博情绪的应用社会心理学研究

1.预测股市

在发现新浪微博上单个情绪词(例如“紧张”)与上证指数之间存在显著关联的基础上，为了探索更一般性的微博情绪与股市关系，赖凯声等基于心理学的情绪理论和情绪测量量表，抓取了新浪微博上2011年8月1日至2012年2月29日期间2 242个情绪词汇的词频数据。结果发现，2242个情绪词中，有993个情绪词与上证指数之间存在显著的相关关系，并且基于这2 242个情绪词通过相关系数筛选、加权得到的微博情绪综合指数与上证指数之间的相关高达0.877。进一步对微博情绪综合指数和上证指数的时间序列构建协整模型发现，二者存在显著的长期均衡关系，且微博情绪综合指数能显著预测下一个交易日的上证指数。

Dong等通过构建的微博客基本情绪词库(Weibo-5BML)工具和2012年2月1日至2012年11月30日期间的新浪微博数据，检验了不同类型的微博情绪与股市之间的关系。研究结果发现，五种情绪中悲伤情绪能显著提高上证指数成交量(预测准确率提高2.4%)。考虑到悲伤情绪的唤醒度最低，研究者再把悲伤情绪词中唤醒度最低的25%作为新的悲伤指数，结果发现对上证指数成交量的预测能力仍然显著。该研究结果表明，具有低唤醒度的负性情绪与上证指数交易量相关，该结果从群体层面支持了情绪维持假说，并为情绪泛化假说和情绪维持假说的争论提供了新证据。

2.风险社会预测

处于社会转型期和全球化进程的中国社会面临着各种社会风险。个体层面的研究认为，由感知的社会风险诱发的情绪，例如愤怒，可能会引发集体行动。但在宏观群体层面，由于测量手段和成本的限制，大众感知的社会风险与社会情绪之间的关系并不明确。为探索大众对感知的社会风险的情绪反应规律，Dong等的研究通过百度搜索数据来刻画中国网民的社会风险感知水平(分为社会稳定风险、日常生活风险、资源环境风险、公共道德风险、政府执政风险、国家安全风险、经济金融风险七大类)，通过微博客基本情绪词库(Weibo-5BML)工具分析新浪微博数据得到五类基本情绪水平。通过Granger因果检验发现，大众感知的社会风险对社会情绪有显著的预测力，但不同的风险类型对不同情绪的预测力是不同的。例如，感知的政治执政风险能显著预测愤怒情绪，资源环境风险感知能显著预测未来2～5日的悲伤情绪。

另一方面，大众感知的社会风险对社会稳定和社会和谐有负面影响，因此研究群体层面的大众情绪能否影响或预测社会风险感知也具有重要意义。Dong等同样采用百度搜索数据和新浪微博数据，研究了中国网民的社会情绪对大众社会风险感知的预测效果。结果发现，社会情绪对大众感知的社会风险具有显著的预测力，但不同的社会情绪对不同类型的社会风险感知的预测效果是不同的。相比快乐情绪，悲伤、厌恶、愤怒、恐惧四种负性社会情绪是社会风险感知水平更为重要的预测变量。关于社会风险与社会风险感知水平的关系研究表明，通过社会化媒体捕捉和研究大众心理特征和规律是可行的。

3.精英与大众的微博情绪关系

关于精英与大众的关系一直是政治学、社会学、传播学、心理学等多学科领域学者关注的问题。传播学的意见领袖研究认为，意见领袖在信息传播中起着二级传播的作用，对大众具有重要的引领作用；政治学领域的研究者认为，政治精英只是强化和激发现存的公共舆论，整体上对公共舆论的影响是“微不足道”的；而另一些研究则反对这种认为影响微不足道的观点，并给出了一些政治精英利用大众传媒操纵公共舆论的证据。随着社会的发展，精英和大众之间的关系变得越来越复杂。尤其是互联网时代，微博等自媒体的发展，精英与大众互动的频率和强度都产生了巨大的飞跃，这无疑更加凸显了探究精英和大众的关系问题的重要性。精英是因为能准确感知大众舆论的趋势，迎合或顺应大众的“民意”，从而获得大众拥戴，即“时势造英雄”；还是因为能凭借自身能力制造、引领时势，充当大众引领者的角色，即“英雄造时势”？

Lai等以微博情绪的分析视角为切入点，借助研究团队构建的微博客基本情绪词库(Weibo-5BML)工具和新浪微博2011-2012年的微博数据，探索了覆盖房地产、教育等9个行业的894名微博精英和160多万名大众用户之间的微博情绪关系。综合分析9大领域结果发现：(1)当下中国的经济资本比文化资本具有更大的影响力。房产、财经和科技类意见领袖(即经济资本领域)均有显著领先于大众情绪的倾向，而传媒、时尚、艺术、娱乐、教育、文学意见领袖(即文化资本领域)领先大众情绪的倾向相对更低甚至落后于大众情绪。(2)不同领域、不同情绪类型下的影响关系不完全相同，但总体来看，“时势造英雄”的效果要比“英雄造时势”的效果强些。(3)消极情绪比积极情绪更易传播。其中，积极情绪中快乐情绪在4个领域的意见领袖群体和大众情绪中有显著的领先和滞后关系；而消极情绪中悲伤情绪在8个领域、厌恶情绪在6个领域、恐惧情绪在5个领域、愤怒情绪在2个领域内的意见领袖群体和大众情绪中有显著的领先和滞后关系。总的来说，经济资本和文化资本之间的支配和被支配关系取决于哪类资本占据了相对较高的话语权。基于微博情绪的研究发现经济资本比文化资本更具影响力的结果在一定程度上能反映转型期中国文化转型落后于经济转型的社会现状。

4.厌恶情绪预测地区民族主义

关注情绪的进化意义的研究者认为，厌恶情绪可保护人们免受有毒物质、病菌和疾病的威胁。厌恶情绪在道德决策和意识形态层面的影响作用也得到了研究者的关注。个体层面的实验和调查证据发现，厌恶情绪与个体的政治意识形态，例如预测保守主义、投票行为，有显著关联。民族主义是个体认同或依附于自己民族和国家的一种信仰或意识形态，具有以自我民族中心，以及排斥、贬低外民族的倾向等主要特征。那么，在群体层面的厌恶情绪与地区的民族主义是否有关联？

高树青等借助研究团队构建的微博客基本情绪词库(Weibo-5BML)工具来测量2011年中国各省(市、自治区)的新浪微博厌恶情绪表达，并结合包含17万网民样本的“中国政治坐标系测试”关于政治意识形态网络大调查数据，从宏观层面探索了网络厌恶情绪表达与地区民主主义之间的关系。研究结果发现：(1)中国各省的厌恶情绪表达与地区民族主义存在显著相关；(2)在控制了各省的人均GDP、地理封闭性、农村人口比重等变量之后，厌恶情绪表达与地区民族主义之间的相关仍然显著；(3)进一步的稳健性检验发现，5类基本情绪中，有且仅有厌恶情绪与地区民族主义具有显著关联。因此，微博厌恶情绪表达与地区民族主义正相关的结果具有较好的区分效度，这为理解群体层面的情绪表达和民族主义倾向之间的关系提供了直接证据。

四、大数据研究存在的问题

(一)大数据“万能论”与“无用论”

关于网络大数据的定位问题，尤其是大数据在受到商界热炒的背景下，如何客观、理性地看待大数据研究也是一个值得讨论的问题。认为大数据能解决一切问题，采用大数据的研究方法就是高质量的研究，这便是推崇大数据“万能论”；也有观点认为大数据一无是处，存在数据不精确，结果是伪相关等问题，便是信奉大数据“无用论”。笔者认为，我们既不要盲从于大数据“万能论”，也不必因大数据“无用论”而望而却步。客观来讲，大数据更像是一种新范式或者新方法，它有它自己的优势，例如样本量大、生态效度高。大数据也有一些缺陷，包括不精确、信度低，难以揭示因果等问题。正如传统的实验法有控制严格的优点和生态效度低的缺点，而问卷法有被试范围广的优点和存在社会称许性反应的弊端一样，大数据会存在优点和缺点自然也属情理之中。因此，将大数据看成一种新的研究范式，研究者可以更好地结合一般方法论、研究范式的优缺点的视角来客观、理性地评价和应用它。

(二)大数据的因果关系问题

大数据研究具有全体、混杂和相关三大特点。27-96其中，相关指的是大数据研究通常更加关注相关性，而不是因果性。因果关系的确立需要排除很多可能的干扰因素，而大数据混杂的特点很难保证因果关系的推论，要通过大数据来研究因果是比较困难的。很多大数据研究中找到的因果也只是统计学意义上的因果，例如，基于Granger因果检验的研究。但统计意义上的因果关系代表的是数据在时间上的领先滞后关系，与逻辑学意义上的因果并不等同。因此，如果需要进一步确定因果关系，建议可再结合传统的实验法进行检验和确定。值得一提的是，大数据发现的相关，尤其是时间序列上的领先—滞后相关由于具有预测性，因此仍然是具有较强的实践应用价值的。这也可能是大数据在产业界传播范围广、影响力大的重要原因之一。

(三)大数据的隐私问题

在大数据被广泛应用于科研、商业和管理等诸多实践领域的同时，人们也开始思考大数据对人类带来的威胁和负面影响。其中以对数据隐私问题的顾虑最具代表性。人们在搜索引擎上的搜索记录、在电子商务网站上的购物记录、在社交媒体上与好友的互动记录等，这些数据都被网络服务商所掌握。这些数据的安全性则成为了网络信息化社会的一大隐患。尤其是2013年的“棱镜门”事件更是激发了人们对数据安全、数据隐私问题的关注。关于数据收集者是否有权收集、分析以及使用相关信息也引起了广泛的讨论。例如，传统社会中，由于社会流动性的存在，对于一些犯过一些过错的人，往往还具备通过更换环境来重新开启新生活的权力。但网络社会信息的全覆盖，一旦有任何负面的信息发布到网上，几乎世界上任何有互联网覆盖的角落都能知道该信息，并且它可能被永久的记载。换言之，在大数据时代，人们的隐私空间越来越小，这种现象被称为“被遗忘权”的剥夺。数据隐私权隐患引起了社会各界的大讨论，世界各国已经开始着手建设和完善大数据隐私保护相关的法律。对于学术研究而言，大数据研究者可通过建立一个自由、透明的学术共同体，共同遵循和监督在充分保证用户个人隐私的条件下开展有价值的学术研究的数据使用原则。例如，对个体关键信息进行匿名化处理是大数据研究中常用的保护用户个人隐私的办法。

五、未来研究展望

近些年围绕网络大数据的社会心理学研究展现出了巨大的发展潜力，在研究视角、研究方法的多元化等方面都取得了重大的突破。2013年Watts曾就计算社会科学的研究现状和面临的挑战问题指出，虽然目前已经有了成百上千篇关于社会网络、金融危机、群体形成等问题相关的计算社会科学研究成果，但这些成果中很少能被传统社会科学的期刊所认可并发表。换言之，Watts一针见血地指出了当时信息科学领域研究者与社会科学研究者之间的合作仍然不够充分，从而导致主流社会科学和计算社会科学研究领域之间仍然存在较深隔阂的问题。这也与大多数计算社会科学领域的研究缺乏对传统社会科学理论和现实重要社会实践的关注有关。对于大数据心理学研究领域的发展而言，该问题和挑战同样存在，并且将长期存在。值得肯定的是，就在最近的几年发展中，已经开始涌现出一批具有代表性意义的大数据心理学研究，并得到了一些主流心理学期刊的认可。例如，在2014-2015年期间，有多篇基于Facebook、Twitter、Google网络搜索的大数据研究相继在社会心理学领域的国际顶级期刊，如美国的《人格与社会心理学》《心理科学》等杂志上发表。这意味着基于大数据的社会心理学研究领域已经逐渐步入主流心理学研究的视野，并开始展示其蓬勃的生命力。笔者认为，要想获得长足的发展，并且真正获得主流心理学的认可，研究者在未来研究中不能仅仅只把网络作为一种人类活动的特定情境来研究网络用户的心理与行为规律，更应重视借助网络大数据相关的研究技术和手段来解决心理学领域的重要理论和现实问题。

尤其是对于国内的研究者而言，国内相关领域的研究总体上仍处于探索期，研究成果和经验相对较少。这既意味着存在广阔的发展空间，也意味着面临巨大的挑战。数据公开、数据共享也是未来发展的大趋势。我国作为人口大国，网民用户群体规模庞大，这为研究者研究转型期中国人的心理与行为规律提供了鲜活的证据。当前正处于转型期的中国，在大众心理与行为层面涌现出许多可供深入挖掘的研究资源。建议国内研究者在延续传统心理学研究范式，探讨网络化环境下个体心理、社会适应的影响机制研究的同时，也多关注借助网络大数据探索群体心理和行为问题。这对于及时发现和解决社会问题，从而促进社会的和谐发展具有重要的意义。

建议未来研究多结合心理信息学的视角，将网络大数据研究技术多应用于解决具有重要现实意义的社会问题(例如，医疗卫生问题、幸福感问题、环境问题)，落实心理学服务社会的使命。从已有的研究证据来看，心理信息学的研究范式不但在探索有关个体和群体心理与行为规律的研究问题上展示出了巨大的潜力，还能帮助研究者从理论驱动出发，通过网络大数据来验证一些心理学的经典假设，从而为理论假说、争论提供新的证据。因此，心理信息学有望成为未来心理学发展的重要方向之一。但心理信息学研究的顺利开展，需要心理学和信息科学领域研究者的密切配合以及相关资源的全力支持。建议国家多提供一些跨学科领域合作的资源项目，支持和鼓励开展跨学科领域合作的课题；而研究者自身则应能主动地学习和了解相关领域的知识，打破传统的学科思维界限，积极投身于跨学科合作实践中，从而把握网络大数据时代的机遇。

文章出自网络如有侵权请联系删除！