近年来,自然语言处理技术得到了以计算机科学为代表的自然科学领域到社会科学领域的广泛关注,并且在新闻理解、新闻传播、舆论管理、观点分析等社会传播学问题中展示了不容忽视的价值,二者的融合研究正成为新的趋势。一方面,NLP能迅速处理社交媒体中的海量内容和知识,加速传播学的研究进展,所生成的知识图谱也能被用于提升NLP的推理能力。另一方面,自然语言处理能够辅助治理互联网中的传播乱象,避免谣言、攻击性话语的泛滥,促进正向传播。
然而,随着二者结合的深入,传播领域的大量非规范文本和精细化知识对NLP技术提出了越来越高的要求,传播学领域相对完善的理论框架也为NLP突破常规应用带来了机遇。受信息全球化趋势的影响,以电视、报纸、广播、杂志为代表的传统媒介所垄断的信息发布渠道正在被颠覆,以互联网为媒介的社会传播突破了时间和空间的限制,已经成为传播学领域的新趋势。在互联网空间中,人们既是信息的接收者,也是信息的生产者。整个传播过程开始呈现扁平的、去中心化的特点,具体表现为媒体内容生产从传统的“报道式新闻”演变为新型“交互式新闻”,官方媒体报道转变为广泛参与的公民报道,并由此产生了海量的网络传播数据。海量数据带来的影响具有两面性:一方面,公民在网络空间的观点表达和信息分享,创造了新的知识、内容、观点、意见等,人们可以从多个视角解读社会事件;另一方面,网络空间中的数据充斥着与事件不相关的噪音和大量同质化的冗余信息,对社会传播学研究提出了如下新挑战。
(1)如何高效地收集、整合数据,并进行信息的提取与利用。当前的网络数据渠道主要为门户网站的新闻、搜索引擎的检索结果、问答社区的讨论、微博互动等。平台的多样性使得成员构成、交流形式、讨论深度等各不相同,数据形式涵盖文字、图片、表情、视频等多种格式。面对海量数据,人工方式很难进行处理,需要借助自动化工具来实现新闻主题提取、内容理解、体裁归类等工作。自然语言处理技术能够实现异构数据的迅速整合、关键信息的提取及热点追踪等,辅助研究人员进行高效的文本分析和内容理解。因此,熟悉各种自然语言处理工具正逐渐成为传播学研究者的必备技能。
(2)如何对清洗后的数据进行深层次分析,以发现同类事件的共性规律和差异化特征,深入解剖参与者的群体和个体特征。社会传播学研究的根本目的是透过表面看到事件的深层次动机、目的、发展规律,更好地解释社会生活中的自我、他人及世界的关系。其所涉及的学科门派众多,不同理论框架对问题的解释不同,得出的结论也不尽相同。例如,符号互动论强调“行动取决于意义,社会互动产生意义,人的思维修正对社会互动过程的解释”,因此从数据中找出群体思维演变规律是分析群体行动的间接但极其重要的步骤;关系辩证法强调找出关系内部冲突以及关系外部群体冲突来解释事件的演变规律,因此侧重对参与者自身属性以及参与者关系的研究等。基于以上原因,虽然自然语言处理技术的发展以及语料库的丰富程度已经能够解决本问题的一些子问题,如内容分类、观点凝练、情感分析等,但其还无法满足更为系统和深入的智能化传播分析的要求。这就对自然语言处理技术与传播学理论的深度融合提出了要求。