第3章 支援信息戰(zhàn)的社交媒體分析方法
在上一章中,為研究社交媒體分析應(yīng)用于信息戰(zhàn)的潛在利益,我們提出了一個基于IRC的框架。在本章中,我們進(jìn)行一些更具體的描述:采用方法學(xué)的方法去檢測公眾對極端組織宣傳的接受程度;確定文化或區(qū)域關(guān)注的熱點以分析消息轉(zhuǎn)發(fā)策略;解決其他信息戰(zhàn)問題。本章并不專注于特定的技術(shù)或算法,有關(guān)這些特定技術(shù)或算法的討論很快會變得過時。相反,我們探索使用一些有前景的方式,在一個熟悉的框架內(nèi)解決常見的信息戰(zhàn)挑戰(zhàn)性問題。例如,類似Clauset-Newman Moore算法的社區(qū)檢測算法,可能會被更優(yōu)秀的算法所取代,但是識別和分析一個社交網(wǎng)絡(luò)中的群體這個需求是一直會有的。
本章中研究的概念和方法對國防部可能有巨大的潛在價值,對于信息戰(zhàn)來說,社交媒體無疑是重要的數(shù)據(jù)來源。然而,對于社交媒體平臺和分析工具的使用也有一些局限:
?社交媒體普及率在世界各地是不同的,這反映在某一既定任務(wù)區(qū)域中可用于分析的數(shù)據(jù)量(以及它們的適用性)。
?社交媒體數(shù)據(jù)不具有廣泛的代表性。社交媒體的參與者都是自選擇的,因此,他們共享的數(shù)據(jù)會自然而然地朝網(wǎng)絡(luò)媒體參與者群體傾斜。
例如,對社交媒體中共享的照片集的自動圖像分類結(jié)果數(shù)據(jù)進(jìn)行分析,可以揭示什么樣的人群想法子集是值得分享的。
下面提到的若干分析方法并不詳盡,但它們顯示了所有可能的分析方法的大致范圍,并說明了綜合使用多個分析方法所產(chǎn)生的效益。大多數(shù)的方法使用文本分析(反映了社交媒體中基于文本的數(shù)據(jù)的豐富性),我們也介紹了包括網(wǎng)絡(luò)、地理空間和圖像分析方面的實例。
本章涉及的方法論概念主要包括以下內(nèi)容:
?社交網(wǎng)絡(luò)分析。社交網(wǎng)絡(luò)分析(SNA),它包括社交結(jié)構(gòu)的識別和可視化,涉及到心理學(xué)、人類學(xué)、數(shù)學(xué)中的圖論等方面的知識。它涵蓋了在海量的社交媒體數(shù)據(jù)集中自動檢測社區(qū)的算法。
?公眾分析。公眾分析是公眾說服分析的一部分:對有倡導(dǎo)權(quán)益的人的一種抽象,這些人使用共享的語言來解決一個常見的問題。美國步槍協(xié)會就是與倡導(dǎo)有關(guān)的組織的一個真實例子,然而使用相同語言且以私人持有武器合法化為共同目標(biāo)的公眾,則是一個更大的抽象。那些尋求限制武器私有化的反對派,同樣比任何正式的游說組織要大。這類分析專注于那些關(guān)注某些問題并使用共同的論述來影響辯論的人。
?詞法分析。文本分析方法起源于語料庫語言學(xué)研究3。詞法分析使用統(tǒng)計檢測計算單詞的頻率、單詞的距離及其它特性,以檢測文本數(shù)據(jù)結(jié)構(gòu)和模式。它最常用于通過顯而易見的文本及單詞聯(lián)系,以經(jīng)驗推斷一個文本集是在說什么。
注釋3:語料庫語言學(xué)是語言學(xué)的一個分支學(xué)科,其特征在于基于海量文本數(shù)據(jù)集(語料庫)的實證研究。由于語料庫語言學(xué)是基于機器的,它缺乏人工分析的上下文敏感性和精度,但人工分析不能達(dá)到其可擴展性和可靠性。
?立場分析。作為一種更復(fù)雜和更精細(xì)化的情感分析方法,立場分析重點檢查單詞和短語的頻率(比如憤怒、悲哀、未來、過去、確定、不確定等)。它有益于回答有關(guān)態(tài)度、情感和價值的社會文化問題。
?地理定位和地理推理。是兩種地理特定的方法,用于判定一條社交媒體消息的地理源點。地理定位使用GPS戳并且相當(dāng)精確,但是用戶常常關(guān)閉這項功能。地理推理可以基于元數(shù)據(jù)捕獲大量的數(shù)據(jù)樣本,用于推斷發(fā)帖者的地理位置,其中一些方法具有相當(dāng)高的精度水準(zhǔn)。
?深度神經(jīng)網(wǎng)絡(luò)。深度神經(jīng)網(wǎng)絡(luò)(DNNs)通過將復(fù)雜的抽象任務(wù)分解簡化為不同層次,使機器能夠?qū)W習(xí)分類任務(wù)。例如,盡管人可能通過觀看一張圖片從整體上識別一輛坦克,但DNN圖像分類器可以通過編程來區(qū)分不同的金屬質(zhì)感、胎面形狀、主炮形狀、低反射值,以及其它因素來描繪一輛“坦克”,并且具有一定的準(zhǔn)確度。人類分析師可能需要花費一年的時間搜索成千上萬的圖片,以一個具有強大計算能力的、經(jīng)過良好訓(xùn)練的DNN模型來代替,則只需要幾天時間就能對同一組圖像進(jìn)行分類。
盡管社交媒體數(shù)據(jù)越來越多地包括圖像、聲音和視頻,文本數(shù)據(jù)仍然占主導(dǎo)地位。在下面的章節(jié)中,我們回顧各種社交媒體分析方法,尤其是文本數(shù)據(jù),這些方法在解決信息戰(zhàn)的問題時有非常實際的應(yīng)用價值。表3-1總結(jié)了本章中介紹的以及應(yīng)用范例中涉及到的幾類分析方法。
雖然本章主要側(cè)重于分析方法,我們注意到描述性工作的價值,它可以為推理提供重要的啟示。本節(jié)詳細(xì)描述了表征極端分子網(wǎng)絡(luò)的方法——具體而言,網(wǎng)絡(luò)成員中那些積極參與支持活動的人4。該示例的目的是刻畫誰是在推特上積極支持ISIL的人,但是這種方法也可以適用于其他網(wǎng)絡(luò)組織或者其他為社交網(wǎng)絡(luò)分析(SNA)提供數(shù)據(jù)的社交媒體平臺。
注釋4:各類不同的分析方法對于檢測網(wǎng)絡(luò)群體在社交媒體平臺上的一般對話都是有用的。
表3-1一些支持信息戰(zhàn)的社交媒體數(shù)據(jù)分析方法
在該示例方法中,現(xiàn)有的ISIL支持者被用于確定其他支持者。結(jié)果是一個相當(dāng)大的數(shù)據(jù)集,在推特上有100萬至135萬的ISIL的積極支持者。識別網(wǎng)絡(luò)成員是一個三步驟的過程,結(jié)合了可擴展的機器方法和有人監(jiān)督的隨機取樣檢查方法,以保證識別的精確性。
分析過程的第一步是手動培育一個已知的在推持上活躍的極端分子成員的種子列表。即使對專家來說,這也是一個勞動密集型的工作過程(一個兩人團(tuán)隊,通常需要數(shù)月時間)。在對推特活躍用戶當(dāng)中對極端組織有明確的積極支持傾向的帳戶進(jìn)行手工搜索時,研究人員發(fā)現(xiàn)了424個活躍的ISIL的支持者帳戶——或者稱為網(wǎng)絡(luò)模型中的0級帳戶。
第二步是從種子列表開始,使用匹配的網(wǎng)絡(luò)連接來推斷其他支持者。不像基于內(nèi)容來識別關(guān)系的其他方法(參見下一節(jié),“公眾分析:在社交媒體上映射論證空間”),在這里,聯(lián)系的方向很重要。設(shè)想一下一組推特用戶評論一個受歡迎的電視節(jié)目的情景,參與者可能包括演員、制作人員、演播室代表、記者以及粉絲。如果我們已經(jīng)分辨節(jié)目網(wǎng)絡(luò)的全部成員——明星、編劇、導(dǎo)演等——我們就有可能通過對談?wù)撛摴?jié)目的用戶進(jìn)行研究,分析他們的聯(lián)接方向,推斷其他可能的用戶:明星可能有很多很多的關(guān)注者(大部分是粉絲),這些人并不直接和節(jié)目有關(guān),但是明星所關(guān)注的人則很有可能與節(jié)目有關(guān)。
因此,以極端分子網(wǎng)絡(luò)為例,忽略那些關(guān)注0級種子成員的人,轉(zhuǎn)而重點識別那些0級種子成員所關(guān)注的用戶,則可能獲得相關(guān)網(wǎng)絡(luò)成員(1級)的更準(zhǔn)確的圖像。在這一例子中,過濾掉嫌疑的機器人和病毒帳戶后,經(jīng)過第一步分析之后得到的網(wǎng)絡(luò)組織成員大約有43000人左右。但是,當(dāng)然不是所有的被0級成員所關(guān)注的人都是ISIL的推特支持者,需要進(jìn)一步剔除。
第三步,鑒別誰是積極支持ISIL的網(wǎng)絡(luò)用戶的第三步,是要基于他們在推特上公開的同ISIL的聯(lián)系、以及他們在網(wǎng)絡(luò)小圈子和網(wǎng)內(nèi)焦點的活躍程度,對他們進(jìn)行排序。在網(wǎng)絡(luò)分析中,這幾個概念定義如下:
?圈子(Cliques)是一個網(wǎng)內(nèi)的子結(jié)構(gòu),其中每個節(jié)點都連接到其他節(jié)點。設(shè)想一個大型的“新英格蘭愛國者”的支持者網(wǎng)絡(luò),在該網(wǎng)絡(luò)結(jié)構(gòu)中,你可以發(fā)現(xiàn)很多小的“圈子”——在這種更小的組織中,每個人都會認(rèn)識另外的任何一個人。這可能是在波士頓以鄰居形成的緊密的朋友圈,或者雖然他們從沒有互相見過面,但通過在線互動而相互非常了解對方。重要的是網(wǎng)絡(luò)中圈子的度,這能夠幫助鑒別網(wǎng)絡(luò)中的成員關(guān)系。
?網(wǎng)內(nèi)聚焦是指網(wǎng)內(nèi)的聯(lián)系多過網(wǎng)外聯(lián)系(與組織外的用戶交互)的發(fā)展趨勢。以足球為例,“新英格蘭愛國者”的非正式的粉絲都會有一些網(wǎng)內(nèi)的聯(lián)系,但是如果某個人的網(wǎng)絡(luò)聯(lián)接比率開始傾斜——如果一個用戶主要是指向網(wǎng)內(nèi)——這表示會員身份的增強。
對43000第1級別的帳戶進(jìn)行分類,在識別支持者時,結(jié)合使用多種度量比使用單一度量有效得多。在分析員抽查時,這種方法對數(shù)據(jù)集中前20000個帳戶的精度非常高,但是當(dāng)超過30000個帳戶時,精度會快速地下降到48%。所以,在這個例子中,研究人員能夠描述一個包含20000人的活躍的ISIL支持者大型網(wǎng)絡(luò)的人口統(tǒng)計資料和活動,并能高度保證數(shù)據(jù)集是精準(zhǔn)的5。
注釋5:在這種情況下,更大規(guī)模的n-步分析是可能的——例如,在1級用戶之外采用一個附加步驟,檢查他們使用可擴展方法(如機器學(xué)習(xí))的情況,從活躍的支持者中篩選更大的網(wǎng)絡(luò)。
除了描述像ISIL極端組織的社交網(wǎng)絡(luò),SNA(社交網(wǎng)絡(luò)分析)和詞法分析的組合使用還可以用來表征ISIL在社交媒體上的意識形態(tài)斗爭6。該方法使用社區(qū)檢測算法來識別所涉及的群體,并使用詞法分析來表征這些社區(qū)。這種方法不僅能直觀的呈現(xiàn)誰在跟誰說話,而且能知道他們在說(關(guān)心)什么。其結(jié)果就是圍繞ISIL的討論空間的社交媒體圖。圖3-1顯示了通過研究發(fā)現(xiàn)的頂級集合群落圖,以及它們之間相互聯(lián)接的密度和方向。
注釋6:這項研究的規(guī)模說明了為什么計算機分析對信息戰(zhàn),以及從更廣的意義上說對社交媒體數(shù)據(jù)搜集是至關(guān)重要的:源于771371個推特用戶帳戶的2300萬條微博信息。
圖3-1經(jīng)過兩步創(chuàng)建。社區(qū)檢測揭示了網(wǎng)絡(luò)結(jié)構(gòu),基于每一社區(qū)內(nèi)容的詞法分析描述了用戶組織的特征——特別是從人口統(tǒng)計學(xué)的角度來看他們是誰,以及他們關(guān)心什么。
圖3-1 推特中支持和反對ISIL的集合群落
注:箭頭的粗細(xì)表示集合群落之間的連接強度相較于社區(qū)規(guī)模的高低。節(jié)點大小代表社區(qū)的大小。紅色節(jié)點表示遜尼派集合群落的成員。由于資源的限制,不是所有的社區(qū)都能用詞法分析檢測到;沒檢測到的社區(qū)沒有給出標(biāo)簽。
MC:集合群落;GCC:海灣合作委員會(Gulf Cooperation Council);Shia=Shiah:什葉(派);Mujahideen:圣戰(zhàn)(者);ISIL:伊拉克和黎凡特伊斯蘭國(Islamic State of Iraq and the Levant);ISIS:伊拉克和大敘利亞伊斯蘭國(Islamic State of Iraq and al Shams)。
這種方法的第一步是搜集關(guān)于某一個問題或某一利益團(tuán)體的社交媒體數(shù)據(jù)——在本例中,有超過2300萬的推特帖子來自于77萬多的ISIL支持者和反對者。領(lǐng)域?qū)<覍λ阉鱅SIL可能的支持者或反對者提出了相關(guān)的搜索詞語建議:搜索短語和標(biāo)簽變體都包括阿拉伯語的“達(dá)伊沙(Daesh,伊斯蘭國)”和“伊斯蘭哈里發(fā)(Islamic Caliphate)”。
因此領(lǐng)域?qū)<业闹庇X就是通過機器閱讀實現(xiàn)機器驗證——將詞法分析技術(shù)應(yīng)用于收集的數(shù)據(jù),然后確認(rèn)對使用“達(dá)伊沙”和使用“伊斯蘭哈里發(fā)”的不同網(wǎng)絡(luò)社區(qū)的區(qū)分是否準(zhǔn)確地分辨出反對者和支持者(下一節(jié)詳細(xì)描述)。在這種情況下,主要的測試都表明,事實上使用“達(dá)伊沙”的社區(qū)同樣會使用貶義詞稱呼ISIL(如“哈里哲派(Kharijites,出走派)”,一個對主流伊斯蘭教的古老反對派的稱謂),同時使用尊敬的詞語稱呼阿拉伯國家和西方世界(如“國際聯(lián)盟”)7。使用“哈里發(fā)”的網(wǎng)絡(luò)社區(qū)使用敬語稱呼ISIL(如“伊斯蘭國的獅子”),使用貶損的稱謂指代阿拉伯國家(如稱呼阿拉伯國家“叛教者(apostates)”,稱呼西方國家“十字軍(crusaders)”等)。這一分析過程是一類非常有效的檢驗措施,意味著這些搜索詞可以作為非常有用的判別參數(shù):一個詞語對另一個詞語在使用方面具有壓倒優(yōu)勢,據(jù)此能夠有效地分辨一個用戶對ISIL的態(tài)度。
注釋7:關(guān)鍵測試涉及某些詞語的發(fā)現(xiàn)頻率的測試和統(tǒng)計重要性的檢測。預(yù)期的詞頻可以使用通用標(biāo)準(zhǔn)檢測(例如有代表性的單語種的語料庫,如開源阿拉伯語語料庫),或者使用特殊標(biāo)準(zhǔn)檢測(例如,針對一般社交媒體交流,每天進(jìn)行廣泛的搜集)。有關(guān)這些技術(shù)的其他背景,參見Scott(2001)。
一旦將社區(qū)檢測算法應(yīng)用于社交媒體數(shù)據(jù),這種詞法驗證將為下一步的重要過程創(chuàng)造條件。推特數(shù)據(jù)(或者其他相似平臺的數(shù)據(jù),如新浪微博)對社交媒體分析工作來說是能夠不斷修正和完善的,因為像回帖、引用和轉(zhuǎn)發(fā)等操作都標(biāo)記了網(wǎng)絡(luò)交互行為。通過描述和分析這些網(wǎng)絡(luò)交互,一種網(wǎng)絡(luò)社區(qū)檢測算法能夠快速地對用戶進(jìn)行分組,將其歸并到互聯(lián)的結(jié)構(gòu)中,但是不能對他們命名,也不能描述他們的特征。該算法只能簡單地發(fā)現(xiàn)社區(qū)1、社區(qū)2,等等。但是“達(dá)伊沙”和“哈里發(fā)”等判決詞能很快標(biāo)記出每個社區(qū)是支持還是反對ISIL的,并將支持者歸并到同一組。
雖然社交網(wǎng)絡(luò)分析用于分析網(wǎng)絡(luò)社區(qū)以及它們之間的交互關(guān)系——“達(dá)伊沙”和“哈里發(fā)”等判決詞用于顯示“支持”或“反對”的立場——從信息戰(zhàn)的角度看,網(wǎng)絡(luò)社區(qū)關(guān)系圖仍是空白,沒有標(biāo)識。不理解對于ISIL持不同立場的各方的特點及關(guān)心的問題,就沒有可行的途徑去影響它們彼此之間的對話協(xié)商。
一個突出的問題是,相對于人的分析能力,推特的微博數(shù)據(jù)池過于龐大。在可擴展性之外,人類的可靠性和偏見等特征仍是分析工作的一個問題??蓴U展的、可靠地表征這些社區(qū)需要對檢測到的社區(qū)的推特內(nèi)容進(jìn)行機器分析。一種解決方案是源于語料庫語言學(xué)的基于機器的分析方法(詞法分析)。詞法分析取決于字頻或字距的統(tǒng)計測試,該方法能顯示文本數(shù)據(jù)的結(jié)構(gòu)。在本例中,對文本數(shù)據(jù)使用了兩種方法:關(guān)鍵字測試和組合測試。關(guān)鍵字識別從統(tǒng)計角度描述了一個文本數(shù)據(jù)集中詞語,并展示出所收集的文本數(shù)據(jù)的主要內(nèi)容。因為關(guān)鍵字加權(quán)由它們的統(tǒng)計異常情況決定,所以關(guān)鍵詞測試在弱信號檢測時具有更高的判決能力。與關(guān)鍵詞不同,搭配詞在統(tǒng)計上非常顯眼,因為它們表示了共同出現(xiàn)的詞語,這些組合詞往往就勾勒出了文本的大意8。
注釋8:比如,地名(“紐約”),人名(“奧巴馬總統(tǒng)”),以及抽象概念(“禁槍”)等。
對于統(tǒng)計頻率很高的關(guān)鍵詞及強相關(guān)的組合詞的自動識別,使得被檢測的網(wǎng)絡(luò)社區(qū)表征為一個公眾:使用共享語言討論一個公共的問題,并持擁護(hù)立場的人們的抽象。舉一個美國大眾都熟悉的例子,設(shè)想一個禁槍的話題。一方面,美國全國步槍協(xié)會是一個持擁護(hù)立場的現(xiàn)實世界的組織實例,但是使用共享語言且致力于將私人擁有武器合法化這一共同目標(biāo)的公眾則是一個更大的抽象。尋求限制武器私有化的持反對立場的公眾也要比任何官方游說組織要大:這是一個關(guān)心某個問題并使用共同的公開信息來影響辯論的公眾組織。
回到我們最初在推特上識別ISIL支持者的例子,社交網(wǎng)絡(luò)分析顯示有4個大的集合群落,對它們使用詞法分析可以定性為元公眾。一個社區(qū)可以通過關(guān)鍵詞及其他組合詞來聯(lián)合標(biāo)注,如沙特的關(guān)注(包括沙特民族主義),對ISIL的世俗或宗教的貶義用語(恐怖主義分子,犯罪和罪孽,逐出教會,混亂等),以及對宗教內(nèi)涵的褒義詞(贊美,榮譽,真理,愛等)。這里的一個關(guān)鍵環(huán)節(jié)是,一個使用詞法分析軟件的分析師,能夠替代一整個閱讀數(shù)百萬推特帖子的分析師團(tuán)隊,他能夠識別識別上百個統(tǒng)計上異常的詞語和短語來表征一個社區(qū)為公眾社區(qū)。以下是本例中發(fā)現(xiàn)的4個大型的網(wǎng)絡(luò)公共社區(qū):
?遜尼派ISIL對手(一些支持者)
?什葉派ISIL對手
?ISIL支持者
?敘利亞圣戰(zhàn)者組織(對ISIL懷有多種復(fù)雜態(tài)度)。
社交網(wǎng)絡(luò)分析和詞法分析一起使用能夠支持更細(xì)粒度的分析,為面向影響特定公眾群體的貌似真實的消息傳播提供經(jīng)驗基礎(chǔ)。表3-2顯示了使用“遜尼元公眾號”識別出來的個體公眾社區(qū)(特別是以國籍身份和以所關(guān)注話題組織起來的社區(qū)),以及每個社區(qū)的關(guān)注點和興趣話題。
每個公共社區(qū)的話題和關(guān)注點為可能真實的消息傳送策略及有針對性的社區(qū)成員宣傳策略提供了經(jīng)驗基礎(chǔ)。在這里,我們重點強調(diào)該方法的可擴展性和誘導(dǎo)價值。這是一個分析師數(shù)天的工作量,而不是一個團(tuán)隊花費數(shù)月去閱讀成千上萬條的推特貼子。而且由于分析工作完全依賴于用戶所產(chǎn)生的社交媒體數(shù)據(jù),反映美國文化假設(shè)和優(yōu)先的要旨難以有植入的機會,因此更加客觀公正,分析工作可以在一個合適的粒度層面上來完成。
表3-2 推特中遜尼派公眾對ISIL的反對/支持分析
來源:蘭德公司針對推特2014年7月至2015年5月數(shù)據(jù)的分析。
本節(jié)詳細(xì)介紹針對一個網(wǎng)絡(luò)集團(tuán)在某一合適的地理粒度上對消息隨時間推移的傳播接受情況的跟蹤方法。這里提及的概念驗證研究主要用于跟蹤2014年埃及ISIL和穆斯林兄弟會成員中世界觀相關(guān)的信息傳播和接受情況。該方法有巨大的潛力來衡量有效性,包括友好消息傳輸方面的工作。
該方法的基礎(chǔ)是語言和世界觀之間不可分割的關(guān)系,語言反映了世界觀,反之,世界觀也通過語言塑造。在爭議性議題的語言表達(dá)上,我們可以很清楚地看到這種關(guān)系。在論述某一特定話題過程中一直使用的詞匯不是簡單地反映意識形態(tài);它們的使用同樣有助于通過包裝世界性問題和事件來促進(jìn)意識形態(tài)的流通和傳播。因為如果我們能夠?qū)姷挠懻撛跀?shù)量方面建模,我們就能夠跟蹤通過語言表達(dá)的世界觀的接受情況。
該方法的第一步是建立一個面向公眾談話的加權(quán)語言模型。在這個例子中,它是一個極端組織,但它可能只是一條戰(zhàn)斗命令和這條命令的區(qū)域傳播。在這個概念驗證例子中,分析師從ISIL和穆斯林兄弟會(每個組織約30000詞匯)的公開談話中搜集數(shù)據(jù),然后使用關(guān)鍵詞和詞語組合對數(shù)據(jù)集進(jìn)行測試。這樣每一個集團(tuán)就會產(chǎn)生基于大約100個左右的統(tǒng)計關(guān)鍵詞和20個左右的雙詞組合的語言模型。為了幫助對我們所指的加權(quán)語言模型進(jìn)行概念化描述,表3-3給出了一些關(guān)鍵詞示例、對數(shù)相似度以及每個單詞的英語翻譯。
在這個特殊的測試中,對數(shù)相似度大于11表示很重要。在表3-3中,某些詞如伊拉克(Iraq)或沙姆(Sham)的兩位數(shù)的值表示它們被大量使用,并且能夠被檢測到,而數(shù)百的對數(shù)相似度(如拉菲達(dá)(Rafidhi))則是非常強的語義信號,表示整篇文本主要描述的內(nèi)容。超過1000的分?jǐn)?shù)顯示了高度專業(yè)化的談話,是一個標(biāo)志性的信號:在努力理解ISIL交流信息的時候,從定性分析的角度看,像薩法維(Safavid)這樣的詞語可能不是一個頂級話題,但是從檢測弱信號(如效果和影響)的經(jīng)驗角度看,這樣一個出乎意料的高頻詞應(yīng)該是一個強有力的分析抓手。
表3-3 ISIL和穆斯林兄弟會關(guān)鍵詞示例,對數(shù)相似度排序
注:對于對數(shù)相似度,臨界值是10.83(0.01%,p<0.001)。在這個例子中,最小頻率是20。為了解釋本表中的對數(shù)似然(LL)值,我們設(shè)想LL>11表示統(tǒng)計重要,11和1000之間表示極高級別的關(guān)鍵程度(高點位的談話),分值大于1000表示指向極端專業(yè)化談話的關(guān)鍵詞。
有了信號模型的幫助——針對薩法維集團(tuán)(Safafist groups)談話信息的定量加權(quán)模型,下一步是檢測模型和公眾談話內(nèi)容的一致程度:這些集團(tuán)在傳播他們的信息方面是得勢還是失勢。
給定一個極端組織的談話的語言模型,有可能看到普通人群中的社交媒體用戶和談話內(nèi)容的匹配程度——定量匹配出一個網(wǎng)絡(luò)群體的話語在整個話語市場的共享程度。設(shè)想一下在私人擁有槍支這個問題上對美國東北部的社交媒體進(jìn)行監(jiān)控。
每一季度,針對以下詞語的使用都在不斷增加,例如:大規(guī)模射殺、無謂殺戮、無辜等,而以下詞語則使用較少,如:負(fù)責(zé)任的所有權(quán)、第2修正案權(quán)利、犯罪等字眼。這強有力的表明了有一方在公眾輿論中正得勢,至少能從中知道這個討論是關(guān)于槍支危險的,而不是關(guān)于公民自由的9。一般的分析過程如下:
注釋9:我們注意到這種方法不能讓我們回答為什么會發(fā)生這種改變,只能讓我們看到發(fā)生了改變。如果要了解其中的因果關(guān)系則需要其他方法。
?從一個有意義的地理人口中搜集社交媒體數(shù)據(jù)。在我們的主要案例中,數(shù)據(jù)源主要來自2014年埃及四個區(qū)域的推特數(shù)據(jù):西奈、亞歷山大及濱海地區(qū)、上埃及、開羅和尼羅河三角洲。在該例中,在對用戶所在區(qū)域進(jìn)行地理推斷時既使用了城市名稱也使用了省的名稱,這使得數(shù)據(jù)量翻了一番,但是,當(dāng)回查地理標(biāo)簽數(shù)據(jù)時,得到的是80%準(zhǔn)確度的更低可信度的邊界。
?根據(jù)對語言模型的匹配的統(tǒng)計數(shù)據(jù),對推特用戶簡訊進(jìn)行打分。每一位推特用戶的簡訊都可以根據(jù)其與語言模型的匹配程度進(jìn)行打分(如ISIL和穆斯林兄弟會):
–給定了用戶推文中出現(xiàn)詞語的總數(shù),以及所有推文中的關(guān)鍵詞和搭配詞的頻率/平均值之后,還需要針對每一用戶,將其所有推文中全部關(guān)鍵詞和搭配詞出現(xiàn)的相似度進(jìn)行統(tǒng)計求和,并計算期望值。
–結(jié)果值是對匹配有多可能是隨機的匹配的判據(jù):
?高:意味著一個帳戶使用了比隨機概率期望值高出500%的模型語言(ISIL和穆斯林兄弟會)。
?中:意味著一個帳戶使用了比隨機概率期望值高出300%的模型語言,但是低于500%。
?低:意味著一個帳戶使用了比隨機概率期望值高出50%的模型語言,但是低于300%。
?無:意味著一個帳戶的語言反映了隨機概率的水平。
?描繪出隨時間變化的圖形。在用戶層量化確定的高、中、低、無級別的匹配可以在地域級進(jìn)行匯總:一一種衡量一個網(wǎng)絡(luò)群體消息傳播的擴散程度等級的方法。經(jīng)過逐個季度的比較,既能測量消息隨時間傳播的有效程度,也可以對各種傳播方式進(jìn)行優(yōu)先性排序。
這個例子中,在2014年度,ISIL和穆斯林兄弟會在亞歷山大和開羅地區(qū)保持了很低的匹配度——這對美國來說是一個好消息。但是在西奈和上埃及地區(qū),ISIL擁有高度和中度的共鳴匹配度,相比這下,穆兄會則失去了不少的人氣。本質(zhì)意義上,ISIL在這兩個地區(qū)獲得了市場份額——對美國來說是壞消息,圖3-2和圖3-3顯示了市場份額的這個變化。
圖3-2 埃及ISIL的語音共鳴,2014
為什么某些極端分子的消息傳送策略能夠成功,而其他一些極端分子會失???美國國防部能夠成功分析其成功的原因,獲取其中的關(guān)鍵技術(shù)并指導(dǎo)信息戰(zhàn)嗎?是否能夠明白為什么某些敵方的消息傳送方式具有特別的功效,并學(xué)習(xí)如何使自己的消息傳播更有效,而不管是使用什么媒體來傳播?立場分析著眼于社交媒體消息傳送,揭露消息傳播中的語言細(xì)節(jié),以便更好地理解它是如何工作的。這類似于情感分析,但它更詳細(xì)和復(fù)雜。本章中先前所討論的方法中使用詞法分析(在詞匯的數(shù)量和頻率層面進(jìn)行統(tǒng)計檢驗),這個方法在詞語種類的層面使用數(shù)量和頻率的統(tǒng)計檢測方法。關(guān)于詞語種類,我們所指的意思可舉例說明如下:如未來和過去、情感(例如憤怒、悲哀、害怕、主動等)、確定性、價值、社交關(guān)系等。將多種詞語整合到若干個主題中,能夠?qū)崿F(xiàn)某個目標(biāo),并能揭示某些可檢測的信號。比如,當(dāng)談及未來和希望的時候,這會是一種激勵人的策略,和談及過去和歷史錯誤的選項具有顯著的區(qū)別。經(jīng)過對詞類的頻率、分布和協(xié)方差等的統(tǒng)計檢測,基于計算機的分析方法能夠在細(xì)節(jié)層面檢測到相關(guān)主題和消息傳送方式。
圖3-3 埃及穆斯林兄弟會的語音共鳴,2014
作為例證,假設(shè)一個新上任的人力主管將一份備忘錄發(fā)送給中心的每一位正式職員。該備忘錄收到了很差的效果:備忘錄的本意是激勵員工共同努力彌合分歧,但是相反,它起到了反作用,使員工對這位新的主管產(chǎn)生了極大的憤怒。當(dāng)員工被問及的時候,都會將矛頭指向那份備忘錄——它看起來疏遠(yuǎn)且傲慢。為什么顯得“傲慢”?仔細(xì)檢查文中的用詞就會發(fā)現(xiàn),備忘錄中充斥著第一人稱和第二人稱單數(shù)名詞,但通篇缺少第一人稱復(fù)數(shù)名詞:當(dāng)提及解決方案時總是說“我”,當(dāng)談到問題時總是說“你”,談任何事情從來不用“我們”。盡管人力主管沒有意識到這個問題,久而久之,這種方式的遣詞也會在讀者中產(chǎn)生較強的對立情緒。對于像單一記錄這樣的,由話語分析師經(jīng)手的分析會非常高效和有用。但是對于海量的社交媒體數(shù)據(jù),計算機分析還是必要的。
為了測試這種方法,我們對從四個極端組織搜集的社交媒體數(shù)據(jù)集進(jìn)行了演示分析:伊拉克和黎凡特伊斯蘭國(ISIL)、勝利陣線(al-Nusrah Front)、阿拉伯半島的基地組織(AQAP)和圣戰(zhàn)組織(Ansar al-Sharia)10。我們使用經(jīng)過翻譯了的這些組織在2014年第四季度的三個月的社交媒體數(shù)據(jù)11。然后,我們用最先進(jìn)的(截至2015年)的情感分析軟件對每個語料庫詞語種類頻率進(jìn)行處理,同時對此進(jìn)行頻率、分布和協(xié)方差的統(tǒng)計測試,以檢測不同組織之間差別,和每個組織內(nèi)部交流用語中不同結(jié)構(gòu)特征間的差別。
注釋10:我們注意到:這個分析方法是初步的,是作為一個方法的概念驗證實施的。該數(shù)據(jù)池相對較小(極端組織三個月的社交媒體數(shù)據(jù)輸出),而且分析使用了翻譯文字。盡管有初步的證據(jù)表明在這個分析過程中使用的翻譯軟件運作良好,我們強烈質(zhì)疑分析結(jié)果的準(zhǔn)確性。本節(jié)的目標(biāo)是展示方法,不是使用該方法探索產(chǎn)生的某些特定發(fā)現(xiàn)。
注釋11:這個分析方法使用的數(shù)據(jù)是從SITE情報組織商業(yè)化訂閱的,該組織是一個從事伊斯蘭圣戰(zhàn)分子監(jiān)控和分析的實體組織。
為了演示說明,我們詳細(xì)描述這個分析過程中的一個發(fā)現(xiàn):當(dāng)我們使用探索性因子分析法尋找潛在的主題結(jié)構(gòu)時,我們發(fā)現(xiàn)ISIL和勝利陣線有3個因子(說服性主題、個人宣誓、共同關(guān)注的社會焦點問題),而基地組織的社交媒體數(shù)據(jù)有一個因子(技術(shù)性問題的竅門指導(dǎo))。探索性因子分析法將一組變量間的相關(guān)性看作一個單一的潛在因子,通過數(shù)據(jù)集中的協(xié)方差,檢測其中的潛在性因子。在文本分析中,一篇普通的“當(dāng)你變老,它會更好”的演講可能看起來更像面向未來的積極談話和安慰性語言的交織。下面的例子勾勒了導(dǎo)致基地組織(AQAP)的公共社交媒體語言顯著區(qū)別于勝利陣線(al-Nusrah)和ISIL的幾個因子12。
注釋12:圣戰(zhàn)組織(Ansar Al-Sharia)沒有能探測到的因子——該組織的講話通常前后不一致,缺乏重復(fù)連貫的戰(zhàn)略。
基地組織(AQAP)顯著的判別因子是“信息性”(informational):共享技術(shù)、概念性知識和報告重要事件。這主要源于從網(wǎng)絡(luò)空間作戰(zhàn)到規(guī)避熱探測的技術(shù)指導(dǎo)。例如:
這一幕顯示了一群圣戰(zhàn)分子在一條狹窄的通道里試圖躲避航空照像機的畫面,但是熱成像記錄儀清晰地顯示了他們的身體,特別是飛機在低空的位置時。因此,看來解決方案是對航空照像機隱藏身體的熱能。美國人將這項技術(shù)叫做熱絕緣。熱絕緣技術(shù)在我們很多的日常工具中都有應(yīng)用,比如熱水瓶。熱水瓶在內(nèi)部維持水的溫度不變,因為它里面的絕緣材料能阻止熱量向外面逃逸。而且,電冰箱,或者也稱之為冷藏柜,保溫茶壺,或者恒溫的集裝箱等,都使用了熱絕緣的技術(shù)。
同樣的模式在信息報告中也可以見到:
上周四,在南也門阿比揚省,一名胡塞武裝分子死于南也門阿比揚省圣戰(zhàn)組織的狙擊。上周四的上午10時,阿比揚省的圣戰(zhàn)組織新聞記者報道了該事件,伊斯蘭教圣戰(zhàn)者組織的一名成員狙擊了駐扎在阿比揚省al-Mahfad地區(qū)的第39裝甲旅的一名士兵。
ISIL和勝利陣線(al-Nusrah)有3個相同的潛在因子。與基地組織共享信息的技術(shù)方法不同,ISIL和勝利陣線(al-Nusrah)在社會文化領(lǐng)域勸導(dǎo)他們的聽眾時使用目的性很強的信息策略。
超越:前景更美好
勝利陣線(以及ISIL)使用類似的擴張戰(zhàn)略。也許與直覺相反,他們的主導(dǎo)宣傳策略并不包括負(fù)面的或仇恨的言論,而是專注于正面價值和宣傳的熱烈的、面向未來的談話13。例如:
注釋13:與之相反,圣戰(zhàn)組織和ISIL不使用這種策略。
誰想支持真主安拉、偉大和全能的神,就讓他宣誓效忠這個哈里發(fā)。誰若希望真主的伊斯蘭教,偉大和全能的伊斯蘭教得到普世運用,就讓他宣誓效忠這個哈里發(fā)。真主安拉、偉大和全能的神,現(xiàn)在就能分辨誠實和謊言。
個人請求和宣誓
雖然ISIL的特征是不使用主語“我”講話,但是它和勝利陣線(aL-Nusrah)在表達(dá)人際間的請求意愿時也會使用“我”說話,例如像這樣一種有說服力的證詞14:
注釋14:這一策略從基地組織社交媒體談話中丟失了。
我對我提到的事實作證。我會強調(diào)我的眼睛所看到的,我的耳朵聽到的,我的心感知到的,我會告訴你我所學(xué)到的。第十:我問你,以真主安拉的名義,沒有上帝,只有他,把這個談話轉(zhuǎn)達(dá)給族長和沙姆(敘利亞)及其他地區(qū)的領(lǐng)導(dǎo)人。
一條統(tǒng)一陣線
在這兩個組織的交流談話中另一個重要的潛在因子是社會承諾和包容性的“我們/我們的”談話的組合。這些演講經(jīng)常是重復(fù)性的(在阿拉伯語境中是真誠的標(biāo)志),而且是非常依賴于宣誓效忠或忠誠的理念:
以真主安拉的名義,最光榮的、最仁慈的伊斯蘭國,祈福真主阿布·貝克爾·巴格達(dá)迪,我們都誓言效忠于他,我們國家的埃米爾是勝利!伊斯蘭國家,祈福真主阿布·巴克爾·巴格達(dá)迪,我們都誓言效忠于他,國家的埃米爾,我們的國家,是勝利!他們正在爭取勝利!他們使用迫擊炮和機關(guān)槍來迫使他們所有人都下跪。我們的國家是勝利!伊斯蘭國家,祈福真主阿布·巴克爾·巴格達(dá)迪,我們都發(fā)誓效忠于他,國家的埃米爾,我們的國家是勝利!穆斯林,你準(zhǔn)備好了嗎?在經(jīng)歷了數(shù)百年的苦難之后你將獲得自由。我們的國家是勝利!
我們從這一概念驗證分析中得到的啟示是:基于計算機來分析海量社交媒體數(shù)據(jù)能夠為信息戰(zhàn)諜報提供關(guān)于敵方信息交流方面的信息。在這種情況下,分辨出敵方采用的擴張或主題性策略是有力的一個步驟,它能夠為消息傳送的反制提供支持。
該方法結(jié)合使用數(shù)據(jù)源地理信息和軟件來進(jìn)行圖像分類和地圖繪制,從而自動化的對海量社交媒體數(shù)據(jù)集中的圖片分類和映射。最后,這有助于信息戰(zhàn)指揮員搞清楚當(dāng)?shù)孛癖娛裁聪敕ㄗ钪档梅窒恚ū热纾ㄜ囌掌?、軍服、模因、卡通等),以及他們在什么地域分享信息:人們希望在特定的地點基于社交媒體分享什么樣的直觀的信息?而本章介紹的其他方法是試圖解決文本流問題——海量的文本數(shù)據(jù)超過了人的閱讀和分析能力——該方法為圖像數(shù)據(jù)提供同樣的解決方案,我們期望的這一數(shù)據(jù)類型只有隨著全球范圍移動設(shè)備的普及和網(wǎng)絡(luò)容量的增長才能在數(shù)量上持續(xù)增加。我們認(rèn)為該方法具有巨大潛力,主要基于以下理由:
?它主要面向遠(yuǎn)程數(shù)據(jù)采集,成本低,不會給其他資產(chǎn)帶來風(fēng)險。
?它開發(fā)了一條額外的數(shù)據(jù)流,該數(shù)據(jù)流隨著社交媒體普及的增長而增長。
?它解放了專家進(jìn)行人工分析的時間和精力。
?影像能夠包涵豐富的文化信息,并且可能在識字率很低的區(qū)域具有特別寶貴的價值。
?這是一種眾包的方式,對信息環(huán)境非常重要:它將影像置于那些當(dāng)?shù)孛癖娬J(rèn)為值得分享的地方。
我們注意到,這是個區(qū)分信息戰(zhàn)和情報工作的很好的例子。該方法能作為宣傳作戰(zhàn)的一部分來使用(當(dāng)?shù)孛癖娮铌P(guān)心的文化和政治問題是什么?),但它能非常簡單的用于搜集戰(zhàn)場情報(我們在哪里能看到更多的用于分享的坦克、卡車、武器和軍服的照片?)。將其區(qū)分為信息戰(zhàn)行動的并不是方法,而是被問的問題和意圖。
該方法的第一步是通過地理標(biāo)記或地理推理15搜集本地的社交媒體數(shù)據(jù)。兩種選擇各有優(yōu)點:
注釋15:我們注意到移動終端在各個國家有很大的不同,地理標(biāo)記和地理推理所用的數(shù)據(jù)量也會不同。因此,該方法的可用性在世界不同的地方也會有所不同。
?僅使用地理標(biāo)記的數(shù)據(jù)能得到地理位置的較高準(zhǔn)確度和細(xì)粒度。我們可以確切地知道社交媒體數(shù)據(jù)從哪里來,并在地圖上將該位置標(biāo)記為可能的分析部分(例如,城市或社區(qū))。然而,由于大多數(shù)社交媒體數(shù)據(jù)都沒有地理標(biāo)記,這可能限制了用于分析的社交媒體數(shù)據(jù)的數(shù)量。而且由于游客往往會在移動設(shè)備上打開地理定位功能,這也可能會導(dǎo)致他們的圖片使樣本產(chǎn)生偏差。
?地理推理(例如,在用戶的位置字段使用城市和省名)可以以較高水準(zhǔn)的地理精度來捕獲更多的數(shù)據(jù)。然而,它具有有限的粒度。在前面所述的在埃及社交媒體數(shù)據(jù)上跟蹤信息擴散的例子中,80%的準(zhǔn)確率只是在國家區(qū)域的水平上。
基于這樣一組社交媒體數(shù)據(jù),圖像的URL可以剝離出來,附帶有位置元數(shù)據(jù)的圖像數(shù)據(jù)可以搜集下來,留下一堆海量的未分類的當(dāng)?shù)孛癖娬J(rèn)為值得分享的圖像數(shù)據(jù)。下一步是使用計算工具對這些圖像進(jìn)行排序和分類。
下一步是使用圖像分類軟件對圖像數(shù)據(jù)集進(jìn)行分類。在寫這篇文章的時候,深度神經(jīng)網(wǎng)絡(luò)(DNNs)是一種很有前途的方法,它將圖像分成若干個抽象的層次,附帶兩個說明:
?處理能力。不像前面討論的文本分析方法,圖像分類是一類需要大量計算的任務(wù),如果要使圖像分類計算可行,就需要并行計算陣列(相對于單個桌面系統(tǒng))的支持。在我們的例子中,搜集2周2015年推特和臉書中非洲范圍的帶有地理標(biāo)簽的共享圖像,會得到283000幅圖像。這需要大約三天時間的并行計算來處理。
?分類準(zhǔn)確性。在圖像分類的精確度和粒度之間存在一個平衡問題。在低層次的粒度上(例如“車輛”),目前的技術(shù)是非常準(zhǔn)確的。但是在更精細(xì)的粒度級別(例如,“坦克”和“卡車”),準(zhǔn)確性會降低。
在這個過程的最后一步是使用繪圖軟件繪制這些圖像,可視化展示哪些組織在分享信息。而且由于這些數(shù)據(jù)有時間戳,我們也可以看到一段時間內(nèi)的變化。為了演示這種方法如何支持信息戰(zhàn),可以考慮圖像數(shù)據(jù)怎樣指向關(guān)聯(lián)的社會文化和政治問題及其內(nèi)涵。在本節(jié)討論的分析方法中,分類器發(fā)現(xiàn)了許多“漫畫書”,最后發(fā)現(xiàn)是政治漫畫16。這類圖像和其他類別的圖像可能會在幫助了解本地信息環(huán)境、當(dāng)?shù)孛癖娺x擇共享什么內(nèi)容、以及從哪里共享這些圖像等方面有重要價值。
注釋16:這突出顯示了圖像分類軟件當(dāng)前的一些局限。雖然漫畫書和政治卡通書對人來說是兩類不同的體裁,但它們卻有相似的視覺特征。機器在進(jìn)行圖像分類時,使用不同的特征參數(shù)會有不同的開銷和限制。
圖3-4是使用深度神經(jīng)網(wǎng)絡(luò)(DNN)工具顯示自動檢測圖像的屏幕截圖,根據(jù)目標(biāo)類別(政治漫畫、建筑和車輛)和地理定位形成的圖像共享地圖。
能夠直觀地看到在什么地方、以及多大密度上人群關(guān)注的某個社會問題正在被“討論”,是一種高效的方法來理解和發(fā)現(xiàn)信息環(huán)境中的動態(tài)變化。
圖3-4 基于類型和地理位置的圖像共享
原文鏈接: https://www.rand.org/pubs/research_reports/RR1742.html 翻譯人員:劉江寧 郭長國 王曉斌
(部分文字、圖片來自網(wǎng)絡(luò),如涉及侵權(quán),請及時與我們聯(lián)系,我們會在第一時間刪除或處理侵權(quán)內(nèi)容。電話:4006770986 負(fù)責(zé)人:張明)