Page 40 - 清流雙月刊 NO.12
P. 40
駭客入侵 無孔不入的國安危機
資訊對於執法機關而言都是相當珍貴且有 程 式 介 面(Application Programming Interface,
用的訊息。 API)方便研究人員擷取該網站上的資料,
至於沒有提供 API 的社群網站,例如 PTT
然而如同在砂礫中找尋珍珠般,這項
(批踢踢實業坊),我們可以使用專為處
工作無法單靠人力來完成,必須仰賴電腦
理大量資料而開發的程式語言(Python 或
的人工智慧來發掘不易發現的線索,隨之
是 R language)提供的套件輕鬆蒐集資料。
而來的技術就是社群網路語意分析。一套 以往繁複的資料蒐集工作並沒有隨著資料
完整的社群網路語意分析系統包含下列 4 量指數型遞增而越發困難,相對地開發者
項步驟:資料蒐集、資料整理、資料分析 則是擁有越來越多便捷的開發工具。
及資料呈現,如下圖所示。
資 料 整 理 則 是 在 做 資 料 清 洗(Data
資料蒐集其實就是網路爬蟲,針對我 Cleaning)。第一階段蒐集完資料後,並非
們鎖定的目標,持續性地透過程式蒐集相 所有資料都是有用的,必須汰除不需要以
關資料。現在熱門的社群網路,像是臉書 及冗餘的資料,並且將資料正規化以利下
及推特(Twitter),皆有推出相對應的應用 一階段資料分析。
網路爬蟲
資料整理
社群網路
資料呈現
資料分析
38 清流雙月刊