Page 40 - 清流雙月刊 NO.12
P. 40

駭客入侵 無孔不入的國安危機







            資訊對於執法機關而言都是相當珍貴且有                                  程 式 介 面(Application Programming Interface,
            用的訊息。                                               API)方便研究人員擷取該網站上的資料,
                                                                至於沒有提供 API 的社群網站,例如 PTT
                 然而如同在砂礫中找尋珍珠般,這項
                                                                (批踢踢實業坊),我們可以使用專為處
            工作無法單靠人力來完成,必須仰賴電腦
                                                                理大量資料而開發的程式語言(Python 或
            的人工智慧來發掘不易發現的線索,隨之
                                                                是 R language)提供的套件輕鬆蒐集資料。
            而來的技術就是社群網路語意分析。一套                                  以往繁複的資料蒐集工作並沒有隨著資料
            完整的社群網路語意分析系統包含下列 4                                 量指數型遞增而越發困難,相對地開發者

            項步驟:資料蒐集、資料整理、資料分析                                  則是擁有越來越多便捷的開發工具。

            及資料呈現,如下圖所示。
                                                                     資 料 整 理 則 是 在 做 資 料 清 洗(Data

                 資料蒐集其實就是網路爬蟲,針對我                               Cleaning)。第一階段蒐集完資料後,並非
            們鎖定的目標,持續性地透過程式蒐集相                                  所有資料都是有用的,必須汰除不需要以

            關資料。現在熱門的社群網路,像是臉書                                  及冗餘的資料,並且將資料正規化以利下

            及推特(Twitter),皆有推出相對應的應用                             一階段資料分析。












                                                            網路爬蟲






                                                                                         資料整理
                             社群網路



















                                    資料呈現
                                                                                資料分析







            38 清流雙月刊
   35   36   37   38   39   40   41   42   43   44   45