| Session J2:Big Data與資料探勘
論文作者:蔡明勳、張維元、王傳啟
在網路資訊蓬勃發展的現代,部落格已經成為資訊傳播的重要管道,透過方便及快速的發佈,提
供了一個討論許多議題的平台,進而刺激背後龐大的商機。但也因為其便利性,導致有心人士透過此管道來散佈不實廣告與垃圾資訊。本研究基於真實資料的角度,透過觀察垃圾訊息特性,分析垃圾訊息與該作者的分佈關係,提出一個以機器學習基礎的垃圾訊息散佈者階層式偵測方法。透過階層式的偵測,除了可以有效並自動地判斷垃圾訊息,也能進一步挖掘出隱藏在垃圾訊息背後的散佈者。最後,本研究利用痞客邦的開放資料[1]作為實驗分析的資料集,證明此方法對垃圾訊息散佈者有近九成的偵測率,預期將來可以提供部落格網路服務業者實務上的需求,達到有效地預防對使用者造成困擾的不實廣告與垃圾資訊。 |