虛擬講堂進入演講
講 題運用二階段分散式分群於輿情探勘
講 者中原大學 吳誌航
日 期2015/10/22長 度00:07:50人 氣506 次
摘 要
Session J2:Big Data與資料探勘

論文作者:吳誌航、洪智力、樓逸軒、古宣佑、吳李祺
本研究運用二階段分散式分群的運算方式自動找出輿情事件,輿情(public opinion)又稱公眾意見,傳統探勘輿情的作法乃針對靜態資集,使用統計分群技術,如K 平均法(k-means),或是採用機率模型, 如隱含狄利克雷分布(latent Dirichletallocation; LDA),歸納資料中的熱門事件。輿情探勘必須面臨大量且變動的資料,然而文獻上的作法,受限於高維度的詛咒(curse of dimensionality)而減損其實用價值。本研究運用二階段自我組織類神經網路(two-stage self-organizing map; TSSOM)於資策會分散式運算架(distributedcomputingframework; DCF)上,DCF 提供TSSOM 自動運算與分散處理的方式,第一階段SOM 將大量的資料分散式處理,運用分而治之、各個擊破的運算技巧,提高處理資料量的規模。第二階段SOM 整合第一階段分群所得到的結果顯示輿情事件。本研究以傳統的一階段分群法為比較對象,發現本研究所提出的方法在運算時間及記憶體耗用上,較傳統的一階段分群方法更有效率,並能得到不錯的顯示結果。
提 供TANET台灣網際網路研討會-TANET2015
進入演講