| Session J1:Big Data與資料探勘
論文作者:林熙禎、黃嘉偉、楊佩臻
本研究使用圖形化摘要方法萃取多文件摘要,為指標表示方法(Indicator Representation Approaches)的一種,將文件切割成較小的片段表示,本研究採用文句表示。而利用此較小之片段建立起圖形關聯網路後使用分群與數種鏈結分析方法,對文句節點進行評分並將其群集權重納入評分的考量,最後取評分高的文句製作成摘要。
實驗採用DUC 2002 以及TAC2010 之資料集測試系統效能,並以ROUGE 衡量摘要品質;經實驗證明,本研究之多文件摘要方法在不同的摘要任務下品質皆具有一定水準,在DUC 2002 之50 字與100 字多文件摘要ROUGE-1 值分別可達0.2996 與0.3412,與當年研討會之參賽者之效能近似,而200 字多文件摘要ROUGE-1 值亦有0.4559,具有中等效能;在TAC 2010 之GuidedSummarization 第一部分之ROUGE-1 值可達0.3513,超越所有當年參賽者。 |