| Session J1:Big Data與資料探勘
論文作者:壽大衛、王安定
在大數據的時代裡,透過電腦產生的資料量正以巨量的程度直線成長,其中尤以非結構化文字的
形態數量最為驚人。如何利用自動化文字探勘技術應用於非結構化資料之處理,並輸出有用的預測或趨勢資訊,已成為近年來熱門的討論與研究議題。
法院的判決書也是非結構化文字資料的一種,對於此類非結構化資料如何以文字探勘技術去分析、建構判決書分類模型及以回歸統計方式導出量刑公式,以公平的量刑對待被告,是本文主要研究之目的。在法院的案件類型中,以毒品判決之犯罪類型最為多元化,其刑度之輕重範圍也最廣。
因此,本文將以法院毒品判決書為文字探勘對象,利用TF-IDF、N-gram、統計回歸及CRISP-DM
等技術與研究方法,嘗試探求判決書分類之關鍵字詞,以提供建構自動化判決書分類及將文字資訊轉為數值化使用,並利用統計線性回歸方法,提出量刑參考公式及因應修法後如何調整量刑模型參數,以呈現出探勘法院判決書之價值與知識。最後,為了美好的將來,本文將提出相關刑事政策及立法方向之建言,期盼可降低目前社會日益嚴重之毒品犯罪現象。 |