虛擬講堂進入演講
講 題基於深度學習之人聲辨識探討資料集組成與測試正確 率之關聯性
講 者國立臺北科技大學資訊工程系 尤信程
日 期2018/10/24長 度00:12:07人 氣109 次
摘 要
許多的音樂處理系統經常需要知道歌曲中有
人聲存在的片段,作為進一步分析的基礎。在本
論文中,我們希望研究音樂資料集的組成,對於
有無人聲辨識正確率的影響。首先我們蒐集了許
多不同音樂種類、曲風的音樂檔案,並且人工標
註是否有人聲存在,作為真實數據標註(groundtruth
label)。接下來再分別利用不同的深度學習架
構,對這些音樂片段來進行訓練與預測。透過實
驗結果來比較各種情況下,音樂資料集的組成特
性與內容,或是對音樂片段進行預處理,會對測
試正確率造成什麼影響。此外在論文中也透過蒐
集各類模型預測錯誤的音樂片段,並藉此提出了
一個較具難度與鑑別力的測試資料集,供於實驗
的測試與比較。我們實驗結果發現,即使訓練資
料量較少,使用卷積神經網路(convolutional neural
networks)依 然 可 以 學 習 到 音 樂 中 簡 單 的 樣 式
(pattern),達到70% 左右的測試正確率。此外,在
測試正確率達到一定水準時,若想透過數據增強
(data augmentation)的方式來增加訓練資料,或對音
樂資料進行能量的正規化,都未必能夠進一步的
提升測試正確率。因此想要有效提升正確率,還
是必須對預測對象的組成方向與內容(例如都是目
前流行的西洋音樂)有足夠的了解,再以此來組成
訓練資料,才是最有效的方式。
提 供TANET台灣網際網路研討會-TANET2018
進入演講