知識大講堂

虛擬講堂

進入演講

講題

基於深度學習之人聲辨識探討資料集組成與測試正確率之關聯性

講者

國立臺北科技大學資訊工程系尤信程

日期

2018/10/24

長度

00:12:07

人氣

109 次

摘要

許多的音樂處理系統經常需要知道歌曲中有
人聲存在的片段，作為進一步分析的基礎。在本
論文中，我們希望研究音樂資料集的組成，對於
有無人聲辨識正確率的影響。首先我們蒐集了許
多不同音樂種類、曲風的音樂檔案，並且人工標
註是否有人聲存在，作為真實數據標註(groundtruth
label)。接下來再分別利用不同的深度學習架
構，對這些音樂片段來進行訓練與預測。透過實
驗結果來比較各種情況下，音樂資料集的組成特
性與內容，或是對音樂片段進行預處理，會對測
試正確率造成什麼影響。此外在論文中也透過蒐
集各類模型預測錯誤的音樂片段，並藉此提出了
一個較具難度與鑑別力的測試資料集，供於實驗
的測試與比較。我們實驗結果發現，即使訓練資
料量較少，使用卷積神經網路(convolutional neural
networks)依然可以學習到音樂中簡單的樣式
(pattern)，達到70% 左右的測試正確率。此外，在
測試正確率達到一定水準時，若想透過數據增強
(data augmentation)的方式來增加訓練資料，或對音
樂資料進行能量的正規化，都未必能夠進一步的
提升測試正確率。因此想要有效提升正確率，還
是必須對預測對象的組成方向與內容(例如都是目
前流行的西洋音樂)有足夠的了解，再以此來組成
訓練資料，才是最有效的方式。

提供

TANET台灣網際網路研討會-TANET2018

進入演講