ノイズ除去の評価レポート
2025年12月28日更新
ノイズ除去の評価レポート。セットアップ、指標、考察、再現手順を紹介。
仮説
音声の前処理によりノイズを除去すると、合成音声の認識精度が向上する。
実験方法
合成音声のデータセットは"J-SpAW"、合成音声の認識モデルは"AASIST"、ノイズ除去に使用したパケージは"noisereduce"である。
ノイズの除去に使用した
実験結果
ノイズ除去を適用する前のASVとLAを比較した際のEERは52.3750%。
ノイズ除去を適用する前のASVとPAを比較した際のEERは66.5179%。
ノイズ除去を適用した後のASVとLAを比較した際のEERは58.2500%。
ノイズ除去を適用した後のASVとPAを比較した際のEERは45.4405%。
ノイズのみの音声を利用した前のEERは51.8750%。
ノイズのみの音声を利用した後のASVとPAを比較した際のEERは66.6984%。
考察
実験結果より、ノイズを除去したことでLAのEERは4%ほど精度が向上したが、PAの精度は50%を割ってしまい、ランダムな判定よりも悪い結果となってしまった。 これは、ノイズを除去したことがあまり効果がなかったと考えることもできるが、もともとノイズを除去する前も精度が低かったとこから、使用しているモデルが学習に使用している音声データとのドメインミスマッチが発生していたと考えることができる。 そのため、次回の実験では、ドメインミスマッチを解消するために、ASV-LA間でモデルのトレーニングを実行してモデルの作成から行いたいと考える。
参考文献
- PyTorch Contributors. "torch.nn.Conv2d — PyTorch 2.5 documentation." PyTorch Documentation. https://docs.pytorch.org/docs/stable/generated/torch.nn.Conv2d.html (閲覧日 2025-11-07)