Please use this identifier to cite or link to this item: http://dx.doi.org/10.14279/depositonce-15890
For citation please use:
Main Title: Visualization and auralization of features learned by neural networks for musical instrument recognition
Translated Title: Visualisierung und Auralisierung von durch neuronale Netze gelernten Merkmalen im Bereich der Musikinstrumentenerkennung
Author(s): Krusche, Anton
Granting Institution: Technische Universität Berlin
Type: Master Thesis
URI: https://depositonce.tu-berlin.de/handle/11303/17111
http://dx.doi.org/10.14279/depositonce-15890
License: https://creativecommons.org/licenses/by/4.0/
Abstract: In computer vision a number of feature visualization techniques were developed to make convolutional networks more interpretable. For audio classification those methods are used as well but are not as extensively investigated. This thesis picks up on that and investigates to which extent a selection of feature visualization methods originally developed with image recognition in mind can help to improve the interpretability of audio classification networks. The visualization methods Vanilla Saliency, SmoothGrad, Grad-CAM++ and Faster Score-CAM are compared and evaluated for the task of musical instrument recognition. Additionally, the auralization method, which takes an additional step after the visualization to make the features learned by a convolutional network audible, is investigated and adapted for all four visualization methods. The evaluation is done with state-of-the-art quantitative and qualitative techniques. The results show that the CAM-based methods are able to give interpretable insights why a CNN makes specific decisions while the results of Vanilla Saliency and SmoothGrad are not satisfactory. Faster Score-CAM achieves generally better results than Grad-CAM++ but still has weaknesses especially when it comes to class discriminativity and fine-grained visualizations. Auralization should be used in combination with the visualizations and helps to give a different perspective on them but is limited by their quality. In the context of audio classification especially the fact that audio events are generally not as locally focused as class occurrences in image recognition but can be spread over large regions of the spectrogram poses challenges to current methods. Overall, improvements in this field seem still very much needed.
Im Bereich der Computer Vision wurden einige Merkmalsvisualisierungsmethoden entwickelt, um die Interpretierbarkeit von Convolutional Neural Networks zu erhöhen. Für Audio-Klassifizierung werden diese Methoden ebenfalls verwendet, sind aber bisher nicht so genau untersucht worden. Diese Masterarbeit greift dies auf und untersucht in welchem Maße eine Auswahl an Merkmalsvisualisierungsmethoden, die ursprünglich mit Blick auf Bild-Klassifizierung entwickelt wurden, in der Lage ist, die Interpretierbarkeit von Audio Klassifizierungsnetwerken zu erhöhen. Die Visualisierungsmethoden Vanilla Saliency, SmoothGrad, Grad-CAM++ und Faster Score-CAM werden für den Anwendungsfall der Musikinstrumentenerkennung verglichen und evaluiert. Zusätzlich wird Auralization, eine Methode, welche einen zusätzlichen Arbeitschritt benötigt, um die vom Neuronalen Netz gelernten Features hörbar zu machen, untersucht und für alle vier Visualisierungsmethoden adaptiert. Die Evaluierung wird mit aktuellen quantitativen und qualitativen Methoden durchgeführt. Die Ergebnisse zeigen, dass die CAM-basierten Methoden in der Lage sind Einblicke zu geben, warum ein CNN eine bestimmte Entscheidung trifft, während die Ergebnisse von Vanilla Saliency und SmoothGrad nicht zufriedenstellend sind. Im Allgemeinen erreicht Faster Score-CAM bessere Ergebnisse als Grad-CAM++, hat allerdings auch Schwächen besonders im Bereich der Class-Discriminativity und beim Detailgrad der Visualisierungen. Auralization sollte in Kombination mit den Visualisierungen genutzt werden und hilft dabei, eine andere Perspektive auf diese zu bekommen, ist gleichzeitig aber auch durch deren Qualität limitiert. Im Bereich der Audio-Klassifizierung stellt besonders die Tatsache, dass Klangereignisse im Allgemeinen nicht auf einen bestimmten Bereich begrenzt, sondern über große Teile des Spektrogramms ausgedehnt sein können, die aktuellen Methoden vor besondere Herausforderungen. Insgesamt scheinen weitere Fortschritte in diesem Forschungsbereich auch weiterhin unbedingt notwendig zu sein.
Subject(s): neural networks
visualization
auralization
musical instrument recognition
machine learning
neuronale Netze
Visualisierung
Auralisierung
Musikinstrumentenerkennung
maschinelles Lernen
Issue Date: 2022
Date Available: 29-Jun-2022
Language Code: en
DDC Class: 000 Informatik, Informationswissenschaft, allgemeine Werke
780 Musik
TU Affiliation(s): Fak. 1 Geistes- und Bildungswissenschaften » Inst. Sprache und Kommunikation » FG Audiokommunikation
Appears in Collections:Technische Universität Berlin » Publications

Files in This Item:
krusche_anton.pdf
Format: Adobe PDF | Size: 157.27 MB
DownloadShow Preview
Thumbnail

Item Export Bar

This item is licensed under a Creative Commons License Creative Commons