Objekt-Metadaten
Untersuchungen zur Diskriminanzanalyse mit hochdimensionalen Daten

Autor :Martin Grüning
Herkunft :OvGU Magdeburg, Fakultät für Mathematik
Datum :01.12.2005
 
Dokumente :
Dataobject from HALCoRe_document_00004239
 
Typ :Dissertation
Format :Text
Kurzfassung :Die Schätzung der Kovarianzmatrix V bei multivariater Normalverteilung stellt besonders bei hohen Dimensionen eine große Herausforderung dar. Ist der Stichprobenumfang nicht größer als die Anzahl der Variablen, so ist die empirische Kovarianzmatrix S singulär; dies führt zu erheblichen Problemen der statistischen Analyse. Mit Hilfe der Spektralzerlegung lässt sich V als Linearkombination aus Eigenwerten und Eigenvektoren darstellen; so kann die Frage nach der Existenz von Maximum-Likelihood-Schätzern für Teilparameter der Kovarianzmatrix erörtert werden. Es kann gezeigt werden, dass in jedem Fall - nicht notwendig eindeutige - Maximum-Likelihood-Schätzer für die Eigenvektoren von V existieren, bei singulärer empirischer Kovarianzmatrix S aber nicht für die Eigenwerte. Die Eigenvektoren von S maximieren in jedem Fall die Likelihoodfunktion. Es wird ein Stabilitätskonzept entwickelt, das eine Charakterisierung der besonderen Situation bei singulärer empirischer Kovarianzmatrix ermöglicht. Für den Schätzfehler wird eine untere Schranke in Abhängigkeit vom wahren Parameter V angegeben. Der Kern dieser Aussage ist, dass bei singulärer Schätzungsmatrix mit Wahrscheinlichkeit 1 ein positiver Abstand zum wahren Parameter besteht. Bei Verwendung von Ridge-Schätzern der Form S + c I hat man den zusätzlichen Parameter c geeignet zu wählen. Es wird eine Methode hergeleitet, nach der c so bestimmt werden kann, dass die Determinante des erhaltenen Ridge-Schätzers näherungsweise erwartungstreu für die Determinante der Kovarianzmatrix V ist. Für das Zweistichproben-Klassifikationsproblem stellt bei singulärer empirischer Kovarianzmatrix die Ridge-Klassifikationsmethode RDA, die statt der empirischen Kovarianzmatrix S eine Statistik der Form S + c I verwendet, eine mögliche Alternative dar. Auch hier hat man den Parameter c geeignet zu wählen. Das Ziel ist hierbei, den Klassifikationsfehler möglichst klein zu halten. Mit einer durch eine Reihenentwicklung erhaltenen Approximation wird eine Diskriminanzfunktion hergeleitet, die eine Näherung der vom Verfahren RDA verwendeten Diskriminanzfunktion darstellt. Für den Fehler der Klassifikationsregel RDA*, die diese hergeleitete Diskriminanzfunktion verwendet und so wiederum eine Approximation der Regel RDA darstellt, wird eine asymptotische Berechnungsformel angegeben. Durch Minimierung bezüglich c wird nun eine Berechnungsformel für einen bezüglich des Klassifikationsfehlers optimalen Wert c* - in Abhängigkeit von den tatsächlichen Parametern der Verteilungen - hergeleitet. Auf ähnliche Weise haben S. Raudys und M. Skurichina (Vilnius, Litauen) eine Berechnungsformel für ein optimales c* angegeben, die aber an die Bedingung n > p (mit Stichprobenumfang n und Variablenanzahl p) gebunden ist. Diese Bedingung ist bei der hier angegebenen Formel nicht erforderlich; insofern stellt diese eine Erweiterung der Methode von Raudys und Skurichina dar.
Rechte :Dieser Text ist urheberrechtlich geschützt.
 
Erstellt am :16.07.2008 - 07:40:02
Letzte Änderung :22.04.2010 - 08:15:44
MyCoRe ID :HALCoRe_document_00004239
Statische URL :http://edoc.bibliothek.uni-halle.de/servlets/DocumentServlet?id=4239