Analytische Methode zur Erkennung von Ausreißern
HeimHeim > Nachricht > Analytische Methode zur Erkennung von Ausreißern

Analytische Methode zur Erkennung von Ausreißern

Aug 22, 2023

BMC Medical Research Methodology Band 23, Artikelnummer: 177 (2023) Diesen Artikel zitieren

112 Zugriffe

Details zu den Metriken

Epidemiologische und medizinische Studien stützen sich oft auf Gutachter, um Messungen der Expositionen oder Ergebnisse für Studienteilnehmer zu erhalten, und gültige Schätzungen von Zusammenhängen hängen von der Qualität der Daten ab. Obwohl statistische Methoden zur Korrektur von Messfehlern vorgeschlagen wurden, basieren diese häufig auf nicht überprüfbaren Annahmen und könnten zu verzerrten Schätzungen führen, wenn diese Annahmen verletzt werden. Daher sind Methoden zur Erkennung potenzieller „Ausreißer“-Bewerter erforderlich, um die Datenqualität während der Datenerfassungsphase zu verbessern.

In diesem Artikel schlagen wir einen zweistufigen Algorithmus vor, um „Ausreißer“-Bewerter zu erkennen, deren Bewertungsergebnisse tendenziell höher oder niedriger sind als die ihrer Gegenstücke. In der ersten Stufe werden die Effekte der Bewerter durch die Anpassung eines Regressionsmodells ermittelt. In der zweiten Phase werden Hypothesentests durchgeführt, um „Ausreißer“-Bewerter zu erkennen, wobei wir sowohl die Aussagekraft jedes Hypothesentests als auch die Falscherkennungsrate (FDR) aller Tests berücksichtigen. Wir führen eine umfangreiche Simulationsstudie durch, um die vorgeschlagene Methode zu bewerten, und veranschaulichen die Methode, indem wir potenzielle „Ausreißer“-Akustiker in der Datenerfassungsphase für den Audiology Assessment Arm der Conservation of Hearing Study, einer epidemiologischen Studie zur Untersuchung von Risikofaktoren für Hörverlust, identifizieren in der Nurses' Health Study II.

Unsere Simulationsstudie zeigt, dass unsere Methode nicht nur echte „Ausreißer“-Bewerter erkennen kann, sondern auch mit geringerer Wahrscheinlichkeit echte „normale“ Bewerter fälschlicherweise ablehnt.

Unser zweistufiger „Ausreißer“-Erkennungsalgorithmus ist ein flexibler Ansatz, der „Ausreißer“-Bewerter effektiv erkennen kann und so die Datenqualität während der Datenerfassungsphase verbessert werden kann.

Peer-Review-Berichte

Viele medizinische und epidemiologische Studien, die Beziehungen zwischen Risikofaktoren und Krankheitsergebnissen untersuchen, stützen sich auf mehrere Gutachter (z. B. Kliniker, Techniker), um die Expositionen oder interessierenden Ergebnisse unter den Studienteilnehmern zu messen. Beispielsweise werden in großen epidemiologischen Studien zu Hörverlust Reintonaudiometriemessungen typischerweise von mehreren Audiologen oder geschulten Technikern in schallbehandelten Kabinen durchgeführt [1,2,3]. In ähnlicher Weise werden in großen Studien zum Sehvermögen häufig Sehtests von mehreren Gutachtern in einer Klinik durchgeführt [4, 5]. Darüber hinaus können sich potenzielle Probleme im Zusammenhang mit der Datenerhebung durch mehrere Gutachter auch auf Studien erstrecken, die auf Daten basieren, die mit nichtmenschlichen Testmethoden wie automatisierten Audiometern [6] gesammelt wurden, um Testmessungen zu erhalten. Das Erhalten präziser Schätzungen des Zusammenhangs zwischen Risikofaktoren und Krankheitsfolgen hängt nicht nur von den verwendeten statistischen Methoden ab, sondern auch von der Qualität der Daten selbst. Obwohl viele analytische Methoden vorgeschlagen wurden, um Messfehler auszugleichen, die aus mit schlechter Qualität erfassten Daten resultieren, stützen sich diese Methoden typischerweise auf nicht überprüfbare Annahmen [7] und kosten die Genauigkeit der Schätzungen. Daher ist das Sammeln von Daten mit besserer Qualität dem Einsatz statistischer Methoden vorzuziehen, um die Verzerrungen auszugleichen, die durch Daten mit schlechterer Qualität während der statistischen Analysephase entstehen. In diesem Artikel schlagen wir Methoden zur Qualitätskontrolle während der Datenerfassungsphase vor, damit Probleme bei der Messung von Expositionen oder Ergebnissen sofort erkannt und behoben werden können.

Unsere Arbeit ist motiviert durch die Conservation of Hearing Study (CHEARS), eine Untersuchung von Risikofaktoren für Hörverlust bei Teilnehmern der Nurses' Health Studies II (NHS II), einer laufenden Kohortenstudie mit 116.430 registrierten Krankenschwestern in den USA. im Alter von 25–42 Jahren bei der Einschreibung im Jahr 1989 [8]. Der CHEARS Audiology Assessment Arm (AAA) bewertete die longitudinale Änderung der reinen Luft- und Knochenleitungsaudiometrie-Hörschwellen (die Schallintensität eines reinen Tons, bei der er zum ersten Mal wahrgenommen wird), gemessen in Dezibel des Hörpegels oder dB HL. über den gesamten Bereich konventioneller Frequenzen (0,5–8 kHz) [9]. Basistests wurden an 3.749 Frauen durchgeführt, deren Hörstatus nach eigenen Angaben entweder „ausgezeichnet“, „sehr gut“ war oder die „leichte Hörprobleme“ hatten, und die in der Nähe einer von 19 CHEARS-Teststandorten in den USA wohnten [9]. Die 3-Jahres-Nachuntersuchung wurde bei 3.136 Teilnehmern (84 %) abgeschlossen. Um zuverlässige Hörmessungen zu erhalten, ist es von entscheidender Bedeutung, potenzielle „Ausreißer“-Akustiker zu erkennen, die tendenziell höhere oder niedrigere Hörtestwerte als andere Audiologen haben. Sobald ein „Ausreißer“-Audiologe identifiziert wurde, können die von diesem Audiologen verwendeten Geräte untersucht und bei Bedarf bereits während der Datenerfassungsphase ein frühzeitiger Eingriff durchgeführt werden. Darüber hinaus können diese Ausreißerinformationen wichtige Auswirkungen auf den Ansatz der Datenanalyse haben.

Nach unserem besten Wissen gibt es keine statistischen Methoden zur Erkennung von „Ausreißern“-Bewertern. In diesem Artikel entwickeln wir einen innovativen zweistufigen Algorithmus zur Erkennung von „Ausreißern“-Bewertern. Anstatt die beobachteten Messungen direkt auszuwerten, extrahieren wir in der ersten Phase die Auswirkungen der Bewerter auf die Messungen durch eine Regressionsanalyse, bei der die Einflüsse anderer Variablen berücksichtigt werden können. In der zweiten Stufe führen wir Hypothesentests durch, um „Ausreißer“-Bewerter auf der Grundlage der geschätzten Koeffizienten und Varianzen aus der Regressionsanalyse der ersten Stufe zu erkennen.

Der Aufsatz ist wie folgt aufgebaut. Im Abschnitt „Methoden“ stellen wir den zweistufigen Algorithmus zur Erkennung von „Ausreißern“-Bewertern für Szenarien vor, in denen jeder Studienteilnehmer entweder einzelne oder mehrere Messungen hat. Im Abschnitt „Simulation“ führen wir eine Simulationsstudie durch, um die Leistung unseres zweistufigen Algorithmus zu untersuchen. Im Abschnitt „Anwendung“ wird eine echte Datenanalyse zur Erkennung von „Ausreißern“ von Audiologen im CHEARS AAA vorgestellt. Der Abschnitt „Diskussion“ schließt den Beitrag ab.

Wir betrachten zunächst das Szenario, dass jeder Studienteilnehmer nur eine Messung durch einen Bewerter erhalten muss. In der gesamten Arbeit gingen wir davon aus, dass die Exposition oder das Testergebnis jedes Studienteilnehmers nur von einem Bewerter gemessen wird, ein Bewerter jedoch mehrere Studienteilnehmer messen kann. Lassen Sie \(i\in \{1,2,\ldots , N\}\) die Studienteilnehmer indizieren; \(j\in \{1,2,\ldots ,M\}\) indiziert die Bewerter, die die Exposition oder das Testergebnis messen. Sei \(n_j\) die Anzahl der Studienteilnehmer, die vom j-ten Bewerter bewertet werden, so dass \(\sum _{j=1}^{M}n_j=N\).

Um die Auswirkungen der Bewerter auf die Messungen abzuschätzen, passen wir im ersten Schritt die folgende lineare Regression an:

wobei \(Y_i\) die Messung für den i-ten Studienteilnehmer ist, \(\text {T}_i^{(j)}\) ein Evaluatorindikator ist, der 1 ist, wenn die Exposition oder das Ergebnis des i-ten Studienteilnehmers ist wird vom j-ten Bewerter ausgewertet, andernfalls 0, \(\varvec{X}_i\) ist ein p-dimensionaler Vektor, der potenzielle Störfaktoren für die Bewerter-\(Y_i\)-Beziehung und Prädiktoren von \(Y_i\) enthält. , und \(\varvec{\gamma }^T\) ist die Transponierte des p-dimensionalen Koeffizientenvektors \(\varvec{\gamma }\). Wir verwenden T, um die Transponierte eines Vektors oder einer Matrix im gesamten Artikel zu bezeichnen. Ohne weitere Spezifizierung handelt es sich bei allen Vektoren in diesem Artikel um Spaltenvektoren. Beachten Sie, dass die Regression der ersten Stufe über die Linearität hinausgehen kann, wobei einige nichtlineare Formen von \(\varvec{X}_i\) einbezogen werden können, um die Auswirkungen der Kovariaten auf die Messung genauer zu berücksichtigen. Der Regressionskoeffizient \(\beta _j\) stellt den mittleren Effekt des Evaluators j auf die Messung nach Anpassung für \(\varvec{X}\) dar, und in Abwesenheit von „Ausreißer“-Evaluatoren, \(\beta _j, j =1,\ldots , M\), sollte bei verschiedenen Bewertern ähnlich sein.

In der Praxis kann es zu Mehrfachmessungen für alle oder einen Teil der Studienteilnehmer kommen. Lassen Sie \(k\in \{1,2,\ldots ,t_i\}\) die Messungen für den i-ten Studienteilnehmer indizieren. Im CHEARS AAA beispielsweise lassen die Studienteilnehmer beide Ohren von Audiologen testen, und daher haben wir für jeden Teilnehmer bei jeder Frequenz \(t_i=2\).

Im CHEARS AAA liegen die Pearson-Korrelationskoeffizienten zwischen den Hörtestergebnissen des linken und rechten Ohrs unabhängig von den Frequenzen über 0,7. Um die Korrelation zwischen mehreren Messungen zu berücksichtigen und gleichzeitig die mittlere Auswirkung der Bewerter auf die Messungen nach der Berücksichtigung potenzieller Störfaktoren abschätzen zu können, schlagen wir vor, die Methode der Generalized Estimating Equations (GEE) in der Regressionsanalyse der ersten Stufe anzuwenden um die Auswirkungen von Bewertern abzuschätzen [10, 11]. Das Modell für die mehrfach korrelierten Messungen kann wie folgt geschrieben werden:

wobei \(\varvec{Y}_i=[Y_{i,1},Y_{i,2},\ldots ,Y_{i,t_i}]^T\), \(\text {Cov}(\varvec {Y}_i)=\Sigma _i\), wobei \(\Sigma _i\) die unbekannte \(t_i\times t_i\) Varianz-Kovarianz-Matrix der Messungen des i-ten Studienteilnehmers ist, und \(\ varvec{Z}_{i,k}\) enthält Informationen, die spezifisch für die k-te Messung des i-ten Studienteilnehmers sind.

Die Parameter \(\varvec{\theta }=[\varvec{\gamma }^T, \varvec{\beta }^T, \varvec{\eta }^T]^T\), mit \(\varvec{ \beta }=[\beta _1,\ldots ,\beta _M]^T\), kann durch Lösen der folgenden Schätzgleichung [10, 11] geschätzt werden:

wobei \(\varvec{\mu }_i=E\left[ \varvec{Y}_i|\varvec{X}_{i}, \varvec{Z}_i, \text {T}_{i}^{ (1)},\ldots ,\text {T}_{i}^{(M)}\right]\), \(\varvec{D}_i=\frac{\partial }{\partial \varvec{ \theta }}\varvec{\mu }_i(\varvec{\theta })\), \(\varvec{V}_i(\varvec{\theta },\varvec{\alpha })\) ist die Arbeitsweise Varianz-Kovarianz-Matrix und \(\varvec{\alpha }\) enthält Parameter, die die Korrelationsstruktur zwischen mehreren Messungen charakterisieren. Einige gängige Arbeitskorrelationsstrukturen für \(k_1\ne k_2\in \{1,\ldots ,t_i\}\) sind unabhängig und definiert als \(\text {Corr}(Y_{i,k_1}, Y_{i, k_2})=0\); austauschbar, definiert als \(\text {Corr}(Y_{i,k_1}, Y_{i,k_2})=\alpha\), und unstrukturiert, definiert als \(\text {Corr}(Y_{i,k_1 }, Y_{i,k_2})=\alpha _{k_1,k_2}\). Die Varianz von \(\widehat{\varvec{\theta }}\), \(\text {Var}(\widehat{\varvec{\theta }})\), kann basierend auf dem Sandwich-Varianzschätzer [ 10, 11].

Die Koeffizienten \(\beta _1,\ldots ,\beta _M\) spiegeln die Auswirkungen der Bewerter auf die Messungen wider. Ein „Ausreißer“-Bewerter hat einen anderen Koeffizienten als die übrigen „normalen“ Bewerter. Daher führen wir in der zweiten Stufe Hypothesentests durch, um „Ausreißer“-Bewerter basierend auf geschätzten \(\widehat{\varvec{\beta }}\) und \(\widehat{\text {Var}}(\widehat{ \varvec{\beta }})\).

In der zweiten Phase erkennen wir „Ausreißer“-Bewerter, die andere Messwerte liefern als ihre Gegenstücke, nachdem wir echte Prädiktoren und Störfaktoren für das Ergebnis berücksichtigt haben. Wir definieren „Ausreißer“-Bewerter nun formal als solche Bewerter, deren Auswirkungen auf die Messungen sich von den gemittelten Effekten aller Bewerter in der Studie unterscheiden. Denken Sie daran, dass \(\beta _j, j=1,\ldots ,M\) die Auswirkung des j-ten Bewerters auf die Messungen nach Kontrolle der Merkmale der Studienteilnehmer darstellt. „Ausreißer“-Evaluatoren können erkannt werden, indem getestet wird, ob sich die Evaluatoreffekte auf die Messungen statistisch von dem über alle Evaluatoren gemittelten Mitteleffekt unterscheiden. Daher kann die Hypothese für einen gegebenen Bewerter j wie folgt formuliert werden:

was geschrieben werden kann als \(H_{0, j}: \varvec{L}^T_j\varvec{\beta }=0\,\,\, \text { vs } \,\,\, H_{1, j}: \varvec{L}^T_j\varvec{\beta }\ne 0\), mit

Beachten Sie, dass \(\beta _j-\frac{1}{M}\sum _{q=1}^{M}\beta _q\) als Differenz zwischen den Mittelwerten des j-ten Bewerters interpretiert werden kann und die durchschnittlichen Durchschnittswerte aller Bewerter unter Berücksichtigung der Merkmale der untersuchten Studienteilnehmer. Die Teststatistik des Wald \(\chi ^2\)-Tests unter der Nullhypothese \(H_{0, j}\) ist [12]:

wobei \(\widehat{\Sigma }\) die geschätzte Varianz-Kovarianz-Matrix von \(\text {Var}(\widehat{\varvec{\beta }})\ ist.

Ein robusterer Ansatz besteht darin, einen abgeschnittenen Mittelwert der Koeffizienten zu berechnen, bei dem verhindert werden kann, dass potenzielle „Ausreißer“ den Durchschnittseffekt verfälschen. Seien \(\beta _{(1)}, \beta _{(2)},\ldots ,\beta _{(M)}\) die geordneten Werte der Regressionskoeffizienten. Ein \(\delta \times 100 \%\) gekürzter Mittelwert kann wie folgt berechnet werden [13]:

wobei [x] den ganzzahligen Teil von x bezeichnet.

Die Nullhypothese, dass der j-te Bewerter kein „Ausreißer“ ist, besteht nun darin, den Regressionskoeffizienten des j-ten Bewerters mit dem abgeschnittenen Mittelwert \(\delta \times 100\%\) zu vergleichen:

Wir verweisen die Leser auf den Zusatzmaterialabschnitt 1 für technische Details zum Aufbau der Entwurfsmatrix \(\varvec{L}^T_{\delta \times 100\%, j}\) zur Durchführung von Hypothesentests in (8).

Da es unser Ziel ist, so viele potenzielle „Ausreißer“-Bewerter wie möglich zu erkennen, möchten wir eine ausreichende Aussagekraft erreichen, wenn es sich bei den Bewertern um echte „Ausreißer“ handelt. Um das Hypothesentestverfahren abzuschließen, legen wir daher im Gegensatz zum herkömmlichen Ansatz, bei dem der Schwerpunkt auf die Kontrolle des Typ-I-Fehlers \(\alpha\) auf einem akzeptablen Niveau liegt, auch Wert darauf, ein angemessenes Niveau des Typ-II-Fehlers sicherzustellen .

Im Idealfall ist bei der Durchführung von Hypothesentests zur Erkennung potenzieller „Ausreißer“-Bewerter genügend Aussagekraft vorhanden, um die Nullhypothesen \(H_{0,j}\) abzulehnen, wenn eine vorab festgelegte Alternativhypothese \(H_{1,j}\) vorliegt. ist wahr. Bezeichnen Sie die vorgegebene Alternativhypothese als \(H_{1,j}: \left| \varvec{L}^T_j\varvec{\beta }\right| = c\), wobei c basierend auf dem Thema bestimmt werden kann Wissen. Beispielsweise wird beim CHEARS AAA die „Hörschwelle“ für jedes einzelne Ohr anhand der niedrigsten Schallintensität eines Reintonsignals gemessen, das jedem Ohr individuell präsentiert wird und auf das der Hörer zuverlässig reagiert, und das Reintonsignal war gemessen in 5-dB-Schritten [9]. Infolgedessen wurde ein Hörverlust als ein HL-Anstieg der Reintonmittelwerte der Testfrequenzen bei niedrigen Frequenzen (0,5, 1, 2 kHz), mittleren Frequenzen (3, 4 kHz) um mehr als 5 dB definiert Hochfrequenz (6, 8 kHz) [9]. Daher ist es wichtig, Audiologen zu identifizieren, die nach Kontrolle der Merkmale der Studienteilnehmer durchweg 5 dB höhere oder niedrigere Hörtestergebnisse als ihre Kollegen erzielten. Daher ist \(c=5\) für die CHEARS AAA ein vernünftiger Wert für die Alternativhypothese, für deren Erkennung wir hoffentlich eine ausreichende Aussagekraft haben. Der Einfachheit halber unterscheiden wir in diesem Abschnitt nicht zwischen \(\varvec{L}_j\) und \(\varvec{L}_{\delta \times 100\%, j}\) und verwenden \( \varvec{L}_j\) zur Bezeichnung der Kontrastmatrix beider Tests.

Im Allgemeinen lautet die Potenzformel für den Hypothesentest: \(H_{0, j}: \varvec{L}^T_j\varvec{\beta }=0 \text { vs } H_{1, j}:\left| \varvec{L}^T_j\varvec{\beta } \right| = c\) ist:

Dabei ist \(\alpha\) eine zweiseitige Typ-I-Fehlerrate und \(\phi\) die Trennschärfe des Tests.

Testen Sie unter Alternativhypothese die Statistik \(\left( \varvec{L}^T_j\widehat{\varvec{\beta }}\right) ^T\left[ \varvec{L}^T_j\widehat{\Sigma }\ varvec{L}_j \right] ^{-1}\left( \varvec{L}_j^T\widehat{\varvec{\beta }}\right)\) folgt einem nichtzentralen \(\chi ^2\) Verteilung mit einem Freiheitsgrad und nichtzentralem Parameter \(\lambda _j = \frac{c^2}{\varvec{L}_j^T\widehat{\Sigma }\varvec{L}_j}\) [14]; Wir bezeichnen diese Verteilung als \(\chi _1^2(\lambda _j)\). Sei \(F_{\chi _1^2(\lambda _j)}\) die kumulative Verteilungsfunktion von \(\chi _1^2(\lambda _j)\). Daraus folgt, dass die Trennschärfe des Tests unter dem Signifikanzniveau \(\alpha\) und der Alternativhypothese \(H_{1,j}:\left| \varvec{L}^T_j\varvec{\beta }\right| = c\) ist

Um eine ausreichende Trennschärfe für jeden Bewerter bei einer vorab festgelegten Alternativhypothese sicherzustellen, können wir zunächst die Trennschärfe \(\phi\) der Tests festlegen und Gleichung lösen. (10) um die entsprechenden Signifikanzniveaus \(\alpha _j(\phi )\) für die Ablehnung der Nullhypothese \(H_{0,j}:\varvec{L}^T_j\varvec{\beta }=0\ zu erhalten ). Unter der gleichen Potenz- und Alternativhypothese hat jeder Bewerter aufgrund der Unterschiede in den geschätzten Varianzen der Koeffizientenschätzungen ein bewerterspezifisches Signifikanzniveau anstelle eines einheitlichen.

Die Nullhypothesen, die wir testen, sind \(H_{0,1}, H_{0,2},\ldots ,H_{0,M}\). Aufgrund der Mehrfachtests kann die Verwendung eines herkömmlichen Signifikanzniveaus wie 0,05 in jedem Test dazu führen, dass mit hoher Wahrscheinlichkeit „Ausreißer“-Bewerter gefunden werden, selbst wenn es sich um „normale“ Bewerter handelt (dh sie machen falsche Entdeckungen) [15, 16]. Da in unserem Fall die evaluatorspezifischen Signifikanzniveaus dadurch bestimmt werden, dass eine vorab festgelegte Aussagekraft der Tests sichergestellt wird, ist es wahrscheinlicher, dass wir falsche Entdeckungen machen als bei den herkömmlichen Hypothesentests auf \(\alpha\)-Ebene, wenn die vorab festgelegte Teststärke gewährleistet ist Macht ist groß. Um uns davor zu schützen, zu viele „normale“ Bewerter fälschlicherweise als „Ausreißer“ einzustufen, schlagen wir vor, das Konzept der False Discovery Rate (FDR) [15] zu übernehmen, um die Rate falsch positiver Entscheidungen zu steuern.

Wir bieten eine Annäherung an FDR durch:

wobei \(\varvec{Q}\) als der Anteil der wahren Nullhypothesen definiert ist, die unter der Gesamtzahl der abgelehnten Nullhypothesen schnell abgelehnt werden, und wir verweisen die Leser für technische Details auf Abschnitt 2 mit ergänzendem Material.

Beachten Sie, dass in unserem Ansatz anstelle der Verwendung eines einheitlichen Signifikanzniveaus für alle Tests, wie z. B. \(\alpha =0,05\), jede Nullhypothese ihr eigenes bewerterspezifisches Signifikanzniveau hat, sodass eine vorab festgelegte Trennschärfe zum Erkennen von a Für alle Hypothesentests wird eine vorab festgelegte Alternativhypothese erreicht. Der geschätzte FDR, \(\widehat{\text {E}}(\varvec{Q}; \phi )\), kann uns andererseits über die Anzahl falscher Entdeckungen informieren, die gemacht werden können. Daher kann bei der Auswahl eines geeigneten Satzes von Signifikanzniveaus neben der Sicherstellung einer ausreichenden Aussagekraft für die Tests der geschätzte FDR als weiteres Kriterium verwendet werden, das unsere Toleranz gegenüber falschen Entdeckungen widerspiegelt.

Wie in den vorherigen Abschnitten beschrieben, könnten wir für eine gegebene Potenz Gleichung lösen. (10) um die entsprechenden bewerterspezifischen Signifikanzniveaus für die Ablehnung der Nullhypothesen \(H_{0,j}, j=1,\ldots , M\) zu erhalten, und basierend auf diesen Signifikanzniveaus kann das entsprechende FDR geschätzt werden unter Verwendung von Gl. (11). Daher kann die Beziehung zwischen Leistung und FDR durch ein Entscheidungsdiagramm widergespiegelt werden, bei dem die Leistung (\(\phi\)) auf der x-Achse liegt und der entsprechende geschätzte FDR (\(\widehat{\text {E}} (\varvec{Q},\phi )\)) liegt auf der y-Achse. Basierend auf dem Entscheidungsdiagramm können wir die Signifikanzniveaus ermitteln, bei denen ein akzeptabler Kompromiss zwischen Leistung und FDR erreicht wird.

Wir könnten auch zunächst einen relativ niedrigen FDR auswählen und die entsprechende Trennschärfe zusammen mit den bewerterspezifischen Signifikanzniveaus aus dem Entscheidungsdiagramm ermitteln; Wir können dann die Nullhypothesen ablehnen, wenn die p-Werte der Tests unter den Schwellenwerten liegen. Wenn wir alternativ weniger Angst vor falschen Entdeckungen haben, aber möglichst viele potenzielle „Ausreißer“-Bewerter erkennen möchten, könnten wir zunächst eine relativ große Potenz angeben und die Nullhypothesen durch Vergleich der p-Werte verwerfen mit den entsprechenden bewerterspezifischen Signifikanzniveaus; Der geschätzte FDR aus dem Entscheidungsdiagramm kann uns Aufschluss über die Anzahl falscher Entdeckungen geben, die wir möglicherweise gemacht haben.

Wir können die Menge der abgelehnten Nullhypothesen basierend auf dem geschätzten FDR weiter anpassen, insbesondere wenn \(\widehat{\text {E}}(\varvec{Q};\widetilde{\phi })\) unter dem gewählten Wert groß ist Potenz \(\widetilde{\phi }\).

Sei \(\mathcal {R}\) die Menge der verworfenen Nullhypothesen und k die Anzahl der Hypothesen in \(\mathcal {R}\). Bezeichnen Sie die abgelehnten Hypothesen als \({H}_{0,(1)}, {H}_{0,(2)}, \ldots , {H}_{0,(k)}\), wobei sie werden nach ihren p-Werten in aufsteigender Reihenfolge geordnet. Da \(\widehat{\text {E}}(\varvec{Q};\widetilde{\phi })\times k\) die erwartete Anzahl wahrer Nullhypothesen annähert, die unter \({H}_ {0,(1)}, {H}_{0,(2)}, \ldots , {H}_{0,(k)}\), ein Ad-hoc-Ansatz zur weiteren Anpassung der abgelehnten Nullhypothesen basierend auf Der geschätzte FDR besteht darin, die letzteren \(\lceil \widehat{\text {E}}(\varvec{Q};\widetilde{\beta }^p)\times k\rceil\) Nullhypothesen \(H_{ 0,(k-\lceil \widehat{\text {E}}(\varvec{Q};\widetilde{\beta }^p)\times k\rceil +1)},\ldots , H_{0,( k)}\) aus der Menge \(\mathcal {R}\), wobei \(\lceil x\rceil\) x auf die nächste ganze Zahl rundet. Schließlich würden wir nur \(H_{0,(1)}, H_{0,(2)},\ldots , H_{0,(k-\lceil \widehat{\text {E}}(\varvec{ Q};\widetilde{\beta }^p)\times k\rceil )}\), und die entsprechenden „Ausreißer“ sind die Auswerter \((1), (2),\ldots , \text { und } (k -\lceil \widehat{\text {E}}(\varvec{Q};\widetilde{\beta }^p)\times k\rceil )\). Eine Algorithmuserklärung, die das gesamte Qualitätskontrollverfahren zusammenfasst, finden Sie im ergänzenden Materialabschnitt 3.

Wir führen eine Simulationsstudie durch, um das vorgeschlagene Qualitätskontrollverfahren zur Erkennung von „Ausreißern“-Bewertern zu bewerten. Zur Demonstration stützen wir unsere Simulationen auf die audiometrisch bewerteten Hörschwellenmessungen bei 8 kHz, die im CHEARS AAA im Jahr 2014 durchgeführt wurden, wo bei 3.568 Teilnehmern Beurteilungen in beiden Ohren durchgeführt wurden, die von 68 verschiedenen zugelassenen Audiologen gemessen wurden. Beachten Sie, dass sich die AAA im Jahr 2014 noch in der Datenerhebungsphase befand und die Erkennung der „Ausreißer“-Audiologen den Forschern helfen würde, umgehend Anpassungen vorzunehmen, um genaue Messungen für danach durchgeführte Tests zu erhalten. Wir bewerten die Leistung des vorgeschlagenen FDR-Schätzers in Gl. (11) sowie echte positive Ergebnisse (erfolgreiche Erkennung echter „Ausreißer“-Bewerter) und falsch positive Ergebnisse (fälschliche Klassifizierung „normaler“ Bewerter als „Ausreißer“), die unsere Qualitätskontrollmethode im Vergleich zur Verwendung eines traditionellen und einheitlichen Signifikanzniveaus wie z \(\alpha =0,05\) um die Nullhypothesen abzulehnen.

Wir betrachten zunächst das Szenario, in dem Bewerter für jeden Studienteilnehmer ein einzelnes Ergebnis messen. Wir generieren Daten basierend auf dem folgenden Modell und ahmen die vom CHEARS AAA erhaltenen Daten für das rechte Ohr nach:

wobei das Alter aus einer Normalverteilung mit einem Mittelwert von 56,6 Jahren und einer Standardabweichung (SD) von 4,4 generiert wird; Wir haben den selbstberichteten Hörstatus „ausgezeichnet“ als Referenzgruppe festgelegt und die Prävalenzen der anderen beiden Kategorien „sehr gut“ und „leichte Hörprobleme“ betrugen 0,44 bzw. 0,25. Diese Werte sind die gleichen wie im CHEARS AAA. \(\text {Audio}_i^{(j)}, j=1,\ldots , M\), ist 1, wenn das Hörtestergebnis des i-ten Studienteilnehmers vom j-ten Audiologen gemessen wird, und 0 sonst.

Die Koeffizienten für Alter, Alter\(^2\), I(sehr gut) und I(einige Hörprobleme) sind auf \(\gamma _1=-2,7\), \(\gamma _2=0,03) festgelegt \), \(\gamma _3=3.3\) und \(\gamma _4=10.3\), identisch mit den Punktschätzungen aus der Regressionsanalyse der CHEARS-Daten. Die Zahl der Audiologen M ist auf 100 festgelegt und jeder misst die Hörergebnisse bei 40 Studienteilnehmern. Wir setzen die Koeffizienten als \(\beta _1=\beta _2=\ldots =\beta _5=75\), \(\beta _6=\beta _7=\beta _8=70\) und \(\beta _9= \beta_{10}=\ldots =\beta_{100}=67\). Da der durchschnittliche Audiologeneffekt etwa 67 beträgt, werden die 92 Audiologen mit dem tatsächlichen Effekt 67 als „normale“ Audiologen und die 3 Audiologen mit dem Effekt 70 und die 5 mit dem Effekt 75 als echte Ausreißer betrachtet. Beachten Sie, dass hier fünf „Ausreißer“-Audiologen ganz andere Auswirkungen auf die Hörtestergebnisse haben als „normale“ Audiologen und drei „Ausreißer“-Audiologen sich geringfügig von „normalen“ Audiologen unterscheiden. Die Werte 75 und 67 werden durch die Durchschnittswerte der geschätzten Regressionskoeffizienten in der Regressionsanalyse der CHEARS-Daten für die Audiologen im oberen 10. Perzentil bzw. diejenigen zwischen dem unteren und oberen 10. Perzentil bestimmt. Es wird angenommen, dass das Residuum \(\epsilon _i\) normalverteilt ist, mit einem Mittelwert von 0 bzw. einer Standardabweichung (SD) \(\sigma = 8, 10, 12\).

Die Simulation wird für 300 Replikate durchgeführt. In Abb. 1 sind die FDR vs. Power-Entscheidungsdiagramme bei verschiedenen Standardabweichungen (SD) der Residuen dargestellt. Wir setzen die Alternativhypothese als \(H_{1,j}:\left| \varvec{L}^T_{10\%, j}\varvec{\beta }\right| =5\). Die durchgezogene Kurve ist der geschätzte FDR basierend auf Gl. (11) gemittelt über die 300 Simulationswiederholungen unter Potenzen (\(\phi\)) im Bereich von 0,1 bis 0,95 mit einer Schrittgröße von 0,01; Zur Verbindung der Punkte wird eine Lösskurve mit der Standardglättungsspanne 0,75 angepasst. Die gestrichelte Kurve ist eine empirische Version des wahren FDR, der für jedes \(\phi\) das Verhältnis der Anzahl der „normalen“ Audiologen (Audiologen 9–100), die fälschlicherweise als „Ausreißer“-Audiologen erkannt werden, zur Gesamtzahl darstellt Anzahl der erkannten „Ausreißer“-Akustiker, gemittelt über die 300 Simulationswiederholungen. Die horizontale strichpunktierte Linie ist die empirische Version des wahren FDR, wenn wir \(\alpha =0,05\) als Signifikanzniveau für die Ablehnung der über die 300 Simulationswiederholungen gemittelten Nullhypothesen verwenden.

FDR vs. Power-Entscheidungsdiagramm für die Simulation einer Einzelmessung. Die Alternativhypothese lautet \(H_{1,j}: \left| \varvec{L}^T_{10\%, j}\varvec{\beta }\right| =5\). Die durchgezogene Kurve ist der geschätzte FDR basierend auf Gl. (11) gemittelt über 300 Simulationswiederholungen, und die gestrichelte Kurve ist der empirische wahre FDR, der durch Mittelung der Anteile falscher Entdeckungen \(\frac{\varvec{V}(\phi )}{\varvec{R}(\phi) berechnet wird )}\) über 300 Simulationsreplikate. Die schwarze horizontale Punkt-Strich-Linie stellt den empirischen wahren FDR dar, der durch Mittelung der Anteile falscher Entdeckungen über 300 Simulationswiederholungen unter Verwendung von \(\alpha =0,05\) als Signifikanzniveau berechnet wird. Die durchgezogenen und gestrichelten Kurven überlappen sich im oberen Bereich

Wie im Entscheidungsdiagramm gezeigt, liegt der geschätzte FDR sehr nahe am wahren FDR, wenn \(\sigma =8 \text { und } 10\); während es den wahren Wert leicht überschätzt, wenn \(\sigma =12\). Darüber hinaus steigt mit zunehmender SD des Residuums auch der FDR. Wenn beispielsweise \(\sigma\) =8\ ist, beträgt der FDR bei einer Potenz von 0,95 weniger als 0,165, während bei einem Anstieg von \(\sigma\) auf 12 der FDR bei derselben Potenz größer als 0,8 ist. Definieren Sie das Rauschverhältnis als \(\frac{\sigma ^2}{\text {Var}(Y)}\), das den Anteil der Varianz des Residuums an der Gesamtvarianz der Ergebnismessung darstellt. Die entsprechenden Rauschverhältnisse betragen ungefähr 0,52, 0,64 und 0,72 für \(\sigma =8, 10 \text { und }12\). Wenn das Rauschverhältnis zunimmt, ist es wahrscheinlicher, dass wir falsche Entdeckungen machen. Daher ist es bei der Durchführung einer Qualitätskontrolle von entscheidender Bedeutung, alle möglichen Prädiktoren und Störfaktoren in die erste Regressionsstufe einzubeziehen. Auf diese Weise können wir das Residuum der Regression der ersten Stufe und damit den FDR minimieren.

Im Vergleich zu einem Ansatz, der ein festes Signifikanzniveau \(\alpha =0,05\) verwendet, ist unsere Methode flexibler, da wir die evaluatorspezifischen Signifikanzniveaus auswählen können, indem wir sowohl die Trennschärfe als auch den FDR berücksichtigen. Wenn \(\sigma =8\) bei jeder Potenz hat unser Ansatz einen viel niedrigeren FDR als die Verwendung von \(\alpha =0,05\) als Schwellenwert; und wenn \(\sigma =10 \text { und }12\), obwohl der FDR zunimmt, ist er immer noch kleiner als der FDR, wenn \(\alpha =0,05\) als Schwelle verwendet wird, wenn die Leistung so gewählt wird kleiner als 0,8 bzw. 0,75 sein.

Da das Ziel der Methode darin besteht, so viele potenzielle „Ausreißer“-Bewerter wie möglich zu erkennen und gleichzeitig die Typ-I-Fehlerrate auf ein akzeptables Niveau zu bringen, definieren wir den wahren positiven Anteil für jeden echten „Ausreißer“-Akustiker (d. h. Audiologen 1 bis 8) als Anteil der Simulationsreplikate, die den Audiologen unter den 300 Simulationsreplikaten korrekt als „Ausreißer“ erkennen, und der Falsch-Positiv-Anteil für jeden echten „normalen“ Audiologen (d. h. Audiologen 9 bis 100) als Anteil der Simulationsreplikate die den Audiologen in den 300 Simulationswiederholungen fälschlicherweise als „Ausreißer“ identifizieren. Abbildung 2a und b zeigen die echten positiven Anteile für die Audiologen 1 bis 8 und die falsch positiven Anteile für die „normalen“ Audiologen (zur Veranschaulichung wählen wir die Audiologen 9 bis 16 aus), wobei \(\sigma =8\) bei der Generierung der Daten, und die Alternativhypothese ist als \(H_{1,j}:\left| \varvec{L}_{10\%, j}^T\varvec{\beta }\right| =5\) festgelegt. Die Schwarzpunkte sind die Proportionen, die auf unserem Qualitätskontrollverfahren bei verschiedenen Teststärken basieren; während die horizontalen gepunkteten Linien die Proportionen sind, die unter Verwendung von \(\alpha =0,05\) als Schwelle für die Ablehnung der Nullhypothesen berechnet wurden. Wir betrachten sowohl das unbereinigte Verfahren als auch das FDR-basierte angepasste Verfahren.

Diese Abbildung zeigt die echten positiven Anteile für die echten „Ausreißer“-Audiologen und die falsch positiven Anteile für die echten „normalen“ Audiologen für die Einzelmessungssimulation mit \(\sigma =8\). Das obere Feld in jeder Unterfigur ist das Ergebnis der Durchführung der FDR-basierten Anpassung, während das untere Feld in jeder Unterfigur das Ergebnis ohne FDR-basierte Anpassung ist. Die horizontale Punkt-Strich-Linie stellt den entsprechenden wahren oder falsch positiven Anteil für jeden Audiologen dar, wenn wir \(\alpha =0,05\) als Signifikanzniveau für die Ablehnung der Nullhypothesen verwenden

Für das nicht angepasste Verfahren erreichen die wahren positiven Proportionen für die Audiologen 1 bis 5 mit zunehmender Leistung schnell 1, was zu erwarten ist, da die Differenz zwischen ihren Koeffizienten und denen der „normalen“ Audiologen auf 8 eingestellt ist, also größer als die in der Alternativhypothese verwendete Differenz \(H_{1,j}: \left| \varvec{L}_{10\%, j}^T\varvec{\beta }\right| =5\). Da ihre Koeffizienten jedoch bei den Audiologen 6 bis 8 nur um 3 größer sind als die der „normalen“ Audiologen, liegen die echten positiven Proportionen weit unter 1, selbst wenn die Potenz groß ist. Im Vergleich zu dem Ansatz, der \(\alpha =0,05\) als Schwellenwert verwendet, weist unser Qualitätskontrollverfahren kleinere echte positive Anteile auf, wenn die Teststärke kleiner als 0,3, 0,6, 0,7 für \(\sigma =8, 10, 12\), aber nach und nach werden sie auf ungefähr das gleiche oder sogar ein höheres Niveau ansteigen. Für die „normalen“ Audiologen (Audiologen 9 bis 16) beträgt der Falsch-Positiv-Anteil etwa 0,05, wenn \(\alpha =0,05\) als Schwellenwert verwendet wird. Unser Qualitätskontrollverfahren hat sogar noch geringere Falsch-Positiv-Proportionen, wenn \(\sigma =8 \text { und } 10\) unter fast jeder betrachteten Potenz. Bei \(\sigma =12\) sind die falsch-positiven Anteile immer noch kleiner als bei Verwendung von \(\alpha =0,05\) als Schwellenwert, wenn die Potenz nicht größer als 0,9 ist.

Verglichen mit dem nicht angepassten Verfahren ändern sich die FDR-basierten angepassten wahr-positiven Anteile für die wahren „Ausreißer“-Akustiker und falsch-positiven Anteile für „normale“ Audiologen im Fall von \(\sigma =8\) nicht wesentlich, da dies bei FDR der Fall ist klein, und die Anpassung ist geringfügig. Wenn \(\sigma\) zunimmt, beispielsweise wenn \(\sigma =10\), ist der FDR groß genug, um eine ausreichende Anzahl von Anpassungen für eine Leistung von mehr als 0,75 zu ermöglichen. Abgesehen von einem Rückgang der falsch-positiven Anteile bei den echten „normalen“ Audiologen (Audiologen 9 bis 16) beobachten wir auch einen Rückgang der wahr-positiven Anteile bei den echten „Ausreißer“-Audiologen (Audiologen 1 bis 8). Daher trägt die Ad-hoc-FDR-basierte Anpassung dazu bei, die Wahrscheinlichkeit falscher Entdeckungen zu verringern, allerdings mit einer Verringerung der Wahrscheinlichkeit wirklich positiver Entscheidungen.

Darüber hinaus haben wir auch eine Simulationsstudie für die Szenarien durchgeführt, in denen die Ergebnisse korrelieren. Der Datengenerierungsprozess und die Simulationsergebnisse werden im Zusatzmaterial Abschnitt 1 dargestellt. Die Simulationsergebnisse sind bei den einzelnen Messszenarien ähnlich; Unser Verfahren zur Erkennung von Ausreißern hat im Vergleich zu dem Ansatz, bei dem das Signifikanzniveau auf \(\alpha =0,05\) festgelegt ist, typischerweise niedrigere Falsch-Positiv-Anteile für die echten „normalen“ Audiologen und höhere Echt-Positiv-Anteile für die echten „Ausreißer“-Audiologen.

Um unsere Methode zu veranschaulichen, wenden wir unsere Methode an, um „Ausreißer“-Akustiker für die audiometrisch bewerteten Hörschwellenmessungen im CHEARS AAA zu erkennen, die 2014 erhoben wurden, als die Basistests an 3.749 Teilnehmern abgeschlossen wurden. Wir konzentrieren uns auf die Testergebnisse bei 8 kHz. Wir verwenden den GEE-Ansatz in der Regressionsanalyse der ersten Stufe und berücksichtigen \(\text {Alter}, \text {Alter}^2\), den selbstberichteten Hörstatus („ausgezeichnet“, „sehr gut“ und „ein wenig“) Hörprobleme‘) und Dummy-Variablen für die 68 Audiologen im Regressionsmodell. Diese Regression wird mit SAS proc genmod angepasst, wobei eine austauschbare Arbeitsvarianz-Kovarianz-Struktur angenommen wird.

Wir zeigen die Streudiagramme von \(\widehat{\beta }_i-\frac{1}{M}\sum _{q=1}^{M}\widehat{\beta }_{q}\) und \ (\widehat{\beta }_i-\frac{1}{M-2[M\cdot \delta ]}\sum _{q=[M\cdot \delta ]+1}^{M-[M\cdot \delta ]}\widehat{\beta }_{(q)}\), mit \(M=68, \delta =0,1\), in Abb. 3. Unabhängig davon, ob wir mit dem ungekürzten Mittelwert oder dem vergleichen 10 % abgeschnittener Mittelwert, die Diagramme sind ähnlich. Wie in Abb. 3a und b gezeigt, hat Audiologe 13 einen viel größeren (\(>10 \text { dB}\)) Koeffizientenschätzwert als seine Kollegen, und Audiologe 4 hat einen viel kleineren (\(<10 \text { dB)). }\)) Koeffizientenschätzung als der Rest der Audiologen. Darüber hinaus haben die Audiologen 14, 15, 22, 47, 48, 54, 55 und 59 eine leicht abweichende Koeffizientenschätzung (5-10\(\text {db}\)) vom durchschnittlichen Effekt.

a Subtrahieren der Koeffizientenschätzungen jedes Audiologen durch den ungekürzten Mittelwert aller Koeffizientenschätzungen aller Audiologen; b Subtrahieren der Koeffizientenschätzungen jedes Audiologen durch den 10 %igen gekürzten Mittelwert aller Koeffizientenschätzungen aller Audiologen

Die Abbildungen 4a bis d zeigen die FDR vs. Power-Entscheidungsdiagramme, in denen die Hypothesentests durchgeführt werden, um den Regressionskoeffizienten jedes Audiologen sowohl mit dem ungekürzten Mittelwert als auch mit dem 10 % gekürzten Mittelwert zu vergleichen. Wir legen die Alternativhypothese fest als \(H_{1,j}:\left| \varvec{L}^T_{j}\varvec{\beta }\right| =5 \text { and } 10\), und \ (H_{1,j}: \left| \varvec{L}^T_{10\%, j}\varvec{\beta }\right| =5 \text { und } 10\), jeweils für \( j=1,\ldots , 68\). Basierend auf den Entscheidungsdiagrammen können „Ausreißer“-Akustiker erkannt werden, indem ein geeigneter Satz von Signifikanzniveaus ausgewählt wird, die einer angemessenen Trennschärfe und FDR entsprechen. Die Ergebnisse sind zwischen dem Ansatz mit dem ungekürzten Mittelwert und dem Ansatz mit dem gekürzten Mittelwert ähnlich. Tabelle 1 fasst die Ergebnisse zusammen, wenn die Leistung auf 0,8 oder der geschätzte FDR auf 0,5 eingestellt wird. Wie in der Tabelle gezeigt, werden die Audiologen 4 und 13 von allen Ansätzen als „Ausreißer“ erkannt, unabhängig von der Trennschärfe, dem FDR oder der berücksichtigten Alternativhypothese, und der Audiologe 48 wird von allen Ansätzen unter der Alternativhypothese \(H_) erkannt. {1,j}: \left| \varvec{L}_{10\%,j}^T\varvec{\beta }\right| =5\) und \(H_{1,j}: \left| \varvec{L}_{j}^T\varvec{\beta }\right| =5\). Daher handelt es sich bei den Audiologen 4, 13 und 48 wahrscheinlich um „Ausreißer“-Audiologen, was darauf hindeutet, dass eine genaue Prüfung angebracht sein könnte. Der Ansatz, \(\alpha =0,05\) zur Ablehnung der Nullhypothesen zu verwenden, wie in den letzten beiden Zeilen der Tabellen gezeigt, ist jedoch nicht nur im Vergleich zu unserer Methode nicht flexibel, sondern hat auch das Problem, dass die Die Aussagekraft der Tests variiert bei verschiedenen Audiologen erheblich und liegt bei einem Minimum von 0,55 und einem Maximum von 1,00.

FDR vs. Power-Entscheidungsdiagramm zur Erkennung von „Ausreißer“-Akustikern, wobei a: \(H_{1,j}: \left| \varvec{L}^T_{10\%, j}\varvec{\beta }\right | =5\); b: \(H_{1,j}: \left| \varvec{L}^T_{10\%, j}\varvec{\beta }\right| =10\); c: \(H_{1,j}: \left| \varvec{L}^T_j\varvec{\beta }\right| =5\); und d: \(H_{1,j}: \left| \varvec{L}^T_j\varvec{\beta }\right| =10\). Die strichpunktierten und gestrichelten Linien werden erzeugt, indem die Leistung auf 0,8 bzw. der FDR auf 0,5 festgelegt wird

In diesem Artikel schlagen wir eine neuartige Methode vor, um ein häufiges Problem in großen epidemiologischen Studien anzugehen, die auf mehrere Bewerter angewiesen sind, um Expositions- oder Ergebnismessungen zu erhalten, um die Datenqualität während der Datenerfassungsphase zu optimieren. Konkret haben wir einen zweistufigen Algorithmus entwickelt, um „Ausreißer“-Bewerter zu erkennen, die tendenziell höhere oder niedrigere Messwerte als ihre Kollegen haben. In der ersten Phase passen wir ein Regressionsmodell für die Messungen an die Merkmale der Bewerter und Studienteilnehmer an, die die Messungen vorhersagen könnten. In der zweiten Phase führen wir auf der Grundlage der Regressionskoeffizienten der ersten Phase Hypothesentests durch, um den Mittelwert jedes Bewerters mit dem durchschnittlichen Mittelwert aller Bewerter zu vergleichen und dabei die Merkmale der bewerteten Personen zu berücksichtigen. Anders als beim herkömmlichen Hypothesentestverfahren, bei dem die Kontrolle von Typ-I-Fehlern im Vordergrund steht, legen wir ebenso Wert darauf, ein angemessenes Maß an Typ-II-Fehlern sicherzustellen, da unser Ziel darin besteht, möglichst viele potenzielle „Ausreißer“-Bewerter für die Qualität zu erkennen Kontrollzweck. Wir leiten die bewerterspezifischen Signifikanzniveaus für die Ablehnung der Nullhypothesen unter ausgewählten Teststärken ab. Diese Signifikanzniveaus betragen nicht unbedingt 0,05 und sind aufgrund der unterschiedlichen Varianzen der Koeffizientenschätzungen von Audiologe zu Audiologe unterschiedlich. Um dem Problem mehrfacher Vergleiche Rechnung zu tragen, leiten wir außerdem einen FDR-Schätzer ab. Es kann ein FDR vs. Power-Entscheidungsdiagramm erstellt werden, und basierend auf diesem Diagramm können die bewerterspezifischen Signifikanzniveaus für die Ablehnung der Nullhypothesen so bestimmt werden, dass sowohl FDR als auch Power akzeptabel sind.

Bei der Durchführung von Hypothesentests zur Erkennung von „Ausreißern“-Bewertern haben wir vorgeschlagen, die Koeffizientenschätzungen mit dem gekürzten Mittelwert zu vergleichen, um zu verhindern, dass diese „Ausreißer“-Bewerter den geschätzten Normaleffekt verunreinigen. Alternativ können wir ein Intervall null betrachten, das heißt \(H_0: |\beta _i - \frac{1}{M}\sum _{j=1}^{M} \beta _j| \le a\) für einige Konstanten \(a>0\). Eine Herausforderung dieser Methode könnte darin bestehen, wie man eine auswählt. Wir werden diese Methode in unserer zukünftigen Forschung berücksichtigen und mit der aktuellen Methode vergleichen. Darüber hinaus ist bei der Berechnung des bewerterspezifischen Signifikanzniveaus die Kenntnis der Alternativhypothese erforderlich. Wenn das Vorwissen jedoch nicht verfügbar ist, empfehlen wir die Durchführung einer Sensitivitätsanalyse für eine Reihe sinnvoller Werte der Alternativhypothese. Darüber hinaus ist die FDR-Näherung in Gl. (2) gilt, wenn die Anzahl der durchgeführten Hypothesen (M) groß ist. Wenn M jedoch klein ist, können wir alternativ das Benjamini-Hochberg-Verfahren (BH) verwenden, um den FDR zu steuern [15]. Das BH-Verfahren fährt fort, indem es zunächst ein FDR-Niveau \(\alpha\) angibt und die Nullhypothese basierend auf p-Werten in aufsteigender Reihenfolge sortiert (\(P_{(1)}, P_{(2)},\ldots , P_{(M)}\)). Dann wird das größte k mit \(P_{(k)}\le \frac{k}{M}\alpha\) erhalten, und die ersten k Nullhypothesen werden verworfen. Das BH-Verfahren kann sicherstellen, dass der FDR auf der Ebene \(\alpha\) gesteuert wird. Anders als bei unserem Ansatz berücksichtigt das BH-Verfahren jedoch nicht die Aussagekraft von Tests und um konservativ zu sein, könnten wir bei der Durchführung des BH-Verfahrens einen relativ größeren \(\alpha\)-Wert wie 0,1 verwenden.

Aufgrund unserer Arbeit sind mehrere wichtige Punkte zu berücksichtigen. Erstens erhöht eine Erhöhung des Rauschverhältnisses \(\frac{\sigma ^2}{\text {Var}(Y)}\) den FDR, insbesondere wenn die Testleistung groß ist. Daher ist es in der ersten Regressionsstufe von entscheidender Bedeutung, alle potenziellen Prädiktoren der Messungen als Regressoren einzubeziehen. Zweitens geht die vorgeschlagene Methode davon aus, dass der Einfluss des Bewerters auf die Messungen nicht durch die Merkmale der Teilnehmer verändert wird. Für den Fall, dass diese Annahme verletzt wird, können wir den Evaluatoreffekt in jeder Kategorie des potenziellen Effektmodifikators schätzen, indem wir die Interaktionen zwischen Evaluatorindikator und Effektmodifikator in das Regressionsmodell der ersten Stufe einbeziehen, und dann können wir denselben Evaluator für die Teststudie heranziehen Teilnehmer in verschiedenen Kategorien des Effektmodifikators, als wären sie unterschiedliche Bewerter. Auf diese Weise konnte ein Bewerter nur dann als „Ausreißer“ erkannt werden, wenn er Studienteilnehmer in einer bestimmten Kategorie des Effektmodifikators testete. Drittens kann in der ersten Regressionsstufe eine Verknüpfungsfunktion verwendet werden, um Situationen zu berücksichtigen, in denen die Messungen nicht kontinuierlich sind, z. B. die Logit-Verknüpfung für binäre Messungen und die Protokollverknüpfung für Zählmessungen.

Unser Qualitätskontrollverfahren wird verwendet, um potenzielle „Ausreißer“-Bewerter zu erkennen. Sobald sie erkannt werden, sollte eine Qualitätsprüfung dieser Bewerter durchgeführt werden, um sicherzustellen, dass zukünftige Messungen genau gemessen werden können. Eine Korrektur von Messfehlern in bestehenden Messungen, die von „Ausreißer“-Bewertern durchgeführt wurden, geht jedoch über den Rahmen dieser Arbeit hinaus. Wir werden in zukünftigen Forschungen Methoden zur Korrektur von Messfehlern entwickeln; Eine Idee könnte darin bestehen, die Messungen von „Ausreißer“-Bewertern auf „normale“ Messungen mithilfe von Informationen aus den Regressionsmodellen der ersten Stufe zu kalibrieren und dabei die Merkmale der Teilnehmer zu berücksichtigen.

Der reguläre Regressions- und GEE-Ansatz führt möglicherweise nicht zu einem zuverlässigen \(\beta\)-Schätzer, wenn die Anzahl der von einigen Bewertern getesteten Studienteilnehmer gering ist. In diesem Fall besteht eine alternative Methode darin, die Messungen desselben Bewerters als Cluster zu behandeln und das Mixed-Effects-Modell in der Regressionsanalyse der ersten Stufe zu verwenden. In dem Szenario, in dem jeder Teilnehmer eine einzelne Messung hat, kann dieses Modell mit gemischten Effekten zusätzlich zu den Merkmalen der Teilnehmer mit festen Effekten einen bewerterspezifischen Zufallsschnittpunkt enthalten; der geschätzte Wert des j-ten evaluatorspezifischen Achsenabschnitts ist \(\hat{\beta }_j\). In einem Szenario, in dem die Teilnehmer über mehrere Messungen verfügen, kann das Mixed-Effects-Modell gleichermaßen sowohl Bewerter als auch Teilnehmer (im Bewerter verschachtelt) als Zufallseffekte umfassen. Sobald das Mixed-Effects-Modell \(\widehat{\varvec{\beta }}\) und \(\widehat{Var}(\widehat{\varvec{\beta }})\ erhält, sind die restlichen Methoden die dieselben wie im Unterabschnitt „Hypothesentest“ bis Unterabschnitt „FDR-basierte Anpassung“ dieses Dokuments.

Zusätzlich zum Beitrag zur Qualitätskontrolle während der Datenerfassungsphase epidemiologischer Studien kann unsere Methode zur Erkennung von Ausreißern auch in klinischen Umgebungen für die Erkennung von „Ausreißern“-Evaluatoren (z. B. Gesundheitsdienstleistern oder Technikern) wertvoll sein. Beispielsweise basieren klinische Diagnosen häufig auf Messungen von Gutachtern, und ungenaue Messungen können zu falschen Diagnosen führen. Darüber hinaus kann unsere Methode in statistischen Analyseverfahren eingesetzt werden. Beispielsweise kann unsere Methode bei Studien, die auf Labormessungen von Biomarkern wie Plasma- oder Urinmetaboliten basieren, die in verschiedenen Chargen gemessen werden, dabei helfen, potenzielle „Ausreißer“-Chargen zu identifizieren, und eine Sensitivitätsanalyse kann durchgeführt werden, indem diese „Ausreißer“-Chargen ausgeschlossen werden und Neuschätzung der Interessenparameter.

R-Code zur Implementierung der vorgeschlagenen Methode ist unter https://github.com/molinwang/Analytical-Methods-for-Hearing-Studies/branches verfügbar.

Unser zweistufiger Algorithmus ist eine nützliche Methode zur Erkennung von „Ausreißern“-Bewertern, die nach Anpassung an die Merkmale der Studienteilnehmer tendenziell höhere oder niedrigere Messwerte als ihre Kollegen abgeben. Im Vergleich zu herkömmlichen Hypothesentests, die sich auf Fehler vom Typ I konzentrieren, legen wir auch Wert auf Fehler vom Typ II, damit möglichst viele potenzielle „Ausreißer“ identifiziert werden können und ein geschätzter FDR zur Kontrolle der Falsch-Positiv-Rate verwendet wird. Wir empfehlen, unsere Methode zur Erkennung von „Ausreißern“ während der Datenerfassungsphase anzuwenden, um die Datenqualität zu verbessern.

Die Daten, die die Ergebnisse dieser Studie stützen, sind aus der Nurses' Health Study (NHS) II verfügbar, es gelten jedoch Einschränkungen hinsichtlich der Verfügbarkeit dieser Daten, die unter Lizenz für die aktuelle Studie verwendet wurden und daher nicht öffentlich verfügbar sind. Daten sind jedoch auf begründete Anfrage und mit Genehmigung der Nurses' Health Study (NHS) II bei den Autoren erhältlich.

Falscherkennungsrate

Studie zur Erhaltung des Gehörs

Audiologie-Bewertungsarm

Gesundheitsstudie für Krankenschwestern

Verallgemeinerte Schätzgleichungen

Cruickshanks KJ, Wiley TL, Tweed TS, Klein BE, Klein R, Mares-Perlman JA, et al. Prävalenz von Hörverlust bei älteren Erwachsenen in Beaver Dam, Wisconsin: Studie zur Epidemiologie von Hörverlust. Bin J Epidemiol. 1998;148(9):879–86.

Artikel CAS PubMed Google Scholar

Shargorodsky J, Curhan SG, Curhan GC, Eavey R. Veränderung der Prävalenz von Hörverlust bei US-Jugendlichen. JAMA. 2010;304(7):772–8.

Artikel CAS PubMed Google Scholar

Gopinath B, McMahon CM, Rochtchina E, Karpa MJ, Mitchell P. Inzidenz, Persistenz und Fortschreiten von Tinnitus-Symptomen bei älteren Erwachsenen: die Blue Mountains Hearing Study. Ohr Hören. 2010;31(3):407–12.

Artikel PubMed Google Scholar

Zhang X, Bullard KM, Cotch MF, Wilson MR, Rovner BW, McGwin G, et al. Zusammenhang zwischen Depression und funktionellem Sehverlust bei Personen ab 20 Jahren in den Vereinigten Staaten, NHANES 2005–2008. JAMA Ophthalmol. 2013;131(5):573–81.

Artikel PubMed PubMed Central Google Scholar

Klein R, Lee KE, Gangnon RE, Klein BE. Zusammenhang von Rauchen, Trinken und körperlicher Aktivität mit Veränderungen des Sehvermögens über einen Zeitraum von 20 Jahren: die Beaver Dam Eye Study. Augenheilkunde. 2014;121(6):1220–8.

Artikel PubMed Google Scholar

McCullough ML, Zoltick ES, Weinstein SJ, Fedirko V, Wang M, Cook NR, et al. Zirkulierendes Vitamin D und Darmkrebsrisiko: ein internationales Pooling-Projekt mit 17 Kohorten. JNCI: J Natl Cancer Inst. 2019;111(2):158–69.

Carroll RJ, Ruppert D, Stefanski LA, Crainiceanu CM. Messfehler in nichtlinearen Modellen: eine moderne Perspektive. Chapman und Hall/CRC; 2006.

Curhan SG, Wang M, Eavey RD, Stampfer MJ, Curhan GC. Die Einhaltung gesunder Ernährungsgewohnheiten ist bei Frauen mit einem geringeren Risiko für einen Hörverlust verbunden. J Nutr. 2018;148(6):944–51.

Artikel PubMed PubMed Central Google Scholar

Curhan SG, Halpin C, Wang M, Eavey RD, Curhan GC. Prospektive Untersuchung von Ernährungsgewohnheiten und Erhöhung der Hörschwelle. Bin J Epidemiol. 2020;189(3):204–14.

Artikel PubMed Google Scholar

Liang KY, Zeger SL. Längsschnittdatenanalyse mit verallgemeinerten linearen Modellen. Biometrie. 1986;73(1):13–22.

Artikel Google Scholar

Zeger SL, Liang KY. Längsschnittdatenanalyse für diskrete und kontinuierliche Ergebnisse. Biometrie. 1986;42:121–30.

Harrell Jr FE. Regressionsmodellierungsstrategien: mit Anwendungen auf lineare Modelle, logistische und ordinale Regression und Überlebensanalyse. Springer; 2015.

Wilcox RR. Einführung in robuste Schätzungen und Hypothesentests. Akademische Presse; 2011.

Lehmann EL, Romano JP. Testen statistischer Hypothesen. Springer Science & Business Media; 2006.

Benjamini Y, Hochberg Y. Kontrolle der Falscherkennungsrate: ein praktischer und leistungsstarker Ansatz für Mehrfachtests. JR Stat Soc Ser B Methodol. 1995;57(1):289–300.

Google Scholar

Benjamini Y, Drai D, Elmer G, Kafkafi N, Golani I. Kontrolle der Falschentdeckungsrate in der Verhaltensgenetikforschung. Behav Brain Res. 2001;125(1–2):279–84.

Artikel CAS PubMed Google Scholar

Referenzen herunterladen

Wir sind den Studienteilnehmern von CHEARS dankbar.

Diese Arbeit wird durch das NIH-Stipendium R01DC017717 unterstützt.

Abteilung für Biostatistik, Harvard University, Boston, USA

Yujie Wu, Bernard Rosner & Molin Wang

Channing Abteilung für Netzwerkmedizin, Brigham and Women's Hospital, Boston, USA

Sharon Curhan, Bernard Rosner, Gary Curhan und Molin Wang

Harvard Medical School, Boston, USA

Sharon Curhan und Gary Curhan

Abteilung für Epidemiologie, Harvard University, Boston, USA

Gary Curhan und Molin Wang

Nierenabteilung, Abteilung für Medizin, Brigham and Women's Hospital, Boston, USA

Gary Curhan

Sie können diesen Autor auch in PubMed Google Scholar suchen

Sie können diesen Autor auch in PubMed Google Scholar suchen

Sie können diesen Autor auch in PubMed Google Scholar suchen

Sie können diesen Autor auch in PubMed Google Scholar suchen

Sie können diesen Autor auch in PubMed Google Scholar suchen

YW, BR und MW haben die Methoden entwickelt; YW entwarf und führte die Simulationsstudie durch und verfasste den ersten Entwurf des Manuskripts. SC, BR, GC und MW überprüften das Manuskript kritisch. Alle Autoren haben das endgültige Manuskript gelesen und genehmigt.

Korrespondenz mit Molin Wang.

Unzutreffend.

Unzutreffend.

Die Autoren geben an, dass keine Interessenkonflikte bestehen.

Springer Nature bleibt neutral hinsichtlich der Zuständigkeitsansprüche in veröffentlichten Karten und institutionellen Zugehörigkeiten.

Zusatzdatei 1.

Open Access Dieser Artikel ist unter einer Creative Commons Attribution 4.0 International License lizenziert, die die Nutzung, Weitergabe, Anpassung, Verbreitung und Reproduktion in jedem Medium oder Format erlaubt, sofern Sie den/die ursprünglichen Autor(en) und die Quelle angemessen angeben. Geben Sie einen Link zur Creative Commons-Lizenz an und geben Sie an, ob Änderungen vorgenommen wurden. Die Bilder oder anderes Material Dritter in diesem Artikel sind in der Creative Commons-Lizenz des Artikels enthalten, sofern in der Quellenangabe für das Material nichts anderes angegeben ist. Wenn Material nicht in der Creative-Commons-Lizenz des Artikels enthalten ist und Ihre beabsichtigte Nutzung nicht gesetzlich zulässig ist oder über die zulässige Nutzung hinausgeht, müssen Sie die Genehmigung direkt vom Urheberrechtsinhaber einholen. Um eine Kopie dieser Lizenz anzuzeigen, besuchen Sie http://creativecommons.org/licenses/by/4.0/. Der Creative Commons Public Domain Dedication-Verzicht (http://creativecommons.org/publicdomain/zero/1.0/) gilt für die in diesem Artikel zur Verfügung gestellten Daten, sofern in einer Quellenangabe für die Daten nichts anderes angegeben ist.

Nachdrucke und Genehmigungen

Wu, Y., Curhan, S., Rosner, B. et al. Analytische Methode zur Erkennung von Ausreißern. BMC Med Res Methodol 23, 177 (2023). https://doi.org/10.1186/s12874-023-01988-4

Zitat herunterladen

Eingegangen: 30. November 2021

Angenommen: 11. Juli 2023

Veröffentlicht: 01. August 2023

DOI: https://doi.org/10.1186/s12874-023-01988-4

Jeder, mit dem Sie den folgenden Link teilen, kann diesen Inhalt lesen:

Leider ist für diesen Artikel derzeit kein gemeinsam nutzbarer Link verfügbar.

Bereitgestellt von der Content-Sharing-Initiative Springer Nature SharedIt