Harmonisierte Stickstoff- und Phosphorkonzentrationen im Einzugsgebiet des Mississippi/Atchafalaya von 1980 bis 2018

Blog

HeimHeim / Blog / Harmonisierte Stickstoff- und Phosphorkonzentrationen im Einzugsgebiet des Mississippi/Atchafalaya von 1980 bis 2018

Jul 25, 2023

Harmonisierte Stickstoff- und Phosphorkonzentrationen im Einzugsgebiet des Mississippi/Atchafalaya von 1980 bis 2018

Scientific Data Band 9, Artikelnummer: 524 (2022) Diesen Artikel zitieren 1550 Zugriffe 1 Zitate 2 Details zu altmetrischen Metriken Die Überwachung der Wasserqualität kann Richtlinien zur Bekämpfung der Umweltverschmutzung informieren;

Scientific Data Band 9, Artikelnummer: 524 (2022) Diesen Artikel zitieren

1550 Zugriffe

1 Zitate

2 Altmetrisch

Details zu den Metriken

Die Überwachung der Wasserqualität kann als Grundlage für Maßnahmen zur Bekämpfung der Umweltverschmutzung dienen. Inkonsistente Mess- und Berichtspraktiken führen jedoch dazu, dass viele Beobachtungen in verschiedenen Gewässern nicht vergleichbar sind, was Bemühungen zur Charakterisierung räumlicher Muster und langfristiger Verschmutzungstrends behindert. Hier haben wir 9,2 Millionen öffentlich verfügbare Monitormesswerte von 226 verschiedenen Wasserüberwachungsbehörden harmonisiert, die das gesamte Mississippi/Atchafalaya River Basin (MARB) in den Vereinigten Staaten abdecken. Wir haben den Standardized Nitrogen and Phosphorus Dataset (SNAPD) erstellt, einen neuartigen Datensatz mit 4,8 Millionen standardisierten Beobachtungen für stickstoff- und phosphorhaltige Verbindungen an 107.000 Standorten im Zeitraum 1980–2018. Nach unserem besten Wissen stellt dieser Datensatz die größte Aufzeichnung dieser Schadstoffe in einem einzelnen Flussnetz dar, in der Messungen über Zeit und Raum verglichen werden können. Wir haben zahlreiche gut dokumentierte Probleme im Zusammenhang mit der Berichterstattung und Interpretation dieser Wasserqualitätsdaten angesprochen, die bisher in diesem Umfang nicht behandelt wurden, und unser Ansatz zur Verarbeitung von Wasserqualitätsdaten kann auf andere Nährstoffverbindungen und Regionen angewendet werden.

Messungen)

Stickstoffverbindung • Phosphorverbindung

Technologietyp(en)

Wassermonitore

Probeneigenschaft – Umgebung

Gewässer • Wassereinzugsgebiet • Menge an Stickstoffatomen im Wasser • Wasserverschmutzung • Überwachung der Verschmutzung • Menge an Phosphor im Wasser

Probenmerkmal – Standort

Fluss, angrenzende Vereinigte Staaten von Amerika • Mississippi/Atchafalaya-Flussbecken

Die Bewältigung der Wasserverschmutzung erfordert die Fähigkeit, die Menge der Verschmutzung in Wasserstraßen zu messen, um die Wirksamkeit der Verschmutzungsminderung sicherzustellen. Allerdings schränken inkonsistente Berichterstattungspraktiken zur Wasserqualität diese Bemühungen in vielen Flusssystemen weltweit ein. Häufig gibt es unterschiedliche Probenahme- und Berichterstattungspraktiken unter den lokalen Behörden, die Wasserqualitätsmessungen entlang eines einzelnen Flussnetzes sammeln und melden, oder die Praktiken einer einzelnen Behörde an einer bestimmten Probenahmestelle können sich im Laufe der Zeit ändern. In Fällen, in denen die Erfassung und Berichterstattung dieser Messungen nicht im Voraus standardisiert ist, kann der resultierende kombinierte Datensatz Inkonsistenzen enthalten, die eine groß angelegte Analyse räumlicher Muster und Trends der Wasserverschmutzung verhindern, da nicht alle Beobachtungen miteinander vergleichbar sind. Daher ist die Harmonisierung der in einem Flussnetz gesammelten Wasserqualitätsdaten ein notwendiger erster Schritt zum Verständnis, wie Schadstoffe in ein Flusssystem gelangen und sich darin bewegen. Hier haben wir Harmonisierung als den Prozess der Erstellung eines standardisierten, qualitätskontrollierten Datensatzes definiert, der für Trendanalysen, Vergleichsstudien und Modellierung verwendet werden kann.

Die Unvergleichbarkeit von Wasserqualitätsdaten stellt eine akute Herausforderung für die Bewältigung der Wasserverschmutzung durch nicht punktuelle Quellen (NPS) dar, die den diffusen Transport von Schadstoffen in Wasserstraßen beinhaltet und überwiegend mit menschlichen Aktivitäten wie der Landwirtschaft verbunden ist1,2. In den Vereinigten Staaten sind stickstoff- und phosphorbasierte Verunreinigungen im Zusammenhang mit Düngemitteln und Viehabfällen die größte Quelle der NPS-Wasserverschmutzung und können zu Umweltzerstörung, Ökosystemzerstörung und schädlichen Folgen für die menschliche Gesundheit führen1,2,3. Diese Schadstoffe entstehen häufig über weitläufige Landregionen, bevor sie in Flusssysteme gelangen, die von zahlreichen Behörden überwacht werden können4. Um die NPS-Verschmutzung und ihre Auswirkungen einzudämmen, benötigen die Regulierungsbehörden zuverlässige, standardisierte Wasserqualitätsdaten von vielen verschiedenen Wasserüberwachungsbehörden, um die Schwere des Problems zu messen und zeitliche und räumliche Trends innerhalb eines Flussnetzes zu bewerten.

Wir haben uns hier auf die Harmonisierung der Aufzeichnungen über häufig vorkommende NPS-Schadstoffe im gesamten US-amerikanischen Mississippi/Atchafalaya River Basin (MARB) konzentriert, das 3,2 Millionen Quadratkilometer (ungefähr 40 % der Landfläche in den kontinentalen USA) umfasst und 31 Staatsgrenzen überschreitet, was es zum größten Fluss macht Becken in den USA und das viertgrößte weltweit (Abb. 1)2,5. Das MARB ist seit mindestens den 1970er Jahren stark von NPS-Wasserschadstoffen betroffen und leidet unter hohen Mengen landwirtschaftlicher Abflüsse. Dieser Abfluss hat zu Algenblüten, Eutrophierung und anoxischen Bedingungen geführt, die Ökosysteme erheblich schädigen, die Produktivität vieler vom Meer abhängiger Industrien verringern und für Menschen und Wildtiere giftig sein können6,7,8. Die riesigen Mengen an NPS-Wasserverschmutzung, die durch das MARB transportiert werden, fließen in den Golf von Mexiko und bilden eine tote Zone, die Gebiete von bis zu 15.000 Quadratmeilen umfasst9,10. Aufgrund der Schäden an der Fischerei und dem Meereslebensraum im Golf kostet die tote Zone jedes Jahr mehr als 2,4 Milliarden US-Dollar (in US-Dollar von 2018)11.

Mississippi/Atchafalaya-Flussbecken und Flussnetz26,27.

In den Vereinigten Staaten haben Hunderte von Wasserüberwachungsorganisationen, von lokalen Behörden bis hin zu Stammes-, Landes-, Regional- und Bundesbehörden, Informationen zur Wasserqualität auf den 3,5 Millionen Meilen Wasserstraßen des Landes gesammelt, einige davon seit dem frühen 19. Jahrhundert12,13. Im Jahr 2012 richteten der United States Geological Survey (USGS), die US Environmental Protection Agency (EPA) und der National Water Quality Monitoring Council gemeinsam das Water Quality Portal (WQP) ein, eine Datenbank, die als größter Zugangspunkt für öffentlich zugängliche Informationen dient. verfügbare Wasserqualität. Das WQP sammelt Daten aus zahlreichen Quellen, darunter dem National Water Information System (NWIS) des USGS, dem STOrage and RETrieval (STORET) Data Warehouse der EPA und der Sustaining The Earth's Watersheds-Agricultural Research Database des Forschungsdienstes des US-Landwirtschaftsministeriums (USDA). System (STEWARDS)14,15. Zum Zeitpunkt der Erstellung dieses Artikels enthielt das WQP Wasserqualitätsdaten von über 900 Organisationen aus dem Jahr 1892 und meldete über 342 Millionen Datensätze an mehr als 900.000 Wasserprobenahmestellen in allen 50 Bundesstaaten14. Während das WQP das Potenzial hat, eine unschätzbare Ressource bei der Bewertung von Wasserqualitätsproblemen im ganzen Land zu sein, mangelt es der Datenbank an standardisierten Methoden zur Überwachung, Berichterstattung und Speicherung von Wasserqualitätsdaten13,15.

Insbesondere sind einige Details für die genaue Interpretation von Wasserqualitätsproben von entscheidender Bedeutung, z. B. die Maßeinheiten (z. B. mg/L oder ppm), die chemische Form des Nährstoffs (z. B. Nitrat oder Stickstoff) und die Probenfraktion (z. B. gefiltert oder). ungefiltert), unter anderem15. Ohne die Standardisierung dieser Details können Sekundärnutzer wie Forscher und politische Entscheidungsträger die Daten möglicherweise nicht verwenden, um Trends in einer Region zu identifizieren und zu vergleichen, in der mehrere Organisationen Wasserproben sammeln. Eine Studie ergab, dass in einer Stichprobe von 25 Millionen Nährstoffaufzeichnungen von 488 US-amerikanischen Organisationen, die seit 1899 Daten zur Wasserqualität messen, 58 % aufgrund der fehlenden Standardisierung zwischen den Organisationen nicht interpretiert oder verwendet werden konnten. Die Wiederherstellung dieses Datenverlusts wurde auf 12 Milliarden US-Dollar (in Dollar von 2016) geschätzt, eine Zahl, die auf den Investitionen der US-amerikanischen Wasserressourcenorganisationen in die Sammlung und Probenahme von Wasserqualität basiert15.

In diesem Artikel haben wir WQP-Wasserqualitätsdaten von 136.277 Überwachungsstellen im MARB abgerufen und harmonisiert, die zwischen 1980 und 2018 Nährstoffverbindungen mit Stickstoff (N) und Phosphor (P) messen. Unser Ziel war es, eine umfassende Stichprobe von Beobachtungen zu erstellen waren zeitlich und räumlich vergleichbar. Unser Datenerfassungs- und Harmonisierungsprozess folgte den Best Practices zur Beseitigung und Behebung von Inkonsistenzen zwischen und innerhalb von Organisationen, wie von wichtigen Organisationen zur Überwachung der Wasserqualität, einschließlich EPA, USGS und USDA14, beschrieben. Wenn die Informationen nicht ausreichten, um diese Inkonsistenzen zu beheben, haben wir diese Beobachtungen verworfen oder markiert.

Hier haben wir den Aufbau unseres harmonisierten Wasserqualitätsdatensatzes mit dem Namen Standardized Nitrogen and Phosphorus Dataset (SNAPD) detailliert beschrieben, der zur Analyse der Verschmutzung durch nichtpunktuelle Quellen während eines Zeitraums von vier Jahrzehnten im MARB verwendet werden kann. Trotz der Verfügbarkeit bewährter Verfahren und der bekannten Herausforderungen im Zusammenhang mit nicht standardisierten Wasserqualitätsdaten waren uns keine anderen Bemühungen bekannt, diese Daten in diesem Umfang zu standardisieren. Nach unserem besten Wissen ist dies das erste Mal, dass ein Datensatz standardisierter N- und P-Wasserqualitätskonzentrationen aus mehreren Jahrzehnten Beobachtungen im gesamten MARB öffentlich zugänglich gemacht wird. Unsere Methoden können auf andere Daten zur Wasserqualitätsüberwachung angewendet werden, um Fragen der Wasserverschmutzungsforschung zu beantworten, die standardisierte Daten aus unterschiedlichen Quellen erfordern. Darüber hinaus bietet unser Datensatz eine Reihe potenzieller Verwendungsmöglichkeiten, darunter die Analyse sowohl des aktuellen Status als auch langfristiger räumlicher und zeitlicher Trends der Fluss- und Bachwasserqualität, die Bewertung von Überwachungslücken im gesamten MARB und die Modellierung der Wasserqualität im gesamten Einzugsgebiet zur Unterstützung der Planung für künftige Überwachungsanforderungen und als Grundlage für die Gesetzgebung und Genehmigung auf Bundesebene. Wir gehen davon aus, dass Forscher, Wassermanager und Regierungsbehörden auf lokaler, Landes- und Bundesebene vom Zugang zu harmonisierten MARB-Wasserqualitätsdaten profitieren können, die zeitlich und räumlich vergleichbar sind.

Der Abschnitt „Methoden“ ist in zwei Unterabschnitte unterteilt: (i) Datenquelle und -abruf und (ii) Datenharmonisierung.

Wir haben Daten für insgesamt 31 N- und P-basierte Nährstoffverbindungen ausgewählt und abgerufen, die hauptsächlich mit landwirtschaftlichen Abflüssen aus dem WQP in Zusammenhang stehen. Für jede Nährstoffverbindung haben wir die Daten anhand von Wasserqualitätsproben gefiltert, die innerhalb der geografischen Grenzen des MARB gemessen und zwischen 1980 und 2018 entnommen wurden. Basierend auf diesen Kriterien haben wir 9.217.921 einzigartige Wasserqualitätsbeobachtungen von 136.277 Wasserüberwachungsstellen abgerufen (Tabelle 1).

Wir haben Daten zur Wasserqualität von 226 Organisationen zusammengestellt. Diese Beobachtungen erforderten eine umfassende Harmonisierung der Metadaten sowohl auf Probenebene als auch auf Ergebnisebene. Metadaten auf Probenebene enthalten eine Hierarchie von Informationen im Zusammenhang mit der Entnahme einer Wasserprobe aus einer Wasserquelle, z. B. den Ort, an dem die Probe entnommen wurde, Datum und Uhrzeit sowie die Angabe, ob die Probe aus Wasser oder Boden entnommen wurde. Eine bestimmte Wasserprobe kann dann auf das Vorhandensein mehrerer Nährstoffverbindungen getestet werden. Metadaten auf Ergebnisebene enthalten spezifische Informationen zu der in einer bestimmten Probe gemessenen Nährstoffverbindung, wie z. B. die Konzentration der Verbindung, den Filtrationsstatus (auch als Probenfraktion bezeichnet), die Analysemethode zur Bestimmung der chemischen Form und den Nachweis Grenzwert (falls zutreffend), unter anderem (Abb. 2)15.

Beobachtung der Wasserqualität, von der Probenahme bis zu den Ergebnissen.

Als Grundlage für unseren Harmonisierungsprozess verwendeten wir die Dokumentation des Water Quality eXchange (WQX) Nutrient Best Practices Guide, um etwaige Dateninkonsistenzen zu identifizieren und zu beheben, und ergänzten sie bei Bedarf für bestimmte Datenqualitätsprobleme13,14,15. Hier lieferten wir zusätzliche Hintergrundinformationen zu bestimmten Metadatenelementen, die einer Harmonisierung bedürfen, einschließlich Nährstoffform und Nährstoffbenennung, Konzentrationswert und -einheiten, Nachweiscodes und -grenzen, Ergebnistyp, Aktivitätstyp und Probenfraktion. Wir haben auch die Herausforderungen hervorgehoben, die mit der Standardisierung dieser Metadaten verbunden sind, und beschrieben, wie die Metadaten harmonisiert wurden, einschließlich aller von uns getroffenen Annahmen.

Im Rahmen unseres Harmonisierungsprozesses haben wir zwei Datensätze erstellt, damit sekundäre Benutzer auswählen können, welcher am besten zu ihren Projektanforderungen passt. Der erste Datensatz mit dem Namen SNAPD ist das Endergebnis unseres Harmonisierungsprozesses und hat Beobachtungen entfernt, die unsere Harmonisierungskriterien nicht erfüllten. SNAPD enthält zwei Datenflags: outlier_flag, das angibt, ob eine Beobachtung ein potenzieller Ausreißer sein könnte; und impute_flag, das angibt, ob eine Beobachtung nicht erkannt wurde und ihr Konzentrationswert anschließend imputiert wurde. Wir haben diese Flags in unserem harmonisierten Datensatz beibehalten, da sie für bestimmte Analysen nützlich sein können.

Der zweite Datensatz mit der Bezeichnung WQP_to_SNAPD_flagged enthält alle Rohbeobachtungen, die ursprünglich vom WQP abgerufen wurden. Anstatt Daten zu löschen, die nicht unseren Harmonisierungskriterien entsprachen, haben wir für jede Rohbeobachtung Datenmarkierungen erstellt. Diese Datenflags (d. h. „drop“ oder „behalten“) geben an, wie die Rohbeobachtungen nach unserem Prozess bei Bedarf harmonisiert werden können. Da WQP_to_SNAPD_flagged alle Rohbeobachtungen und Metadaten speichert, haben zukünftige Benutzer die Möglichkeit, sich entweder direkt an Organisationen zu wenden, um fehlende Metadaten zu finden, die Entscheidungen und Annahmen in unserem Harmonisierungsprozess zu akzeptieren oder andere Schritte auszuwählen, die ihren Forschungszielen am besten entsprechen.

In diesem Dokument konzentrieren wir uns auf die Beschreibung unseres Harmonisierungsprozesses zur Erstellung von SNAPD und stellen im Abschnitt „Datensätze“ auch zusätzliche Informationen für unseren sekundären Datensatz WQP_to_SNAPD_flagged bereit.

Wir haben einen Wasserüberwachungsstandort als die einzigartige Kombination aus einem Monitoring Location Identifier (MLI) und Koordinaten definiert, die den Ort angeben, an dem eine Wasserqualitätsprobe entnommen wurde. Wo möglich, haben wir die Koordinaten und MLIs wie unten beschrieben harmonisiert.

In unserem Datensatz gab es 54.578 Beobachtungen, die 248 MLIs entsprachen und mit mehr als einem Koordinatensatz gekennzeichnet waren. Alle markierten MLIs hatten genau zwei Koordinatenpaare, daher haben wir für jedes markierte MLI den euklidischen Abstand zwischen den Koordinatenpaaren ausgewertet. Der Abstand zwischen den Koordinatenpaaren reichte für ein bestimmtes MLI von unter einem Meter bis über 50.000 Meter. Dasselbe MLI kann aus verschiedenen Gründen unterschiedliche Koordinaten haben, die eine Verlegung eines Probenahmeorts um eine kleine Entfernung erforderlich machen würden, z. B. Flusserosion, sich ändernde Strömungsmuster, Schäden an Überwachungsgeräten oder ein Wechsel in der Standortverwaltung von einer Organisation zur anderen.

In vielen Zusammenhängen ist es hilfreich, die Koordinaten für ein einzelnes MLI zu konsolidieren, wenn Variationen in den Koordinaten keine sinnvollen großen Positionsänderungen vermuten lassen. Große Änderungen der Koordinatenposition können jedoch wesentliche Änderungen am Ort der Probenahme darstellen, die möglicherweise bei jeder Analyse berücksichtigt werden müssen. Wenn also ein MLI ein Koordinatenpaar hatte, das mehr als 400 Meter voneinander entfernt war, gingen wir davon aus, dass sich diese Koordinaten auf verschiedene Orte entlang eines Flusses bezogen, und ließen beide Koordinatenpaare für ein bestimmtes MLI unverändert. Wenn jedoch beide Koordinaten für ein bestimmtes MLI weniger als 400 Meter voneinander entfernt waren, haben wir die Daten so harmonisiert, dass das MLI nur eine eindeutige Koordinate hatte. Konkret haben wir jedem MLI die entsprechenden Koordinaten zugewiesen, die zuerst in den Daten auftauchten, d. h. wir haben jedes eindeutige Koordinatenpaar für einen bestimmten MLI mit seiner jeweiligen Zeilennummer beschriftet und die Koordinaten der ersten Zeile ausgewählt (Tabelle 2: Schritt 2).

In unserem Datensatz gab es 965.724 Beobachtungen, die 6.552 eindeutigen Koordinaten entsprachen und mit mehr als einem MLI gekennzeichnet waren. Die Anzahl der mit einem eindeutigen Koordinatenpaar verknüpften MLIs lag zwischen zwei und 74. MLIs können sich ändern, wenn eine Wasserüberwachungsorganisation ein neues Projekt startet oder die für die Probenahme an einem bestimmten Standort verantwortliche Organisation wechselt. Wir harmonisierten die Daten so, dass einer eindeutigen Koordinate nur ein MLI zugeordnet war, wodurch sichergestellt wurde, dass an einem bestimmten Standort eine kontinuierliche Datenaufzeichnung der Wasserqualität vorhanden war. Wir identifizierten Beobachtungen, bei denen mehrere MLIs mit einer eindeutigen Koordinate verknüpft waren, und behielten das ursprüngliche MLI bei, falls ein sekundärer Benutzer diese Informationen benötigen sollte. Wir haben den harmonisierten MLI ausgewählt, indem wir jedem eindeutigen MLI für eine bestimmte Koordinate Zeilennummern zugewiesen haben und dann den MLI der ersten Zeile ausgewählt haben (Tabelle 2: Schritt 2).

Für unseren Datensatz verwendeten wir eine Kombination aus drei Metadatenelementen – dem Nährstoffnamen, den Konzentrationseinheiten und der Analysemethode –, um die chemische Form eines Nährstoffs zu identifizieren. Die chemische Form eines Nährstoffs gibt an, ob die Konzentration einer Nährstoffverbindung als einzelnes Element, z. B. Stickstoff (N), oder als Verbindung, z. B. Nitrat (NO3), angegeben wird. Abhängig von der chemischen Form einer Nährstoffverbindung können die angegebenen Konzentrationen aufgrund der unterschiedlichen Masse pro Volumeneinheit sehr unterschiedlich interpretiert werden. Für Nährstoffe, die in ihrer elementaren Nährstoffform angegeben werden, werden die Konzentrationen anhand des Elementgewichts angegeben, das die Konzentration eines einzelnen Atoms in einem Nährstoff darstellt, z. B. nur des N in NO3. Im Gegensatz dazu verwenden Konzentrationen von Nährstoffen, die in ihrer molekularen Nährstoffform angegeben werden, das Molekulargewicht, das die Konzentration der Nährstoffverbindung, z. B. Nitrat oder NO3, darstellt. Die Annahme der falschen chemischen Form eines Nährstoffs kann zu einer falschen Interpretation des Konzentrationswerts und damit zu Fehlern in allen Berechnungen führen15.

Wo möglich, haben wir zunächst die chemische Form eines Nährstoffs aus dem Nährstoffnamen selbst ermittelt. Beispielsweise könnte eine Messung der Wasserqualitätskonzentration von Nitrat auf zwei Arten erfolgen: in elementarer Form (d. h. Nitrat als Stickstoff oder Nitrat als N) oder in molekularer Form (d. h. Nitrat als Nitrat oder Nitrat als NO3). Beide Namenskonventionen geben die chemische Form des Nährstoffs an und damit die Stickstoffmasse, die bei der jeweiligen Konzentrationsmessung berücksichtigt werden sollte. Für Beobachtungen, bei denen die chemische Form des Nährstoffs identifiziert wurde, harmonisierten wir die Daten, indem wir Nährstoffe in ihre elementare Form umwandelten, entweder als N oder als P, abhängig von der Nährstoffverbindung (Tabelle 2: Schritt 5 und Schritt 12). Allerdings konnten wir in einigen Fällen die Nährstoffform anhand des Nährstoffnamens nicht bestimmen. Daher haben wir uns bei der Bestimmung der Nährstoffform entweder auf die Labormethode oder auf Konzentrationseinheiten verlassen. Wir haben verschiedene Ressourcen wie den National Environmental Methods Index (NEMI) genutzt, um die chemische Form einer Verbindung zu identifizieren. Beispielsweise kann eine Labormethode zur Messung von Nitrat, bekannt als 4500-NO3-E in NEMI, zur Bestimmung der Nitratkonzentration in Wasser verwendet werden und wird in der Einheit mg/L als N16 angegeben. Somit konnten wir Metadaten verwenden, die die Labormethode anzeigten, um die chemische Form zu bestimmen, in der eine Konzentrationsmessung gemeldet wurde. Wenn die chemische Form eines Nährstoffs bestimmt wurde, haben wir mithilfe von Umrechnungsfaktoren aus dem WQX (Tabelle 3) von der molekularen in die elementare Form umgewandelt )17. Wir haben Beobachtungen aus unserem harmonisierten Datensatz entfernt, als wir die chemische Form des Nährstoffs nicht anhand der Metadaten bestimmen konnten.

Wir haben unseren Datensatz auf Beobachtungen beschränkt, die aus Wasser entnommen wurden. Wenn eine andere Art von Probenmedium angegeben wurde (z. B. Boden, Luft), haben wir diese Beobachtungen verworfen (Tabelle 2: Schritt 3).

Um die Konzentrationswerte der Wasserqualität an verschiedenen Standorten und im Zeitverlauf zu vergleichen, haben wir die Konzentrationswerte je nach Nährstoff in eine standardisierte Einheit von Milligramm pro Liter (mg/L) als N oder P umgerechnet. Zu diesem Zweck verwendeten wir Metadaten zu Konzentrationseinheiten, um Beobachtungen zu identifizieren, die interpretierbare Einheiten hatten. In einigen Fällen konnten wir Beobachtungen mit fehlenden Konzentrationseinheiten oder fehlenden Konzentrationswerten nicht konvertieren und haben diese Beobachtungen daher aus unserem Datensatz entfernt (Tabelle 2: Schritt 6, Schritt 7 und Schritt 12). Fehlende Konzentrationswerte könnten jedoch entweder bedeuten, dass mit einer bestimmten Wasserqualitätsmessung kein Wert verbunden war und daher die Beobachtung tatsächlich fehlte, oder dass es sich bei der Beobachtung um eine Nichterkennung handelte. Nicht erkannte Daten waren ein Sonderfall fehlender Daten, der im nächsten Abschnitt erläutert wird.

Beobachtungen mit Konzentrationen, die unterhalb einer Nachweisgrenze liegen, sind eine Form zensierter Daten, die als „Nichtnachweise“ bezeichnet werden, da ihr tatsächlicher Konzentrationswert irgendwo zwischen Null und der Nachweisgrenze einer bestimmten Probenverarbeitungsmethode liegt. Eine Nachweisgrenze wird nicht durch eine der Wasserprobe inhärente chemische Beschränkung bestimmt; Vielmehr ist jeder Grenzwert spezifisch für die Testmethode und -ausrüstung, die ein Labor zur Bestimmung der Konzentration eines Nährstoffs verwendet. Nicht nachgewiesene Ergebnisse werden gemeldet, wenn die Analysemethoden eines Labors nicht zwischen einer Nullkonzentration und einer positiven Konzentration unterscheiden können, die ungleich Null ist, aber unter der Nachweisgrenze liegt15,17,18. Im Allgemeinen werden je nach Überwachungsorganisation nicht erkannte Beobachtungen entweder mit Konzentrationswerten gleich Null, einer negativen Zahl oder überhaupt nicht gemeldet. Organisationen können neben nicht nachweisbaren Konzentrationswerten auch Nachweiscodes melden, um relevante Details über die Analysemethode zur Bestimmung der Konzentration und die entsprechende Nachweisgrenze anzugeben15,17. Da die analytischen Labormethoden zwischen und innerhalb von Überwachungsorganisationen und im Laufe der Zeit variieren, können mit einer bestimmten Nährstoffverbindung viele Nachweisgrenzen verbunden sein.

Für unseren Datensatz haben wir Nicht-Erkennte identifiziert, wenn zwei Bedingungen erfüllt waren: (1) wenn der gemeldete Konzentrationswert Null war, negativ war oder fehlte und (2) wenn der Erkennungscode und die Metadaten der Nachweisgrenze anzeigten, dass es sich bei der Beobachtung um eine Nicht-Erkennung handelte. erkennen17. Als Nächstes haben wir ein Flag erstellt, das die Metadaten konsolidiert, indem es angibt, welche Beobachtungen nicht erkannt wurden. Wenn der Erkennungscode oder die Metadaten der Nachweisgrenze darauf hindeuteten, dass eine Beobachtung aufgrund einer Kontamination oder Qualitätskontrollproblemen mit der Probe nicht erkannt wurde, haben wir diese Beobachtungen verworfen (Tabelle 2: Schritt 8).

Für unseren Harmonisierungsprozess haben wir nicht erkannte Beobachtungen imputiert, und unser Imputationsverfahren erforderte, dass jede nicht erkannte Beobachtung eine zugehörige Nachweisgrenze hatte (im nächsten Abschnitt ausführlich beschrieben). Wenn für eine nicht erkannte Beobachtung eine Nachweisgrenze angegeben wurde, haben wir diesen Wert verwendet. In Fällen, in denen eine Beobachtung als nicht nachweisbar identifiziert wurde, aber keine Nachweisgrenze angegeben wurde, haben wir eine Nachweisgrenze angenähert, indem wir auf der Grundlage unserer Daten für jedes Nährstoffjahr eine gemeinsame Nachweisgrenze zugewiesen haben (Tabelle 2: Schritt 14). Wir wählten einen konservativen Ansatz, indem wir davon ausgingen, dass für diese Beobachtungen die Zahl der Nicht-Erkennten mit der am wenigsten empfindlichen Methode gemessen wurde, die in unserer Stichprobe dieser Organisationen erfasst wurde.

Insbesondere wenn für eine nicht nachgewiesene Beobachtung keine Nachweisgrenze gemeldet wurde, haben wir zunächst die minimal gemeldete Konzentrationsmessung für jede Organisation-Nährstoff-Jahr-Kombination unter den Organisationen ermittelt, die in diesem Jahr Nichtnachweise ohne Nachweisgrenze melden. Wir haben diese Mindestkonzentration so interpretiert, dass sie größer oder gleich der Nachweisgrenze der von der jeweiligen Organisation verwendeten Methode ist. Als Nächstes ermittelten wir anhand dieses Satzes von Mindestkonzentrationswerten aller verschiedenen Organisationen für dasselbe Nährstoffjahr den größten Wert und ordneten diesen als gemeinsame Nachweisgrenze allen nicht erfassten Beobachtungen zu, bei denen eine Nachweisgrenze für diesen Nährstoff fehlte. Jahr. Bei der Auswahl des größten Werts gingen wir davon aus, dass diese nicht erkannten Beobachtungen mit der am wenigsten empfindlichen verfügbaren Methode gemessen wurden. Dadurch konnte die Nachweisgrenze über verschiedene Nährstoffjahre hinweg variieren, da die zur Messung der Konzentration verwendeten Labormethoden je nach Nährstoff und im Laufe der Zeit variieren konnten.

Nachdem wir nicht detektierbare Beobachtungen identifiziert hatten, die eine Nachweisgrenze hatten, haben wir deren Konzentrationswerte berechnet. Wir haben diesen Ansatz basierend auf früheren Analysen19 übernommen, anstatt alternative Substitutionen anzuwenden, die manchmal angewendet werden, wie zum Beispiel: Nicht erkannte Elemente als fehlend belassen; sie fallen lassen; oder Ersetzen durch Null, die Hälfte der Nachweisgrenze oder die Nachweisgrenze für fehlende Konzentrationswerte18. Frühere Studien haben gezeigt, dass diese einfachen Substitutionen zu einer Verzerrung der Daten führen können; wohingegen die Verwendung statistischer Imputation zur Behandlung von Nicht-Erkennungen als genauer für die Berechnung von Statistiken zu Daten mit Nicht-Erkennungen angesehen wird19. Wir verwendeten eine univariate Bayes'sche Imputationsmethode, um Konzentrationswerte für alle nicht erkannten Beobachtungen zu generieren, und nutzten dabei eine gewichtete Quantilsummenregression im Rahmen der multiplen Imputation19,20. Die für diese Imputation verwendeten Nachweisgrenzen basierten entweder auf den bereitgestellten oder auf geschätzten Nachweisgrenzen (siehe Abschnitt Nicht-Erkennungen, Nachweiscodes und Nachweisgrenzen für das Näherungsverfahren). Insbesondere verwendeten wir die Funktion impute.univariate.bayesian.mi aus dem miWQS-Paket im Comprehensive R Archive Network (CRAN)20, die univariate Bayes'sche Imputation verwendet, um Konzentrationswerte für eine bestimmte Kombination aus Standort, Nährstoff und Jahr zu schätzen. Wir haben nur Werte aus Beobachtungen verwendet, die an einem bestimmten Standort gesammelt wurden, um die unterstellten Werte an diesem Standort zu ermitteln.

Wir haben für jeden Satz von Standort-Nährstoff-Jahres-Beobachtungen in unserem Datensatz Nicht-Erkennungswerte unterstellt, bei denen weniger als 80 % der Beobachtungen als Nicht-Erkennung identifiziert wurden. Wir haben 80 % als Grenzwert gewählt, basierend auf den Leistungsindikatoren von Hargarten & Wheeler, 2020; Einige Analysen identifizierten jedoch 50 % als einen konservativeren Grenzwert19. Für jede dieser Standort-Nährstoff-Jahr-Kombinationen haben wir zehn unterstellte Datensätze (K = 10)21,22 erstellt. Wir haben die Werte der zehn unterstellten Datensätze gemittelt, um einen endgültigen Datensatz mit einem unterstellten Konzentrationswert pro nicht erfasster Beobachtung zu erstellen. Für Standort-Nährstoff-Jahr-Kombinationen, bei denen mehr als 80 % ihrer Beobachtungen als „nicht erkannt“ gekennzeichnet waren, haben wir die nicht erkannten Werte als N/A belassen und eine Markierung erstellt (die wir impute_flag nannten), damit sekundäre Benutzer wissen, welche Beobachtungen es gibt wurden nicht erkannt und anschließend unterstellt (Tabelle 2: Schritt 15).

Metadaten der Probenfraktion beschreiben den Filterstatus von Wasserqualitätsbeobachtungen und können unter anderem als „gelöst“, „gesamt“, „gefiltert“ oder „ungefiltert“ gemeldet werden. Diese Informationen geben Aufschluss über die Zusammensetzung der Partikel (Sedimente) im Vergleich zu wässrigen (flüssigen) Stoffen einer Wasserqualitätsbeobachtung. Abhängig von der Aufteilung zwischen Partikeln und wässriger Substanz können die Konzentrationswerte für denselben Nährstoff sehr unterschiedlich sein, wenn die Probenfraktion „ungefiltert“ oder „gefiltert“ ist.13,15,17 Darüber hinaus sind Metadaten der Probenfraktion für die Interpretation bei der Benennung von entscheidender Bedeutung Konventionen geben nicht die Nährstoffform an13,15.

Derzeit gibt es unseres Wissens nach keine allgemein anerkannten Berichtsstandards für Probenfraktionsmetadaten in allen Organisationen, und Metadaten, die zur Beschreibung des Filterstatus einer Wasserqualitätsbeobachtung für eine Organisation verwendet werden, können von einer anderen Organisation möglicherweise nicht auf die gleiche Weise verwendet werden. Beispielsweise können Wasserüberwachungsorganisationen den Begriff „gesamt“ unterschiedlich verwenden, was zu einer Fehlinterpretation eines Konzentrationswerts führt. In Fällen, in denen „Gesamt“ den Filterstatus einer Beobachtung beschreibt, gibt „Gesamt“ an, dass eine Probe sowohl den wässrigen als auch den Partikelanteil einer Nährstoffform (z. B. Nitrat) im Konzentrationswert enthält. Dies würde man deutlicher als „ungefilterte“ Probenfraktion beschreiben. In anderen Fällen, die nichts mit dem Filtrationsstatus zu tun haben, verwenden einige Organisationen „Gesamt“, um anzugeben, dass eine Probe mehrere chemische Nährstoffformen wie Ammoniak (NH3) und organischen Stickstoff (N) enthält und dass diese chemischen Nährstoffformen summiert werden, um die Gesamtsumme zu ermitteln Konzentration der elementaren Form des Nährstoffs (z. B. Gesamtstickstoff). Die Metadaten der Probenfraktionen geben daher deutlicher Aufschluss darüber, wie eine Wasserqualitätsbeobachtung zu interpretieren ist13,15.

Bei unterschiedlichen Probenfraktionen desselben Nährstoffs sind die Konzentrationen möglicherweise nicht vergleichbar. In unserem Datensatz haben wir Beobachtungen entfernt, wenn wir nicht sowohl die Nährstoffform als auch den Probenanteil einer Beobachtung bestimmen konnten. Wo möglich, haben wir jedoch die Nährstoffnamen harmonisiert, um die Probenfraktion einzubeziehen, z. B. „Gesamtstickstoff gefiltert“ oder „Ammoniak ungefiltert“ (Tabelle 2: Schritt 9 und Schritt 13). Diese neue Kategorisierung ermöglichte uns den Vergleich gleicher Nährstoffkonzentrationen und Probenfraktionen. Darüber hinaus haben wir Beobachtungen identifiziert und verworfen, deren gefilterte Konzentration gleich oder größer als die ungefilterte Konzentration für eine bestimmte Probe war (gleicher Standort, gleiches Datum, gleicher Nährstoff) (Tabelle 2: Schritt 19)23.

Aktivitätstyp-Metadaten beschreiben die Probenahmeaktivität, die ein Wasserqualitätsergebnis generiert, z. B. eine Feldmessung, eine Laborprobe zur Qualitätskontrolle, eine Routineprobe, eine Mischprobe oder ein Laborreplikat. Aktivitätstypen ließen sich in zwei Kategorien einteilen: (1) Aktivitätstypen, die darauf hinweisen, dass eine Wasserqualitätsmessung an einer bestimmten Wasserqualitätsüberwachungsstelle im Feld durchgeführt wurde, und (2) Aktivitätstypen, die nicht an einer Probenahmestelle im Feld durchgeführt wurden häufig mit Laborqualitätskontrollen verbunden. Wir haben Definitionen aus dem WQP-Benutzerhandbuch verwendet, um Aktivitätstypen zu identifizieren, für die keine Wasserqualitätsprobe an einem bestimmten Überwachungsort erforderlich ist, und haben diese Beobachtungen aus unserem Datensatz entfernt (Tabelle 2: Schritt 10)13,15.

Metadaten vom Ergebnistyp beschreiben den Ansatz, der zur Bestimmung des Konzentrationswerts aus einem Ergebnis verwendet wird. Ergebnistypen können beispielsweise direkte Messungen, berechnete Messungen oder Laborschätzungen sein. Wir haben die im WQP-Benutzerhandbuch bereitgestellten Definitionen verwendet, um zu bestimmen, welche Ergebnistypen auf eine Methode hinweisen, die eine zusätzliche Fehlerquelle in den Datenberichtsprozess einbringen könnte13,15. Insbesondere haben wir Beobachtungen mit Ergebnistypen, die die Begriffe „Annäherung“ oder „fundierte Vermutung“ enthielten, aus unserem Datensatz entfernt (Tabelle 2: Schritt 11).

Da der Schwerpunkt des WQP auf der Zusammenstellung diskreter Stichproben und nicht auf hochfrequenten untertägigen Stichproben23 liegt, haben wir uns für die Erstellung eines Datensatzes auf Tagesebene entschieden. Im Rahmen unseres Harmonisierungsprozesses haben wir verschiedene Arten von doppelten Beobachtungen definiert und behandelt (Tabelle 4), um sicherzustellen, dass jeder verbleibende Datenpunkt eindeutig für einen Nährstoff, eine Probenfraktion, eine Wasserüberwachungsstelle und ein Datum war (Tabelle 2: Schritt 12 und Schritt 14).

Wir haben Ausreißer identifiziert, die wahrscheinlich auf Fehlmessungen oder Berichtsfehler zurückzuführen waren, haben diese Werte jedoch in unserem endgültigen Datensatz, SNAPD, beibehalten. Für einen bestimmten Nährstoff und eine bestimmte Probenfraktion haben wir in unserer Stichprobe über alle Jahre hinweg Konzentrationswerte, die über dem 99. Perzentil lagen oder unter das 1. Perzentil lagen, unter der Variablen outlier_flag gekennzeichnet (Tabelle 2: Schritt 16).

Stickstoff- und Phosphornährstoffe können manchmal anhand ihrer Probenfraktionen kombiniert werden, um den Gesamtstickstoff oder den Gesamtphosphor zu einem bestimmten Zeitpunkt für einen bestimmten Standort zu bestimmen. Wo möglich, wurden Nährstoffe nach Anleitung des National Water Monitoring Council kombiniert, um die Vergleichbarkeit der Beobachtungen über Zeit und Raum hinweg zu verbessern15,23. Beispielsweise haben wir gelösten Stickstoff (Mischformen) mit suspendiertem Stickstoff kombiniert und diese Kombination als Gesamtstickstoff kategorisiert. In ähnlicher Weise haben wir die Konzentrationswerte von gelöstem Phosphor und partikulärem Phosphor aggregiert und das Ergebnis als Gesamtphosphor kategorisiert24. Kombinationen von Nährstoffen und deren Probenfraktionen führten zu zusätzlichen 352 Beobachtungen an Standorten, an denen der resultierende Gesamtnährstoff zum angegebenen Datum ursprünglich nicht gemessen worden war (Tabelle 2: Schritt 18).

Wir haben unseren endgültigen harmonisierten Datensatz, SNAPD, auf HydroShare25 öffentlich zugänglich gemacht. Die folgenden Variablen wurden in den endgültigen harmonisierten Datensatz aufgenommen:

Medien: das Medium, in dem die Probe entnommen wurde (z. B. Wasser)

st_abbr: der abgekürzte Name des US-Bundesstaates, in dem eine Probe entnommen wurde.

st_name: der vollständige Name des US-Bundesstaates, in dem eine Probe entnommen wurde.

org_name: Name der Organisation oder Behörde, die für die Meldung einer bestimmten Wasserprobe verantwortlich ist. Alle Organisationsnamen wurden standardisiert, z. B. wenn mehrere Schreibweisen oder Abkürzungen auf dieselbe Wasserüberwachungsorganisation verweisen.

N_or_P: Variable, die angibt, ob die Nährstoffbasis Stickstoff oder Phosphor ist.

Nährstoffname: Name der harmonisierten Nährstoffverbindung, z. B. Ammoniak.

Sample_Fraction: Beschreibung des Filterstatus des Ergebnisses, z. B. gefiltert.

nährstoffparameter: harmonisierter Nährstoffname kombiniert mit Probenfraktion, z. B. ammonia_filtered.

Jahr: Kalenderjahr, in dem die Probe entnommen wurde.

Datum: Datum, an dem die Probe entnommen wurde (Format: JJJJ-MM-TT).

MLI: Abkürzung für Monitoring Location Identifier (MLI). Hierbei handelt es sich um einen Bezeichner, der den eindeutigen Namen, die eindeutige Nummer oder den eindeutigen Code beschreibt, der zur Identifizierung des Überwachungsstandorts zugewiesen wird. Diese Variable ist ein angepasster MLI aus den Rohdaten, sodass jeder MLI eine eindeutige Kennung ist, die einem einzelnen Koordinatenpaar zugewiesen ist, an dem Wasserqualitätsproben gesammelt und Ergebnisse gemeldet wurden (siehe Abschnitt Erstellen einzigartiger Wasserüberwachungsstandorte).

Conc: Konzentrationswert für einen bestimmten Nährstoffparameter (gemeldet oder unterstellt).

Conc_units: Konzentrationseinheiten, die in Milligramm pro Liter (mg/L) gemeldet oder umgerechnet werden.

outlier_flag: mögliche Werte sind „not_flagged_as_outlier“, „potential_outlier“ oder „NA“. „not_flagged_as_outlier“ gibt an, dass die Konzentration einer Beobachtung für einen bestimmten Nährstoff innerhalb des 1. und 99. Perzentils lag; „potential_outlier“ gibt an, dass die Konzentration einer Beobachtung für einen bestimmten Nährstoff unter dem 1. oder über dem 99. Perzentil lag; und der „NA“-Wert zeigt an, dass der Konzentrationswert fehlte (da es sich um eine Nichterkennung handelte, die nicht unterstellt wurde), sodass keine Bestimmung des Ausreißerstatus durchgeführt wurde.

num_obs_per_date: Ganzzahl, die angibt, wie viele Konzentrationsmessungen durch Mittelung am selben Datum, für denselben Standort, denselben Nährstoff und dieselbe Probenfraktion kombiniert wurden.

impute_flag: Mögliche Werte sind „imputiert“, „erkannt“ oder „berechnet_durch_Kombination“. „imputiert“ bedeutet, dass die Beobachtung direkt als nicht erkannt identifiziert wurde und die Konzentrationswerte imputiert wurden; „erkannt“ bedeutet, dass die Beobachtung direkt gemessen wurde; „calculated_by_combining“ gibt an, dass die Beobachtung durch Kombination verschiedener Nährstoffe und Probenfraktionen berechnet wurde.

DL: Nachweisgrenze für Nicht-Erkennungen, die entweder angegeben oder angenähert wurde. Diese Spalte enthält nur Werte für die nicht erfassten Konzentrationen, die unterstellt wurden.

DL_units: die Einheiten für den Nachweisgrenzwert. Diese Spalte enthält nur Werte für die nicht erfassten Konzentrationen, die unterstellt wurden.

x: Längenkoordinate für den eindeutigen MLI (Standortstandort) in Metern (USA Contiguous Albers Equal Area Conic Projection, ESRI: 102003).

y: Breitenkoordinate für den eindeutigen MLI (Standortstandort) in Metern (USA Contiguous Albers Equal Area Conic Projection, ESRI: 102003).

Tabelle 5 zeigt die Anzahl der Standorte und Beobachtungen für jede Verbindung, die wir in den endgültigen harmonisierten Datensatz aufgenommen haben, und Abb. 3 zeigt die entsprechenden Standortstandorte im MARB-Netzwerk.

Räumliche Abdeckung von SNAPD im MARB26,27.

Unser sekundärer markierter Datensatz, WQP_to_SNAPD_flagged, enthält alle Rohbeobachtungen mit Datenflags und ist auch auf HydroShare25 verfügbar. Um WQP_to_SNAPD_flagged zu generieren, haben wir den gleichen Harmonisierungsprozess wie SNAPD befolgt, mit der Ausnahme, dass wir Beobachtungen gekennzeichnet haben, anstatt sie zu löschen, damit sekundäre Benutzer leichter entscheiden können, welche Aspekte unseres Harmonisierungsprozesses für ihre Interessen am relevantesten sind. Darüber hinaus wurden in diesem Datensatz weder Duplikate berücksichtigt, noch wurden Probenfraktionen zur Berechnung neuer Nährstoffkonzentrationen kombiniert. Sekundäre Benutzer können WQP_to_SNAPD_flagged harmonisieren, indem sie die Datenflags verwenden, wie in den Variablendefinitionen unten beschrieben. WQP_to_SNAPD_flagged enthält die folgenden Variablen:

st_abbr: der abgekürzte Name des US-Bundesstaates, in dem eine Probe entnommen wurde.

st_name: der vollständige Name des US-Bundesstaates, in dem eine Probe entnommen wurde.

org_name: Name der Organisation oder Behörde, die für die Meldung einer bestimmten Wasserprobe verantwortlich ist. Alle Organisationsnamen wurden standardisiert, z. B. wenn mehrere Schreibweisen oder Abkürzungen auf dieselbe Wasserüberwachungsorganisation verweisen.

N_or_P: Variable, die angibt, ob die Nährstoffbasis Stickstoff oder Phosphor ist.

nährstoffparameter: harmonisierter Nährstoffname kombiniert mit Probenfraktion, z. B. ammonia_filtered.

nährstoff_handle: vorharmonisierter Nährstoffname, z. B. ammonia_N_as_N. Diese Variable gilt nur für WQP_to_SNAPD_flagged.

new_MLI: Abkürzung für Monitoring Location Identifier. Dabei handelt es sich um einen Bezeichner, der den eindeutigen Namen, die eindeutige Nummer oder den eindeutigen Code beschreibt, der zur Identifizierung des Überwachungsstandorts zugewiesen wird. Hierbei handelt es sich um einen angepassten MLI aus den Rohdaten, sodass jeder MLI eine eindeutige Kennung ist, die einem einzelnen Standort zugeordnet ist, an dem Wasserqualitätsproben entnommen und die Ergebnisse gemeldet wurden. new_MLI entspricht der Variablen „MLI“ in SNAPD.

new_x: angepasste Längengradkoordinate für den eindeutigen MLI (Standortstandort) in Metern (USA Contiguous Albers Equal Area Conic Projection, ESRI: 102003); Dieser Wert unterscheidet sich nur von orig_x, wenn Koordinaten kombiniert wurden (siehe Combine_coord_flag). new_x entspricht der Variablen „x“ in SNAPD.

new_y: angepasste Breitengradkoordinate für den eindeutigen MLI (Standortstandort) in Metern (USA Contiguous Albers Equal Area Conic Projection, ESRI: 102003); Dieser Wert unterscheidet sich nur von orig_y, wenn Koordinaten kombiniert wurden (siehe Combine_coord_flag). new_y entspricht der Variablen „y“ in SNAPD.

Jahr: Kalenderjahr, in dem die Probe entnommen wurde.

Datum: Datum, an dem die Probe entnommen wurde (Format: JJJJ-MM-TT).

Zeit: Zeitpunkt der Probenahme (Format: hh:mm:ss), basierend auf einer 24-Stunden-Zeitskala.

chem_form_flag: Mögliche Werte sind „chem_form_known“, „chem_form_unknown“ oder „NA“. „chem_form_known“ gibt an, dass genügend Metadaten vorhanden waren, um zu interpretieren, ob die Konzentration des Nährstoffs in seiner elementaren oder molekularen Form angegeben wurde; „chem_form_unknown“ gibt an, dass nicht genügend Metadaten vorhanden waren und die chemische Form des Nährstoffs nicht bestimmt werden kann; „NA“ bedeutet, dass die Beobachtung nicht gekennzeichnet wurde, da sie bereits in einem anderen Harmonisierungsschritt als „Drop“ gekennzeichnet wurde. Diese Variable gilt nur für WQP_to_SNAPD_flagged.

new_conc: angepasstes Konzentrationsmaß für den analysierten Nährstoff. Wenn möglich, stellt dieser Wert die Konzentration dar, die in die elementare Form umgewandelt wurde, und zwar in mg/L. new_conc entspricht der Variablen „conc“ in SNAPD.

new_conc_units: Angepasste Konzentrationseinheiten, angegeben in mg/L als N oder mg/L als P. new_conc_units entspricht der Variablen „conc_units“ in SNAPD.

new_DL: Nachweisgrenzwert für nicht erkannte Beobachtungen. Dies wird entweder gemeldet oder geschätzt, wenn die Nachweisgrenze nicht angegeben ist. new_DL entspricht der Variablen „DL“ in SNAPD.

new_DL_units: angepasste Konzentrationseinheiten für Nachweisgrenzen, die in mg/L als N oder mg/L als P gemeldet werden. new_DL_units entspricht der Variablen „DL_units“ in SNAPD.

ND_flag: eine Variable, die alle nicht erkannten Metadaten aus anderen Spalten konsolidiert. Mögliche Werte sind „keep“, „ND“, „drop“ oder „NA“. „behalten“ zeigt an, dass die Konzentration erkannt wurde; „ND“ gibt an, dass die Beobachtung als nicht erkannt gekennzeichnet wurde; „drop“ gibt an, dass die Beobachtung aufgrund unzureichender oder minderwertiger Metadaten verworfen werden sollte; „NA“ bedeutet, dass die Beobachtung nicht gekennzeichnet wurde, da sie bereits in einem anderen Harmonisierungsschritt als „Drop“ gekennzeichnet wurde. Diese Variable gilt nur für WQP_to_SNAPD_flagged.

impute_flag: Mögliche Werte sind „dont_impute“, „impute“ oder „NA“. „dont_impute“ gibt an, dass der Konzentrationswert nicht unterstellt wurde, entweder weil der Konzentrationswert bereits bereitgestellt wurde oder weil 80 % oder mehr der Beobachtungen für ein bestimmtes Nährstoffprobenfraktions-Standort-Jahr Nicht-Erkennungen waren; „imputieren“ gibt an, dass alle Nichtdetektionen an einem bestimmten Nährstoffprobenfraktionsstandort und -jahr unterstellt wurden; „NA“ bedeutet, dass die Beobachtung nicht gekennzeichnet wurde, da sie bereits in einem anderen Harmonisierungsschritt als „Drop“ gekennzeichnet wurde. impute_flag ähnelt hier „impute_flag“ in SNAPD, hat jedoch andere mögliche Werte, da Nährstoffprobenfraktionen in WQP_to_SNAPD_flag nicht kombiniert wurden.

Sample_Fraction: Beschreibung des Filterstatus des Ergebnisses, z. B. gefiltert.

sample_fraction_flag: Mögliche Werte sind „keep“, „drop“ oder „NA“. „behalten“ gibt an, dass die Probenfraktion entweder direkt ungefiltert oder gefiltert bereitgestellt wurde oder davon ausgegangen werden kann, dass sie dasselbe darstellt (z. B. gelöst oder gefiltert); „Tropfen“ gibt an, dass die Probenfraktion weder ungefiltert noch gefiltert war oder eine Variation davon (z. B. Bettsediment) aufwies; „NA“ bedeutet, dass die Beobachtung nicht gekennzeichnet wurde, da sie bereits in einem anderen Harmonisierungsschritt als „Drop“ gekennzeichnet wurde. Diese Variable gilt nur für WQP_to_SNAPD_flagged.

result_type: eine kurze Beschreibung des Prozesses, der bei der Bestimmung des Konzentrationswerts verwendet wurde, z. B. tatsächlich, geschätzt oder berechnet. Diese Variable wurde in SNAPD harmonisiert und ist in WQP_to_SNAPD_flagged enthalten, um Sekundärbenutzern die Rohmetadaten bereitzustellen.

result_type_flag: Mögliche Werte sind „keep“, „drop“ und „NA“. „behalten“ gibt an, dass der Ergebnistyp bereitgestellt wurde und von angemessener Qualität ist; „Abfall“ gibt an, dass der Ergebnistyp „geschätzt“ wurde und kann zu Fehlern im gemeldeten Konzentrationswert führen; „NA“ bedeutet, dass die Beobachtung nicht gekennzeichnet wurde, da sie bereits in einem anderen Harmonisierungsschritt als „Drop“ gekennzeichnet wurde. Diese Variable gilt nur für WQP_to_SNAPD_flagged.

Medien: das Medium, in dem die Probe entnommen wurde (z. B. Wasser).

media_flag: mögliche Werte sind „keep“ oder „drop“. „behalten“ bedeutet, dass die Probe in Wasser entnommen wurde; „Tropfen“ bedeutet, dass die Probe in einem anderen Medium als Wasser entnommen wurde. Diese Variable gilt nur für WQP_to_SNAPD_flagged.

Aktivitätstyp: Text, der den Zweck der Wasserqualitätsbeobachtung beschreibt, z. B. zur Wasserüberwachung oder Laborqualitätskontrolle. Diese Variable wurde in SNAPD harmonisiert und ist in WQP_to_SNAPD_flagged enthalten, um Sekundärbenutzern die Rohmetadaten bereitzustellen.

activity_type_flag: mögliche Werte sind „keep“, „drop“ und „NA“. „behalten“ gibt an, dass die Aktivitätsart angegeben wurde und die Probe an einer Wasserüberwachungsstelle entnommen wurde; „Tropfen“ gibt an, dass die Aktivitätsart Qualitätskontrollzwecken diente oder nicht an einer Wasserüberwachungsstelle durchgeführt wurde; „NA“ bedeutet, dass die Beobachtung nicht gekennzeichnet wurde, da sie bereits in einem anderen Harmonisierungsschritt als „Drop“ gekennzeichnet wurde. Diese Variable gilt nur für WQP_to_SNAPD_flagged.

filt2unfilt_flag: mögliche Werte sind „keep“, „unfilt conz < = filt conz“ oder „NA“. „behalten“ bedeutet, dass, wenn sowohl gefilterte als auch ungefilterte Probenfraktionen am selben Datum und am selben Ort gemessen wurden, die gefilterte Konzentrationsmessung geringer war als die ungefilterte Konzentration in derselben Probe; „ungefilterte Konzentration < = gefilterte Konzentration“ zeigt an, dass eine ungefilterte Konzentrationsmessung kleiner oder gleich der gefilterten Konzentration in derselben Probe war und verworfen werden sollte; „NA“ zeigt an, dass an einem bestimmten Standort nicht beide Probenfraktionen für einen bestimmten Nährstoff am selben Tag gemessen wurden. Diese Variable gilt nur für WQP_to_SNAPD_flagged.

analytische_Methode: die vom Herausgeber der Labormethode zugewiesene Identifikationsnummer oder der Code. Diese Variable wurde in SNAPD harmonisiert und ist in WQP_to_SNAPD_flagged enthalten, um Sekundärbenutzern die Rohmetadaten bereitzustellen.

Anbieter: der Name der Datenbank, die die Daten an das Wasserqualitätsportal bereitgestellt hat (z. B. WQX, NWIS, STEWARDS). Diese Variable gilt nur für WQP_to_SNAPD_flagged.

orig_conc: das gemeldete Konzentrationsmaß für eine bestimmte Nährstoffverbindung in den Rohdaten. Diese Variable gilt nur für WQP_to_SNAPD_flagged.

orig_conc_units: die gemeldeten Konzentrationseinheiten, die in den Rohdaten bereitgestellt werden.

conc_flag: Mögliche Werte sind „keep“, „drop“ und „NA“. „behalten“ gibt an, dass der Konzentrationswert bereitgestellt wurde; „Tropfen“ gibt an, dass der Rohkonzentrationswert negativ, Null oder Text war und nicht als nicht erkannt identifiziert wurde; „NA“ bedeutet, dass die Beobachtung nicht gekennzeichnet wurde, da sie bereits in einem anderen Harmonisierungsschritt als „Drop“ gekennzeichnet wurde. Diese Variable gilt nur für WQP_to_SNAPD_flagged.

Conc_unit_flag: Mögliche Werte sind „keep“, „drop“ und „NA“. „behalten“ gibt an, dass die Konzentrationseinheit angegeben wurde und in mg/L als N oder mg/L als P umgerechnet werden kann; „Tropfen“ zeigt an, dass die Konzentrationseinheit entweder fehlte oder nicht in mg/L als N oder mg/L als P umgewandelt werden konnte; „NA“ bedeutet, dass die Beobachtung nicht gekennzeichnet wurde, da sie bereits in einem anderen Harmonisierungsschritt als „Drop“ gekennzeichnet wurde. Diese Variable gilt nur für WQP_to_SNAPD_flagged.

orig_DL_val: Nachweisgrenzwert, der in den Rohdaten bereitgestellt wird. Diese Variable wurde in SNAPD harmonisiert.

orig_DL_units: Einheiten der Nachweisgrenzenkonzentration, die in den Rohdaten bereitgestellt werden. Diese Variable wurde in SNAPD harmonisiert.

DL_code: ein Code zur Identifizierung aller Qualifizierungsprobleme, die sich auf die Konzentrationsergebnisse ausgewirkt haben. Diese Variable wurde in SNAPD harmonisiert.

DL_text: Textbeschreibung eines Ergebnisses, die häufig auf Nichterkennungs- oder Qualitätskontrollprobleme für eine bestimmte Beobachtung hinweist. Diese Variable wurde in SNAPD harmonisiert.

orig_MLI: MLI ist eine Abkürzung für Monitoring Location Identifier, ein Bezeichner zur Beschreibung des eindeutigen Namens, der Nummer oder des Codes, der zur Identifizierung des Überwachungsstandorts zugewiesen wird. Dies ist das Original-MLI aus dem Rohdaten-Download. Hinweis: Nicht alle MLIs sind für einen Beispielstandort eindeutig (siehe dup_MLI_flag). Diese Variable wurde in SNAPD harmonisiert.

dup_MLI_flag: Mögliche Werte sind „one_MLI“ oder „dup_MLI“. „one_MLI“ gibt an, dass einem bestimmten Koordinatenpaar (x, y) nur ein MLI zugeordnet war; „dup_MLI“ gibt an, dass einem bestimmten Koordinatenpaar (x, y) mehr als ein MLI zugeordnet war. Diese Variable gilt nur für WQP_to_SNAPD_flagged.

num_MLIs_at_loc: Ganzzahl, die die Anzahl der eindeutigen MLIs darstellt, die einem bestimmten Koordinatenpaar (x, y) zugeordnet waren. Diese Variable gilt nur für WQP_to_SNAPD_flagged.

orig_x: Rohlängenkoordinate für den MLI (Standortstandort) in Metern (USA Contiguous Albers Equal Area Conic Projection, ESRI: 102003). Diese Variable wurde in SNAPD harmonisiert.

orig_y: rohe Breitenkoordinate für den MLI (Standortstandort) in Metern (USA Contiguous Albers Equal Area Conic Projection, ESRI: 102003). Diese Variable wurde in SNAPD harmonisiert.

num_coords_at_loc: Ganzzahl, die die Anzahl der eindeutigen Koordinatenpaare (x, y) darstellt, die einem MLI zugeordnet waren. Diese Variable gilt nur für WQP_to_SNAPD_flagged.

dup_coords_flag: Mögliche Werte sind „one_coord_set“ oder „dup_coords“. „one_coord_set“ gibt an, dass einem bestimmten MLI ein eindeutiges Koordinatenpaar (x, y) zugeordnet war; „dup_coords“ gibt an, dass einem bestimmten MLI mehrere eindeutige Koordinatenpaare (x, y) zugeordnet waren. Diese Variable gilt nur für WQP_to_SNAPD_flagged.

Combine_coords_flag: mögliche Werte sind „combine“ oder „keep_separate“. „kombinieren“ gibt an, dass mit einem MLI mehrere Koordinaten im Umkreis von 400 m verknüpft waren und diese Koordinaten so konsolidiert wurden, dass einem bestimmten MLI ein eindeutiges Koordinatenpaar zugewiesen wurde; „Getrennt halten“ bedeutet, dass mit einem MLI mehrere Koordinaten in einem Abstand von mehr als 400 m verbunden waren und an diesen Koordinaten keine Änderungen vorgenommen wurden. Diese Variable gilt nur für WQP_to_SNAPD_flagged.

pct1: Zahlenwert, der das (untere) 1. Perzentil aller Konzentrationswerte für einen bestimmten Nährstoff angibt. Diese Variable gilt nur für WQP_to_SNAPD_flagged.

pct99: Zahlenwert, der das (obere) 99. Perzentil aller Konzentrationswerte für einen bestimmten Nährstoff angibt. Diese Variable gilt nur für WQP_to_SNAPD_flagged.

outlier_flag: Mögliche Werte sind „not_flagged_as_outlier“, „potential_outlier“ oder „NA“. „not_flagged_as_outlier“ gibt an, dass die Konzentration einer Beobachtung für einen bestimmten Nährstoff innerhalb des 1. und 99. Perzentils lag; „potential_outlier“ gibt an, dass die Konzentration einer Beobachtung für einen bestimmten Nährstoff unter dem 1. oder über dem 99. Perzentil lag; Der Wert „NA“ zeigt an, dass diese Beobachtung bereits in einem anderen Harmonisierungsschritt als „Abfall“ gekennzeichnet wurde. Diese Variable entspricht der Variablen „outlier_flag“ in SNAPD.

num_obs_per_date: Ganzzahl, die die Anzahl der für ein bestimmtes Datum, MLI, Koordinatenpaar, Nährstoff und Probenfraktion gemeldeten Beobachtungen angibt. Diese Variable entspricht der Variablen „outlier_flag“ in SNAPD.

num_orgs_per_obs: Ganzzahl, die die Anzahl der Organisationen angibt, die denselben Datensatz für ein bestimmtes Datum, MLI, Koordinatenpaar, Nährstoff, Konzentration und Probenfraktion melden. Diese Variable gilt nur für WQP_to_SNAPD_flagged.

num_nds_per_obs: Ganzzahl, die die Anzahl der Erkennungscodes (nicht erkannt oder beobachtet) angibt, die für ein bestimmtes Datum, MLI, Koordinatenpaar, Nährstoff und Probenfraktion gemeldet wurden. Diese Variable gilt nur für WQP_to_SNAPD_flagged.

num_conc_per_time: Ganzzahl, die die Anzahl der gemeldeten Beobachtungen für eine bestimmte Zeit, ein bestimmtes Datum, einen MLI, ein Koordinatenpaar, einen bestimmten Nährstoff und eine bestimmte Probenfraktion angibt. Diese Variable gilt nur für WQP_to_SNAPD_flagged.

pct_ND: Prozentsatz der Beobachtungen für eine bestimmte Wasserüberwachungsstelle (eindeutige MLI- und Koordinatenpaarkombination), Nährstoff, Probenanteil, die nicht erkannt wurden. Ein „NA“-Wert zeigt an, dass diese Beobachtung bereits in einem früheren Harmonisierungsschritt als verworfen markiert wurde. Diese Variable gilt nur für WQP_to_SNAPD_flagged.

date_flag: mögliche Werte sind „keep“ oder „drop“. „keep“ gibt an, dass der Datensatz einen vollständigen Datumswert hatte; „drop“ gibt an, dass dem Datensatz kein Datum zugeordnet war. Diese Variable gilt nur für WQP_to_SNAPD_flagged.

Obwohl wir keine direkte Kontrolle über die Qualität der im WQP enthaltenen Rohdaten hatten, stellten wir eine Methode vor, die Metadaten zur Wasserqualität auf eine Weise harmonisierte, die sowohl empfohlen als auch notwendig war, um die Daten zu interpretieren und Vergleiche über Raum und Zeit hinweg anzustellen. Unser Harmonisierungsprozess folgte den Best Practices der WQX, des USGS und der US EPA, sofern verfügbar13,15,17, zusätzlich zu den oben beschriebenen Standardmethoden zur Datenbereinigung.

Allerdings weist unser Datensatz einige Einschränkungen auf. Da wir uns für die Erstellung eines Datensatzes auf Tagesebene entschieden haben, bietet SNAPD nicht die Details, die sekundäre Benutzer benötigen, um Wasserqualitätstrends in einem Fluss oder Bach auf einer detaillierteren Zeitskala zu untersuchen. Darüber hinaus haben wir in unserem Harmonisierungsprozess einige Annahmen getroffen (z. B. Kombination von Koordinaten und MLIs, Annäherung an Nachweisgrenzen und Kennzeichnung von Ausreißern), die andere Benutzer aufgrund ihrer Datenanforderungen möglicherweise nicht treffen möchten. Alle Annahmen werden oben detailliert beschrieben und im Zwischendatensatz WQP_to_SNAPD_flagged gekennzeichnet, wodurch sekundären Benutzern die Flexibilität gegeben wird, eine Version ihres eigenen harmonisierten Datensatzes zu erstellen.

Unser Harmonisierungsprozess wurde von einem externen, unabhängigen Forscher geprüft, der nicht mit diesem Projekt verbunden ist, um die Logik unseres Codes zu überprüfen, die Ergebnisse jedes Schritts zu überprüfen und die Reproduzierbarkeit unseres Prozesses und des endgültigen Datensatzes sicherzustellen. Wir haben während unseres Harmonisierungsprozesses auch unsere Daten überprüft, um sicherzustellen, dass unsere Datenausgaben angemessen sind, z. B. um sicherzustellen, dass es keine negativen Konzentrationswerte gibt und dass die gefilterten Konzentrationen geringer sind als die ungefilterten Konzentrationen in derselben Probe. Der gesamte Code ist öffentlich verfügbar (siehe Codeverfügbarkeit).

Unser Harmonisierungsprozess identifizierte Messungen, die in chemischer Hinsicht vergleichbar waren, die jedoch in den WQP-Rohdaten aufgrund von Unterschieden in der Kennzeichnung, Messmethoden, mehrdeutigen Metadaten usw. nicht leicht vergleichbar gewesen wären. Um zu zeigen, dass unsere harmonisierten Daten die Anzahl der Beobachtungen verbessert haben Um die Werte miteinander vergleichen zu können, haben wir uns als Beispiele auf zwei Nährstoffe konzentriert: Gesamtstickstoff (TN) und Gesamtphosphor (TP). Wir haben die Verteilung der vorharmonisierten Wasserqualitätskonzentration neben den harmonisierten Daten für TN und TP aufgezeichnet (Abb. 4). Für die vorharmonisierten Daten haben wir in den Rohdaten nur Beobachtungen berücksichtigt, die als TN oder TP identifiziert wurden. Um die Konzentrationen zwischen den vorharmonisierten und harmonisierten Datensätzen zu vergleichen, haben wir die Daten logarithmisch transformiert. Bemerkenswert ist, dass der harmonisierte Datensatz etwa sechsmal so viele vergleichbare Beobachtungen für TN und dreizehnmal so viele für TP wie die vorharmonisierten Daten wiederhergestellt hat, da unser Harmonisierungsprozess es uns ermöglichte, standardisierte Beobachtungen auf der Grundlage der verfügbaren Metadaten zu vergleichen.

Verteilung der vorharmonisierten bis harmonisierten Wasserqualitätskonzentrationsdaten für alle Wasserüberwachungsstandorte, die TN und TP in unseren abgerufenen Daten messen. Die hier dargestellte harmonisierte TN-Verteilung umfasst Wasserqualitätsbeobachtungen, die zuvor als Stickstoff, gemischte Stickstoffformen oder Gesamtstickstoff gekennzeichnet wurden und nun auf der Grundlage unserer Methoden als TN klassifiziert werden. Ebenso werden Wasserqualitätsbeobachtungen, die zuvor als Phosphor, Phosphormischformen oder Gesamtphosphor gekennzeichnet waren, jetzt auf der Grundlage unserer Methoden als TP klassifiziert.

Ein Beitrag unseres Harmonisierungsprozesses ist die Standardisierung von Wasserqualitätsmetadaten über verschiedene Berichtsstandards hinweg. Dies gilt für alle Organisationen, die möglicherweise unterschiedliche interne Standards haben, aber auch innerhalb von Organisationen, wo sich Standards im Laufe der Zeit ändern, ungenau definiert sein können oder die Einhaltung unzureichend ist.

Hier haben wir die Verteilung der Wasserqualitätskonzentrationen (logarithmisch transformiert) für ausgewählte Organisationen im MARB aufgezeichnet, die zwischen 1980 und 2018 TN oder TP gemessen haben, sowohl für die vorharmonisierten als auch für die harmonisierten Daten (Abb. 5). Wir stellten Beispiele von Organisationen vor, die nach unserem Harmonisierungsprozess Verteilungsverschiebungen bei den Nährstoffkonzentrationen aufwiesen. Bei dieser Auswahl von Organisationen stellen wir fest, dass die harmonisierten Verteilungsmittel im Vergleich zueinander stärker angeglichen sind als die der vorharmonisierten Konzentrationsdaten. Dies könnte darauf hindeuten, dass unser Harmonisierungsprozess zu vergleichbareren Nährstoffkonzentrationen in allen Organisationen geführt hat.

Verteilung der vorharmonisierten zu harmonisierten Daten für ausgewählte Wasserüberwachungsorganisationen zur Messung von (a) Gesamtstickstoff und (b) Gesamtphosphor. Zur Darstellung haben wir Organisationen ausgewählt, bei denen sich unser Harmonisierungsprozess sowohl auf die Anzahl der Beobachtungen als auch auf die Verteilung ausgewirkt hat. Wir haben alle Rohmessungen für TN oder TP einbezogen, die mithilfe ihrer Metadaten harmonisiert werden können. Die vorharmonisierten Verteilungen umfassten Beobachtungen zur Messung des Gesamtphosphors, der Gesamtphosphormischformen und des Phosphors für phosphorbasierte Nährstoffe; und Stickstoff, Stickstoffmischformen und Gesamtstickstoffmischformen für stickstoffbasierte Nährstoffe. Die Verteilungen für die harmonisierten Daten enthielten weniger Beobachtungen als die für die vorharmonisierten Beobachtungen, da wir Beobachtungen weggelassen haben, wenn sie nicht auf der Grundlage von Metadaten harmonisiert werden konnten.

Darüber hinaus könnte das Vorhandensein einer multimodalen Verteilung darauf hinweisen, dass innerhalb einer bestimmten Organisation eine gewisse interne Inkonsistenz besteht. Beispielsweise kann eine Organisation unterschiedliche Praktiken zur Datenberichterstattung für verschiedene Nährstoffverbindungen haben (z. B. Nährstoffbenennung und Konzentrationseinheiten) und/oder ihre Mess- und Labormethoden können sich im Laufe der Zeit geändert haben. Ohne eine sekundäre Quelle der Grundwahrheit ist es nicht möglich, mit Sicherheit zu wissen, ob Verteilungsverschiebungen der Nährstoffkonzentration auf tatsächlich veränderte Umweltbedingungen oder auf Änderungen in der Berichterstattung über Umweltbedingungen zurückzuführen sind. Allerdings könnten Fälle, in denen sich unser Harmonisierungsprozess auf die Verteilungsmodalität innerhalb einer Organisation auswirkte, Anscheinsbeweise dafür liefern, dass eine inkonsistente Berichterstattung die Ursache für die multimodale Verteilung vor der Harmonisierung gewesen sein könnte und nicht die tatsächlichen Umweltbedingungen.

Während Abbildung 5 Beispiele von Organisationen mit Verteilungsverschiebungen von vor bis nach der Harmonisierung zeigt, ist es wichtig zu beachten, dass viele hier nicht gezeigte Organisationen keine ähnlichen Verschiebungen zeigten. Möglicherweise gibt es physikalische Prozesse, die sowohl vor als auch nach der Harmonisierung zu einer gültigen multimodalen Verteilung führen. Wenn die Berichtsstandards einer Organisation intern konsistent wären, würden wir nicht erwarten, dass sich die Modalität bestimmter Nährstoffkonzentrationen ändert.

Abbildung 5 zeigt, wie unser Harmonisierungsprozess die Verteilung der Nährstoffkonzentrationen innerhalb der Organisation auf unterschiedliche Weise verändert hat, was darauf hindeutet, dass die vorharmonisierten Daten Beobachtungen enthielten, die wahrscheinlich sowohl zwischen Organisationen als auch innerhalb von Organisationen nicht vergleichbar waren.

Schließlich untersuchten wir Konzentrationseinheiten als ein Beispiel für Metadaten, die wir harmonisierten. Wir haben die Konzentrationseinheiten für alle Stickstoffverbindungen in „mg/L als N“ und für Phosphorverbindungen in „mg/L als P“ umgerechnet. In unserer Stichprobe gab es 32 vorharmonisierte Konzentrationseinheiten für Stickstoffverbindungen und 21 für Phosphorverbindungen. Diese Einheiten konnten nicht direkt miteinander verglichen werden. Hier haben wir mit einem Sankey-Diagramm die Umwandlung vorharmonisierter Konzentrationseinheiten in harmonisierte Einheiten demonstriert (Abb. 6).

Sankey-Diagramme, die den Datenharmonisierungsprozess für Konzentrationseinheitsmetadaten für alle Stickstoff- und Phosphorverbindungen in unserer Probe veranschaulichen. Zur Visualisierung haben wir Konzentrationseinheiten mit 50.000 Beobachtungen oder weniger in einer „Sonstige“-Kategorie zusammengefasst. (a) Harmonisierung der Einheiten für Stickstoffverbindungen. Für Stickstoffverbindungen umfasst die andere Kategorie die folgenden Konzentrationseinheiten: #/100 ml, %, Vol.-%, Gew.-%, % Rückgewinnung, cm3/g @stp, cm3/g stp, g/kg, g/m2, mg N/l, mg/g, mg/kg, mg/kg als N, mg/m2 NH4, mgd, MPN, MPN/100 ml, keine, NTU, pci/l, ppb, ppm, ueq/l, ug /kg, ug/l, ug/l als N und umol/l. (b) Harmonisierung der Einheiten für Phosphorverbindungen. Für Phosphorverbindungen umfasst die andere Kategorie die folgenden Konzentrationseinheiten: #/100 ml, %, KBE/100 ml, g/kg, g/m2, lb/Tag, mg/g, mg/kg, mg/kg als P , mg/kg PO4, ml/l, mV, keine, ppb, ppm, ug/l und ug/l als P.

Unser Harmonisierungsprozess umfasste die Konvertierung und/oder Skalierung von Konzentrationsdaten, damit die Beobachtungen zur Wasserqualität vergleichbar waren. Während einige Konzentrationseinheiten offenbar von allen Wasserqualitätsorganisationen im MARB häufig gemeldet werden, waren diese allgemeinen Kategorien in den vorharmonisierten Daten nicht miteinander vergleichbar. Alle Beobachtungen müssen in den gleichen Konzentrationseinheiten erfolgen, um vergleichbar zu sein. Abbildung 6 verdeutlicht die große Vielfalt der im Rohdatensatz angegebenen Konzentrationseinheiten. Die Harmonisierung der Konzentrationseinheiten war einer von vielen Schritten in unserem Prozess, die standardisiert werden mussten. Im Rahmen unseres Prozesses haben wir Beobachtungen identifiziert und in standardisierte Einheiten und chemische Formen umgewandelt. Dadurch konnten wir 81 % bzw. 75 % der vorharmonisierten Beobachtungen für Stickstoff- und Phosphorverbindungen standardisieren. Doch selbst nach der Harmonisierung der Konzentrationseinheiten auf eine Standardeinheit für Stickstoff- und Phosphorverbindungen wurden viele Beobachtungen letztendlich aufgrund anderer Probleme mit der Metadatenqualität nicht in unseren endgültigen Datensatz aufgenommen. Beispielsweise fehlten bei einigen Beobachtungen ausreichende Informationen, die es uns ermöglichen würden, Messungen in mg/L umzurechnen, wie etwa „% Wiederfindung“ oder „cm3/g“.

Unser Hauptbeitrag ist der Standardized Nitrogen and Phosphorus Dataset (SNAPD), der erste harmonisierte Datensatz, der den Vergleich von N- und P-Konzentrationen über Standorte hinweg und über einen Zeitraum von vier Jahrzehnten im gesamten Mississippi/Atchafalaya-Flussbecken ermöglicht. Dieser Datensatz wurde erstellt, indem Daten von 226 verschiedenen Organisationen kombiniert und alle Beobachtungen auf der Grundlage heterogener Metadaten in vergleichbare Nährstoffformen umgewandelt wurden. Wenn eine Standardisierung nicht möglich war, weil die erforderlichen Informationen nicht wiederhergestellt werden konnten, wurden Beobachtungen aus der Stichprobe entfernt. Unseres Wissens ist dies der erste Datensatz, der die Beobachtungen der Wasserqualität über Raum und Zeit hinweg in diesem Maßstab für ein beliebiges Flusseinzugsgebiet standardisiert.

Wir versehen den Zwischendatensatz auch mit Flags, WQP_to_SNAPD_flagged, um sekundären Benutzern mehr Flexibilität bei der Erstellung eines auf ihre Bedürfnisse zugeschnittenen Datensatzes zu bieten. Mit WQP_to_SNAPD_flagged können Benutzer unsere Annahmen ändern oder unsere Harmonisierungsschritte verfeinern, z. B. die Schwellenwerte für die Erkennung von Ausreißern ändern oder Nicht-Erkennungen unterstellen.

Es ist wichtig zu beachten, dass unser harmonisierter Datensatz SNAPD eine Teilmenge der verfügbaren Wasserqualitätsdaten ist, die im WQP gespeichert sind. Während unsere Methoden spezifisch für das Mississippi/Atchafalaya-Flussbecken und die von uns ausgewählten Nährstoffe sind, wenden andere Benutzer unsere Harmonisierungsschritte möglicherweise auf eine andere Region oder andere Wasserqualitätsvariablen an und behalten viele der gleichen Schritte bei. Wir haben unseren Prozess detailliert dokumentiert und die wichtigsten Herausforderungen bei der Arbeit mit Wasserqualitätsdaten identifiziert, damit zukünftige Benutzer diese Daten besser verstehen und/oder Entscheidungen entsprechend ihren Forschungsinteressen treffen können.

Zur Implementierung unserer Harmonisierungsmethode verwendeten wir R Version 4.0.3, eine Open-Source-Programmiersprache und -Umgebung für statistische Berechnungen. Der vollständige Harmonisierungsprozess, angefangen vom Datenabruf bis zur Erstellung des endgültigen Datensatzes, wird in R-Skripten bereitgestellt. Der gesamte Code, die Dateneingaben, der endgültige Datensatz (SNAPD) und der markierte Zwischendatensatz (WQP_to_SNAPD_flagged) sind auf HydroShare hier öffentlich verfügbar: https://doi.org/10.4211/hs.9547035cf37940eb9b500b7994a378a125.

State-EPA-Arbeitsgruppe für Nährstoffinnovationen. Ein dringender Aufruf zum Handeln – Bericht der State-EPA Nutrient Innovations Task Group https://www.epa.gov/sites/default/files/documents/nitgreport.pdf (2009).

Hypoxie-Task Force Mississippi/Golf von Mexiko. Das Mississippi/Atchafalaya River Basin (MARB) https://www.epa.gov/ms-htf/mississippiatchafalaya-river-basin-marb (2021).

Dressing, SA et al. Überwachung und Bewertung von Wassereinzugsgebietsprojekten ohne punktuelle Quelle. Bericht Nr. EPA 841-R-16-010 (United States Environmental Protection Agency, Office of Water, Nonpoint Source Control Branch, 2016).

Carpenter, SR et al. Punktuelle Verschmutzung von Oberflächengewässern mit Phosphor und Stickstoff. Ökologische Anwendungen 8(Nr. 3), 559–568 (1998).

Artikel Google Scholar

Stickstoff- und Phosphorverschmutzung im Einzugsgebiet des Mississippi: Ergebnisse der Bewertung der Wadeable Streams. Bericht Nr. EPA 841-F-11-004 (Umweltschutzbehörde der Vereinigten Staaten, Office of Water Monitoring Branch, 2011).

Nationales Wasserqualitätsinventar: Bericht an den Kongress. Bericht Nr. EPA 841-R-16-011 (United States Environmental Protection Agency, 2017).

Kaufman, L. Chemikalien in Farm Runoff Rattle States am Mississippi. https://www.nytimes.com/2011/06/03/science/earth/03runoff.html (2011).

Nationale Ozean- und Atmosphärenbehörde (NOAA). Was ist Eutrophierung? https://oceanservice.noaa.gov/facts/eutrophication.html (2017).

Diaz, RJ & Rosenberg, R. Ausbreitung toter Zonen und Folgen für Meeresökosysteme. Wissenschaft 321, 926–929 (2008).

Artikel ADS CAS Google Scholar

NOAA. Überdurchschnittlich große „tote Zone“ im Golf von Mexiko gemessen https://www.noaa.gov/news-release/larger-than-average-gulf-of-mexico-dead-zone-measured (2021).

Boehm, R. Wiederbelebung der toten Zone: Lösungen, die sowohl den Fischern an der Golfküste als auch den Landwirten im Mittleren Westen zugute kommen. Union of Concerned Scientists https://www.ucsusa.org/resources/reviving-dead-zone (2020).

Myers, DN Grundlagen der Überwachung und Bewertung der Wasserqualität in den Vereinigten Staaten. Nahrung, Energie und Wasser, 21–92 (2015).

Nationaler Rat zur Überwachung der Wasserqualität. Wasserqualitätsportal https://www.waterqualitydata.us/ (2019).

Read, EK et al. Daten zur Wasserqualität für die Wasserforschung auf nationaler Ebene: Das Wasserqualitätsportal. Water Resources Research 53(2), 1735–1745 (2017).

Artikel ADS Google Scholar

Sprague, LA, Oelsner, GP & Argue, DM Herausforderungen bei der sekundären Nutzung von Wasserqualitätsdaten aus mehreren Quellen in den Vereinigten Staaten. Wasserforschung 110, 252–261 (2017).

Artikel CAS Google Scholar

Nationaler Rat zur Überwachung der Wasserqualität. Nationaler Umweltmethodenindex https://www.nemi.gov/home/ (2002).

United States Environmental Protection Agency, United States Geological Survey & Water Quality eXchange. Best Practices für die Übermittlung von Nährstoffdaten an Water Quality eXchange (WQX) https://www.epa.gov/sites/default/files/2017-06/documents/wqx_nutrient_best_practices_guide.pdf (2017).

Helsel, DR Mehr als offensichtlich: bessere Methoden zur Interpretation nicht erkannter Daten. Umweltwissenschaft und -technologie 39(20), 419A–423A (2005).

Artikel ADS CAS Google Scholar

Hargarten, PM & Wheeler, DC miWQS: Multiple Imputation unter Verwendung der gewichteten Quantilsummenregression. The R Journal 12(2), 226–250 (2020).

Artikel Google Scholar

Hargarten, PM & Wheeler, DC Multiple Imputation unter Verwendung der gewichteten Quantilsummenregression. https://cran.r-project.org/web/packages/miWQS/miWQS.pdf (2021).

White, IR, Royston, P. & Wood, AM Multiple Imputation unter Verwendung verketteter Gleichungen: Probleme und Anleitungen für die Praxis. Stat. Med. 30(4), 377–399 (2011).

Artikel MathSciNet Google Scholar

Dong, Y. & Peng, CY. J. Prinzipielle Methoden für fehlende Daten für Forscher. SpringerPlus 2 (2013).

Shoda, ME, Murphy, JC, Falcone, JA & Duris, JW Multisource-Daten zur Oberflächenwasserqualität und Streamgage-Übereinstimmung des US Geological Survey für das Delaware River Basin. Wissenschaftlicher Datenkatalog https://doi.org/10.5066/P9PX8LZO (2019).

Caffrey, J. et al. Nährstoffanforderungen für das National Water Quality Monitoring Network für US-Küstengewässer und ihre Nebenflüsse. https://acwi.gov/monitoring/network/nutritives.pdf (Beratender Ausschuss für Wasserinformationen, 2007).

Krasovich, E. et al. Standardisierter Stickstoff- und Phosphor-Datensatz (SNAPD). HydroShare https://doi.org/10.4211/hs.9547035cf37940eb9b500b7994a378a1 (2022).

Schwartz, M. Mississippi River Basin. ScienceBase https://www.sciencebase.gov/catalog/item/55de04d5e4b0518e354dfcf8 (2015).

US-Volkszählungsamt. 2017 TIGER/Line Shapefiles. http://www2.census.gov/geo/tiger/TIGER2017/STATE/tl_2017_us_state.zip (2017).

Referenzen herunterladen

Wir danken Daniel Allen für sein Feedback und seine Zeit bei der Durchführung unseres Code-Audits, Sandy Sum für ihre Kommentare und Alan Southworth für seine Vorschläge zu Datensatznamen. Finanzierung: EK, JL, JT und PL wurden durch eine Spende des Tuaropaki Trust unterstützt. KB wurde teilweise durch das Te Apārangi Rutherford Postdoctoral Fellowship der Royal Society unterstützt. Die in diesem Dokument geäußerten Meinungen, Erkenntnisse, Schlussfolgerungen, Ansichten oder Empfehlungen sind die der Autoren und spiegeln nicht die Ansichten oder Richtlinien der US-Umweltschutzbehörde oder anderer unterstützender Organisationen wider.

Global Policy Laboratory, Goldman School of Public Policy, UC Berkeley, Berkeley, CA, USA

Emma Krasovich, Jeanette Tseng, Kendon Bell und Solomon Hsiang

Nationales Zentrum für Umweltökonomie, US-Umweltschutzbehörde, Washington, DC, USA

Peiley Lau

Energy & Resources Group, UC Berkeley, Berkeley, CA, USA

Julia Longmate

Scarlatti, Auckland, Neuseeland

Bell singt

Landcare Research, Auckland, Neuseeland

Bell singt

National Bureau of Economic Research, Cambridge, MA, USA

Solomon Hsiang

Zentrum für Wirtschaftspolitikforschung, London, Großbritannien

Solomon Hsiang

Sie können diesen Autor auch in PubMed Google Scholar suchen

Sie können diesen Autor auch in PubMed Google Scholar suchen

Sie können diesen Autor auch in PubMed Google Scholar suchen

Sie können diesen Autor auch in PubMed Google Scholar suchen

Sie können diesen Autor auch in PubMed Google Scholar suchen

Sie können diesen Autor auch in PubMed Google Scholar suchen

EK und SH hatten die Idee. EK leitete die Datenerfassung und Literaturrecherche, entwickelte die Harmonisierungsmethode und verfasste das Manuskript in enger Zusammenarbeit mit PLPL. EK entwickelte den Nachweisgrenzen-Approximationsansatz und verfeinerte die Nicht-Erkennungs-Imputationsmethode. JL leitete die ersten Skriptbemühungen zum Abrufen der WQP-Daten. Alle Co-Autoren (KB, SH, EK, PL, JL und JT) haben das Manuskript, die Datensätze und die Abbildungen überarbeitet und verfeinert.

Korrespondenz mit Emma Krasovich.

Die Autoren geben an, dass keine Interessenkonflikte bestehen.

Anmerkung des Herausgebers Springer Nature bleibt hinsichtlich der Zuständigkeitsansprüche in veröffentlichten Karten und institutionellen Zugehörigkeiten neutral.

Open Access Dieser Artikel ist unter einer Creative Commons Attribution 4.0 International License lizenziert, die die Nutzung, Weitergabe, Anpassung, Verbreitung und Reproduktion in jedem Medium oder Format erlaubt, sofern Sie den/die ursprünglichen Autor(en) und die Quelle angemessen angeben. Geben Sie einen Link zur Creative Commons-Lizenz an und geben Sie an, ob Änderungen vorgenommen wurden. Die Bilder oder anderes Material Dritter in diesem Artikel sind in der Creative Commons-Lizenz des Artikels enthalten, sofern in der Quellenangabe für das Material nichts anderes angegeben ist. Wenn Material nicht in der Creative-Commons-Lizenz des Artikels enthalten ist und Ihre beabsichtigte Nutzung nicht gesetzlich zulässig ist oder über die zulässige Nutzung hinausgeht, müssen Sie die Genehmigung direkt vom Urheberrechtsinhaber einholen. Um eine Kopie dieser Lizenz anzuzeigen, besuchen Sie http://creativecommons.org/licenses/by/4.0/.

Nachdrucke und Genehmigungen

Krasovich, E., Lau, P., Tseng, J. et al. Harmonisierte Stickstoff- und Phosphorkonzentrationen im Mississippi/Atchafalaya River Basin von 1980 bis 2018. Sci Data 9, 524 (2022). https://doi.org/10.1038/s41597-022-01650-6

Zitat herunterladen

Eingegangen: 19. Januar 2022

Angenommen: 11. August 2022

Veröffentlicht: 27. August 2022

DOI: https://doi.org/10.1038/s41597-022-01650-6

Jeder, mit dem Sie den folgenden Link teilen, kann diesen Inhalt lesen:

Leider ist für diesen Artikel derzeit kein Link zum Teilen verfügbar.

Bereitgestellt von der Content-Sharing-Initiative Springer Nature SharedIt