Friday 13 October 2017

Bewegte Durchschnittliche Anomalie Erkennung


Ich möchte Anomalie mit exponentiell gewichteten gleitenden Durchschnitt zu erkennen. Für eine Instanz der Zeit t, werde ich mit dem Datenpunkt (DP) - Wert. Die EWMA-Konstante beträgt 0,85 (angenommen). Für Eg, ich möchte nicht nehmen Reihe von Datenpunkten in die Berechnung. Jederzeit sagen 10, ich möchte wissen, ob der Datenpunkt 300 (in diesem Fall) eine Anomalie ist oder nicht. Ich habe auch die EMA (9) 150 und EMA (10) 277.5 für die Berechnung (wenn nötig) Gibt es eine Logik, um dies zu berechnen Dank im Voraus Ich dachte der unten Logik, aber nicht sicher, ob es funktionieren würde für sicher DP-Data Point EMA - Exponentialgewichteter gleitender Durchschnitt Es wäre schwer zu sagen, dass die DP eine Anomalie ist oder nicht, weil Sie nicht wissen, wie Ihre EMA (t-1) entwickelt ist. D. h. wenn es viele Datenpunkte gibt, die es dann gemacht haben, wird es eine bessere Markierung sein, als wenn es nur einen anderen Datenpunkt gibt. Ein Ansatz, den Sie ergreifen könnten, ist eine Änderungsschwelle. Grundsätzlich, wenn die EMA ändert sich mehr als einen Prozentsatz betrachten Sie es als eine Anomalie. Dies allerdings leidet, wenn Ihre Zahlen sind alle wirklich hoch und die Unterschiede sind wirklich klein. Was Sie wirklich brauchen, ist eine Standardabweichung, um Anomalien zu erkennen. Sie könnten in potenzielle Tracking, die als auch und verwenden Sie, um besser festzustellen, ob Sie eine Anomalie zu suchen. Wenn Sie Kenntnisse über die Daten haben, mit denen Sie arbeiten, aktualisieren Sie Ihre Frage, um gezieltere Hilfe zu erhalten. Als Reaktion auf die Daten, die Sie hinzugefügt Im, dass Sie 300 eine Anomalie (Ihre anderen Werte 120 und 150) sein wollten. Die oben vorgeschlagene Methode I wird jedoch funktionieren, wenn die Zahl nach 300 normaler ist, sagen wir 170, die wahrscheinlich auch als Anomalie markiert wäre. IMHO das Gewicht youre setzen auf neue Werte ist übertrieben. Ich würde das anders herum machen: new .85 old .15 newDP anstatt das, was Sie haben von neuen .15 old .85 newDP Wenn Sie auf das, was ich vorschlagen youll erhalten Sie fair Ergebnisse zu ändern. Je nach dem, was Ihr übergeordnetes Ziel ist fair Ergebnisse können ausreichend sein. Gründe, warum ich nicht halten, Datensatz 1. Ich habe zu berücksichtigen, die alten Werte aus dem Beginn der Zeitreihe, 2.I don39t wollen ein Fenster-basiertes Modell. 3.Also Ich don39t wollen die gesamte Datenreihe für jede Instanz der Zeit für die Berechnung zu holen Ich frage mich, ob die folgende Logik tatsächlich funktionieren würde, aber nicht sicher Anomalie ist wahr, wenn: ABS (DP-EMA (neu)) gt 3 SD ( 1) Geometrische Verschiebung Durchschnittliche Martingale-Methode zur Erkennung von Änderungen in Datenströmen Bondu, M. Boull: Ein überwachter Ansatz für die Änderungserkennung in Datenströmen. Die 2011 Internationale Gemeinsame Konferenz über Neuronale Netze (IJCNN), S. 519 526 (2011). Daniel Kifer, Shai Ben-David, Johannes Gehrke: Erkennen von Änderungen in Datenströmen. Verfahren der 30. VLDB-Konferenz, Toronto, Kanada, S. 180-191 (2004). Leszek Czerwonka: Veränderung der Aktienkurse als Reaktion auf Ergebnisprognosen hinsichtlich zukünftiger realer Gewinne. Alexandru Ioan Cuza Universität Iasi, Bd. 56, S. 81 & ndash; 90 (2009). Q. Siqing, W. Sijing: Ein homomorphes Modell zur Erkennung abrupter Anomalien von Erdrutschvorläufern. Ingenieurgeologie, Bd. 57, S. 163168 (2000). CrossRef Wei Xiong, NaixueXiong, Laurence T. Yang, etc. Network Traffic Anomaly Detection auf der Grundlage der Katastrophe Theorie. IEEE Globecom 2010 Workshop über Fortschritte in Kommunikation und Netzwerken, S. 2070-2074 (2010). Thomas Hilker. Michael A. Wulder. Nicholas C. Coops, etc. Ein neues Datenfusionsmodell für die räumlich und zeitlich hochauflösende Kartierung von Waldstörungen basierend auf Landsat und MODIS. Fernerkundung der Umwelt, Vol. 113, S. 16131627 (2009). Ashraf M. Dewan. Yasushi Yamaguchi: Mit Fernerkundung und GIS zur Erfassung und Überwachung der Landnutzung und Landbedeckung im Dhaka Metropolitan von Bangladesch während 1960 2005. Environ Monit Assess, Vol. 150, S. 237-249 (2009). CrossRef Jin S. Deng, KeWang, Yang Hong, Jia G. Qi. Räumlich-zeitliche Dynamik und Evolution von Landnutzungsänderungen und Landschaftsmustern als Reaktion auf rasche Urbanisierung. Landschafts - und Städteplanung, Bd. 92, S. 187-198 (2009). CrossRef Asampbu Kitamoto: Spatio-Zeitliche Data Mining für Typhoon Image Collection. Journal of Intelligent Information Systems, Bd. 19 (1), S. 25-41 (2002). Tao Cheng, Jiaqiu Wang: Integrierte räumlich-zeitliche Data Mining für Waldbrandvorhersage. Transaktionen im GIS. Vol. 12 (5), S. 591-611 (2008). A. Dries und U. Ruckert: Adaptive Konzept Drift Detection. In der SIAM-Konferenz über Data Mining, S. 233244 (2009). J. H. Friedman und L. C Rafsky: Multivariate Verallgemeinerungen der Wald-Wolfowitz - und Smirnov-Zweistichproben. Annalen der Statistik, Bd. 4, S. 697717 (2006). F. Nemec, O. Santolik, M. Parrot und J. J. Berthelier: Raumbeobachtungen von elektromagnetischen Störungen, die mit seismischer Aktivität verbunden sind. Geophysical Research Briefe, Bd. 35 (L05109), S. 1-5 (2008). Sheskin, D. J. Handbuch der parametrischen und nichtparametrischen statistischen Verfahren. 2. Aufl. CRC Press, Boca Raton, Fla., S. 513-727 (2000). W. A. Shewhart: Die Anwendung von Statistiken als Hilfsmittel zur Erhaltung der Qualität eines hergestellten Produkts. Am. Statistician Assoc. Vol. 20, S. 546-548 (1925). CrossRef W. A. Shewhart: Wirtschaftliche Kontrolle der Qualität des produzierten Produkts. Am Soc. Für die Qualitätskontrolle, (1931). E. S. Seite: Auf Problem, bei dem eine Änderung eines Parameters an einem unbekannten Punkt auftritt. Biometrika, Bd. 44, S. 248-252 (1957). MATH M. A. Girshik und H. Rubin: Ein Bayes-Ansatz für ein Qualitätskontrollmodell, Annal of Math. Statistik, Bd. 23 (1), S. 114-125 (1952). CrossRef Ludmila I. Kuncheva: Änderungsdetektion beim Streamen von multivariaten Daten unter Verwendung von Wahrscheinlichkeitsdetektoren. IEEE-Transaktionen zu Wissen und Datentechnik, Bd. 6 (1), S. 1-7 (2007). F. Chu, Y. Wang und C. Zaniolo: Ein Adaptiver Lernansatz für laute Datenströme. Proc. Viertes IEEE Intl Conf. Data Mining, S. 351-354 (2004). J. Z. Kolter und M. A. Maloof: Dynamic Weighted Majority: Eine neue Ensemble-Methode zur Verfolgung von Concept Drift. Proc. Drittes IEEE Intl Conf. Data Mining, Seiten 123-130 (2003). H. Wang, W. Fan, P. S. Yu und J. Han: Mining Concept-Drifting Datenströme mit Ensemble Klassifikatoren. Proc. ACM SIGKDD, S. 226-235 (2003). M. Scholz und R. Klinkenberg: Verstärkung von Klassifikatoren für Drifting Concepts. Intelligent Data Analysis, Bd. 11 (1), Seiten 3-28 (2007). R. Klinkenberg: Lerntreibkonzepte: Beispiele Auswahl vs Beispiel Gewichtung, Intelligente Datenanalyse. Sonderausgabe auf inkrementelle Lernsysteme, die in der Lage sind, sich mit Konzeptdrift zu befassen, Bd. 8 (3), S. 281-300 (2004). R. Klinkenberg und T. Joachims: Erkennen von Concept Drift mit Support-Vector-Maschinen. Proc. 17. Intl Konf. Machine Learning, P. Langley, Hrsg. S. 487-494 (2000). G. Widmer und M. Kubat: Lernen in der Gegenwart von Konzept Drift und Hidden Contexts. Machine Learning, Vol. 23 (1), S. 69 & ndash; 101 (1996). Kong Fanlang: Eine dynamische Methode der Systemvorhersage. Systemtechnik Theorie und Praxis, Bd. 19 (3), S. 58-62 (1999). Kong Fanlang: Eine dynamische Methode der Lufttemperaturvorhersage. Kybernetes, Bd. 33 (2), S. 282-287 (2004). S. S. Ho, H. Wechsler: Ein Martingale-Framework zum Erkennen von Änderungen in Datenströmen durch Testen der Austauschbarkeit. IEEE-Transaktionen auf Musteranalyse und Maschinenintelligenz, Bd. 32 (12), S. 2113-2127 (2010). CrossRef S. Muthukrishnan, E. van den Berg und Y. Wu: Sequentielle Änderungserkennung auf Datenströmen, Proc. ICDM Workshop Data Stream Mining and Management, S. 551-556 (2007) V. Vovk, I. Nouretdinov und A. Gammerman: Prüfung der Austauschbarkeit on-line. Proc. 20. Intl Conf. Maschinelles Lernen, T. S. 768-775 (2003). M. Steele: Stochastische Berechnungen und Finanzanwendungen. SpringerVerlag, (2001). E. Keogh, J. Lin und A. Fu: HOT SAX: Effiziente Suche nach den ungewöhnlichsten Zeitreihenfolgen. In Proceedings of the 5th IEEE Internationale Konferenz zum Data Mining (ICDM05), S. 226-233 (2005). V. Moskvina und A. A. Zhigljavsky: Ein Algorithmus, der auf einer singulären Spektrumanalyse zur Veränderungspunktdetektion beruht. Kommunikation in der Statistik: Simulation amp Computation, Vol. 32 (2), S. 319-352 (2003). MathSciNet MATH CrossRef Y. Takeuchi und K. Yamanishi: Ein vereinheitliches Rahmenwerk zur Erfassung von Ausreißern und Änderungspunkten aus nichtstationären Zeitreihendaten. IEEE-Transaktionen zu Wissen und Datentechnik, Bd. 18 (4), S. 482489 (2006). CrossRef F. Desobry, M. Davy und C. Doncarli: Ein Online-Kernel-Change-Erkennungsalgorithmus. IEEE-Transaktionen zur Signalverarbeitung, Bd. 53 (8), S. 2961-2974 (2005). MathSciNet CrossRefDectect Anomalie mit Moving Median Decomposition Zeitreihe Zerlegung teilte eine Zeitreihe in einen saisonalen, einen Trend und eine zufällige Restzeitreihe. Der Trend und die zufällige Zeitreihe können beide dazu verwendet werden, Anomalien zu erkennen. Aber die Feststellung von Anomalien in einer bereits anomalen Zeitreihe ist nicht einfach. Arbeiten an einer anomalen Zeitreihe: Anomalie-Erkennung mit gleitendem Durchschnitt Zerlegung doesn8217t Arbeit Anomalie-Erkennung mit bewegten mediane Zersetzung Werke Das Problem mit Moving Average In der Zeitreihe Zerlegung in R. haben wir gelernt, dass der Algorithmus mit einem gleitenden Durchschnitt, um die Trends zu extrahieren Die Zeitreihen. Das ist in einer Zeitreihe ohne Anomalien vollkommen in Ordnung. Aber in Gegenwart von Ausreißern ist der gleitende Durchschnitt stark betroffen, da der Trend die Anomalien einbindet. Zuerst werden wir die Anomalie mit der Zersetzung mit gleitendem Durchschnitt feststellen. Da es nicht gut funktioniert, werden wir erkennen, Anomalien mit der Zersetzung mit sich bewegenden Median, um bessere Ergebnisse zu erzielen. Über die Daten: webTraffic. csv Bericht die Anzahl der Seitenzugriffe pro Tage über einen Zeitraum von 103 Wochen (fast 2 Jahre). Um es interessant zu machen, fügen wir einige (zusätzliche) Anomalien hinzu. Betrachtet man die Zeitreihen, sehen wir deutlich eine Saisonalität von 7 Tagen, da es weniger Verkehr am Wochenende gibt. Um eine saisonale Zeitreihe zu zerlegen, ist die Saisonzeit erforderlich. In unserem Beispiel wissen wir, dass die Saisonalität 7 Tage beträgt. Wenn unbekannt, ist es möglich, die Saisonalität einer Zeitreihe zu bestimmen. Last but not least müssen wir wissen, ob die Zeitreihen additiv oder multiplikativ sind. Unser Web-Verkehr ist multiplikativ. Zusammenfassend zu unserem Web-Traffic: Saisonalität von 7 Tagen (über 103 Wochen) Multiplikative Zeitreihen Download webTraffic. csv data lt - read. Csv (webTraffic. csv. Sep,.header T) Tage als. Numerisch (Daten Visite) Pos. Boden (Runif (1. 1. 50)) Tage i 15 Pos Tage i 15 Pos 1.2 Tage 510 Pos 0 Plot (ts (Tage)) Verschieben Durchschnittliche Zersetzung (Schlechtes Ergebnis) 1 8211 Zerlegung As Die Zeitreihe ist anomal während der Zerlegung die Trends völlig falsch. In der Tat sind die Anomalien in den Trend gemittelt.

No comments:

Post a Comment