Transcrição
PDF
ein instrument zur schätzung von Holzernteproduktivitäten mittels der knn-Methode Fabian Kostadinov Renato Lemm oliver Thees Eidgenössische Forschungsanstalt für Wald, Schnee und Landschaft (CH)* Eidgenössische Forschungsanstalt für Wald, Schnee und Landschaft (CH) Eidgenössische Forschungsanstalt für Wald, Schnee und Landschaft (CH) a software tool for the estimation of wood harvesting productivity using the knn method For operational planning and management of wood harvests it is important to have access to reliable information on time consumption and costs. To estimate these efficiently and reliably, appropriate methods and calculation tools are needed. The present article investigates whether use of the method of the k nearest neighbours (kNN) is appropriate in this case. The kNN algorithm is first explained, then is applied to two sets of data “combined cable crane and processor” and “skidder”, both containing wood harvesting figures, and thus the estimation accuracy of the method is determined. It is shown that the kNN method’s estimation accuracy lies within the same order of magnitude as that of a multiple linear regression. Advantages of the kNN method are that it is easy to understand and to visualize, together with the fact that estimation models do not become out of date, since new data sets can be constantly taken into account. The kNN Workbook has been developed by the Swiss Federal Institute for Forest, Snow and Landscape Research (WSL). It is a software tool with which any data set can be analysed in practice using the kNN method. This tool is also presented in the article. Keywords: multiple regression, k nearest neighbours (kNN), timber harvesting, cost estimation, forest management doi: 10.3188/szf.2012.0119 * Zürcherstrasse 111, CH-8903 Birmensdorf, E-Mail [email protected] D ie Wirtschaftlichkeit der Waldbewirtschaftung wird massgeblich durch die Kosten der Holzernte beeinflusst. Ihr Anteil an den Gesamtkosten im Forstbetrieb liegt in der Schweiz zwischen 40 und 60 Prozent. Für die betriebliche Planung und Steuerung der Holzernte werden verlässliche Informationen über ihre Zeitbedarfe und Kosten benötigt. Aber auch für strategische und konzeptionelle Überlegungen zum Holzproduktionsprozess stellen diese Informationen eine wichtige Grundlage dar. Um die Zeitbedarfe und Kosten der Holzernte effizient und verlässlich schätzen zu können, bedarf es zweckmässiger Kalkulationsgrundlagen beziehungsweise IT-gestützter Instrumente, wie zum Beispiel der Holzernteproduktivitätsmodelle «HeProMo» der Eidgenössischen Forschunganstalt für Wald, Schnee und Landschaft (WSL; Frutig et al 2009). Solche Modelle basieren auf der Zerlegung des gesamten Ernteprozesses in einzelne Aktivitäten und deren mathematischer Beschreibung mittels Regressionen, welche den Zusammenhang zwischen der Produktivität des Erntesystems und seinen Einsatzbedingungen quantifizieren. Die Erstellung praxis- Schweiz Z Forstwes 163 (2012) 4: 119–129 tauglicher Modelle ist allerdings aufwendig – nicht zuletzt wegen der umfangreichen Datenerhebung – und erfordert eine professionelle IT-Umsetzung. Wegen des raschen technischen Fortschritts in der Holzernte veralten die Modelle relativ schnell, was wie derum Aktualisierungen notwendig machen kann. Eine Alternative zu regressionsbasierten Methoden bildet die Methode der k nächsten Nachbarn (kNN-Methode). Sie erlaubt es, eine unbekannte abhängige Variable eines Datensatzes über die Ähnlichkeit zu Referenzdatensätzen mit bekannten Werten zu schätzen. Aus einer Holzschlagdatenbank eines Forstbetriebes oder eines Forstunternehmens lässt sich so für einen anstehenden Holzschlag die zu erwartende Produktivität bei der Holzernte schätzen, indem die dem neuen Holzschlag ähnlichsten früheren Holzschläge der Datenbank ermittelt werden und aus diesen ein Durchschnittswert der erzielten Produktivitäten berechnet wird. Die Methode lässt eine hohe Praxistauglichkeit erwarten. Für den Fall der Kalkulation von Selbstkosten auf betrieblicher Ebene kann auf eigene und aktuelle Holzschlagdaten zurückgegriffen werden. Dies verspricht eine connaissances 119 Abb 1 Kombiseilgerät im Einsatz. Foto: Fritz Frutig treffsichere Prognose und ein erhöhtes Vertrauen in diese. Methodische Probleme, wie sie sich bei der Anwendung der Regressionsrechnung ergeben können (z.B. Verletzung der Annahme, dass die Daten einer bestimmten Verteilung folgen), lassen sich vermeiden. Eine erste Untersuchung des Einsatzes der kNN-Methode zur Schätzung von Holzernteproduktivitäten bestätigte am Beispiel einer Holzschlagdatenbank für Vollernter (Lemm et al 2005) die Vorteilhaftigkeit des Ansatzes. Allerdings fehlte bisher ein einfach zu bedienendes Kalkulationsinstrument, welches die Anwendung der kNN-Methode in der Praxis überhaupt erst ermöglicht. Daher wurde an der WSL eine zweckmässige Software als Prototyp entwickelt. Der vorliegende Beitrag erläutert die Funktionsweise der kNN-Methode und der erstellten Software, vergleicht anhand von je einer Holzschlagdatenbank für Kombiseilgeräte (Abbildung 1) und Seilschlepper die Prognoseergebnisse der kNN-Methode mit denen von Regressionsrechnungen, zieht Schlussfolgerungen für die Eignung und die Weiterentwicklung des Ansatzes in der Praxis. • • • nisses mit denjenigen einer Menge von Referenzereignissen verglichen. Für alle Referenzereignisse wird mittels eines geeigneten Distanzmasses bestimmt, wie «nahe» sie zum Schätzereignis stehen. Referenzereignisse mit einer geringen Distanz zum Schätzereignis sind dem Schätzereignis ähnlicher als Referenzereignisse mit einer grösseren Distanz. Aus allen Nachbarn werden die k nächsten Nachbarn ausgewählt. Aus den abhängigen Variablen der zuvor ausgewählten benachbarten Referenzereignisse kann nun ein Mittelwert für die abhängige Variable des Schätzereignisses errechnet werden. Üblicherweise wird dabei die relative Nähe der Nachbarn zum Schätzereignis mittels eines geeigneten Gewichtes berücksichtigt. Als Mass für die Distanz zwischen zwei Ereignissen wird bei der kNN-Methode oft die euklidische Distanz gewählt, wobei jedoch auch die Wahl eines anderen Distanzmasses möglich wäre, beispielsweise die Mahalanobis- (Fehrmann 2006) oder die Manhattan-Distanz (Duda et al 2001). Formal lautet die Berechnung der euklidischen Distanz: wobei Material und Methoden Die knn-Methode Ziel der kNN-Methode ist es, für ein Ereignis, bestehend aus einem Vektor von m unabhängigen, erklärenden Variablen, eine Schätzung für eine ausgewählte, abhängige Variable zu erzeugen. Dazu werden die unabhängigen Variablen des Schätzereig- 120 wissen √¯∑¯¯¯¯¯¯¯¯¯ m d’ij = p=1 2p (x – x )2 2p ip ip (1) ¯¯¯¯ ¯¯¯¯¯¯ (x – x ) √ m 2 p 2 p ∑ die euklidische Distanz zwischen den unabhängigen Variablen der Referenzereignisse x➞i und dem Schätzereignis x➞j, xj = (xj1, xj2, …, xjm, ŷj) das Schätzereignis j mit m unabhängigen Variablen xj1 bis xjm und der zu schätzenden abhängigen Variablen ŷj, d’ij = p=1 ip ip 2 ➞ Schweiz Z Forstwes 163 (2012) 4: 119–129 xi = (xi1, xi2, …, xim, yi) ein Referenzereignis i mit m un➞ abhängigen Variablen xi1 bis xim und der abhängigen Variablen yi, Gewichtungsfaktor der unabhänp (p = 1, 2, …, m) gigen Variablen p, Skalierungsfaktor der unabhängip (p = 1, 2, …, m) gen Variablen p ist. Eine Gewichtung der unabhängigen Vap riablen mittels eines Faktors ist nötig, weil die p einzelnen unabhängigen Variablen verschiedene rechnerische Einheiten und Grössenordnungen aufweisen können (z.B. CHF/h, m3 usw.). Deshalb müssen sie standardisiert werden. Als Gewichtungsfaktor p kann beispielsweise der Korrelationskoeffizient der unabhängigen Variablen p mit der abhängigen Variablen y dienen und als Skalierungsfaktor p die Standardabweichung der unabhängigen Variablen p (Felber 2005). Es sei also n p = ∑(x ip i =1 – xˉp )(yi – yˉ) ¯∑¯¯(x¯¯–¯xˉ¯¯) ¯×¯∑¯¯(y¯¯–¯yˉ¯) √ n i =1 ip p n 2 i i =1 , p = 1, 2, …, m (2) √ n –1 n i =1 ip (6) i =1 wobei ŷj Schätzwert der abhängigen Variablen des Schätzereignisses j, yi Messwerte der abhängigen Variablen der Referenzereignisse i, k Anzahl berücksichtigte nächste Nachbarn, gij Funktion zur Gewichtung der k nächsten Nachbarn. Die Funktion g wird eingeführt, um die unterschiedlichen Distanzen zwischen dem Schätzereignis und den Referenzereignissen zu berücksichtigen. Auf diese Weise bekommen Referenzereignisse, die näher beim Schätzereignis liegen, ein höheres Gewicht als solche, die weiter entfernt sind. Soll beispielsweise allen ausgewählten Referenzereignissen dasselbe Gewicht beigemessen werden, so könnte gij = ¯¯1¯¯×¯¯¯(x¯¯¯ ¯¯ – xˉ ) ∑ k ŷj =∑ gij yi 2 der Korrelationskoeffizient zwischen der unabhängigen Variablen p und der abhängigen Variablen yi (bei n Referenzereignissen) und p = schliesslich über alle ausgewählten k nächsten Nachbarn hinweg berechnet: p 2 1 k (7) gewählt werden. Eine Funktion, die nahe Referenzereignisse stärker berücksichtigt als weiter entfernte, ist beispielsweise 1 ( 1+ d ) g = ∑ (1+1d ) (3) ij die Standardabweichung der unabhängigen Variablen p über alle Referenzereignisse. Weiter gelten (8) ij k i =1 ij und folglich ∑ (1+1d ) × y k xˉp = n 1 xip n∑ i =1 (4) als Mittelwert der unabhängigen Variablen p über alle Referenzereignisse und yˉ = 1 n yi n∑ i =1 (5) als Mittelwert der abhängigen Variablen über alle Referenzereignisse. Nachdem die Distanzen zwischen allen Referenzereignissen und dem Schätzereignis berechnet wurden, werden unter den Referenzereignissen die zum Schätzereignis k nächstgelegenen Nachbarn ausgewählt. Die Wahl eines geeigneten k erfordert einige Übung und Kenntnis der Datengrundlage. Loftsgarden & Quesenberry (1965) schlagen für k ˉˉ eine Wahl von √ˉn vor, Enas & Choi (1986) n3/8 respektive n 2/8 , wobei n die Anzahl Referenzereignisse darstellt. Eine von den Autoren nicht weiterverfolgte Alternative besteht darin, statt die Anzahl k nächster Nachbarn vorzugeben, eine bestimmte maximale euklidische Distanz festzulegen. Alle zur Schätzung verwendeten Nachbarn müssen dann innerhalb dieser Maximaldistanz liegen. Der Schätzwert wird Schweiz Z Forstwes 163 (2012) 4: 119–129 ŷj = i =1 i ij (9) ∑ (1+1d ) k i =1 ij In sämtlichen weiteren Berechnungen wird die in (8) aufgeführte Gewichtungsfunktion eingesetzt. Um nun für eine Reihe von Datensätzen die Güte der Anpassung des Schätzwertes an den realen Messwert beurteilen zu können, werden häufig die Quadratwurzel des mittleren quadratischen Fehlers (Root Mean Square Error, RMSE), der Bias und der mittlere absolute prozentuale Fehler (Mean Absolute Percentage Error, MAPE) herangezogen (Fehrmann 2006, Fehrmann et al 2008). RMSE = ¯∑ ¯¯(ŷ¯¯–¯y¯) √ n i =1 i i 2 n (10) 1 n Bias = ×∑ (ŷi – yi) n i =1 (11) 1 n ŷ – y MAPE = ×∑ i i n i =1 yi (12) wobei (ŷi – yi) das i-te Residuum, ŷi yi n geschätzte abhängige Variable, gemessene abhängige Variable, Anzahl Referenzereignisse. connaissances 121 Der RMSE hat dieselbe Einheit wie die abhängige Variable. Er kann nur Werte ≥ 0 annehmen. Der Bias beschreibt den systematischen Fehler. Er hat dieselbe Einheit wie die abhängige Variable. Ein positiver Bias bedeutet gemäss Formel (11) ein systematisches Überschätzen der abhängigen Variablen, ein negativer Bias ein systematisches Unterschätzen derselben. Der MAPE beschreibt die mittleren absoluten prozentualen Abweichungen zwischen Schätzung und Messwert. Der MAPE ist somit ein Mass für das Verhältnis der Residuen zu den tatsächlichen Messwer ten. Ein Wert von 0 besagt, dass sämtliche Schätzungen exakt mit den tatsächlichen Messwerten übereinstimmen. Gegen oben sind dem MAPE hingegen keine Grenzen gesetzt, er kann auch Werte > 1 annehmen. Bei einer optimalen Wahl von k sind RMSE und MAPE minimal, und der Bias liegt nahe bei 0. Abb 2 Benutzeroberfläche des kNN-Workbooks. Abb 3 Grafik einer kNN-Auswertung. 122 wissen Das knn-workbook Um die kNN-Methode der Praxis zugänglich zu machen, wurde das kNN-Workbook entwickelt. Es handelt sich dabei um eine Software, mit welcher sich kNN-Auswertungen durchführen lassen. Nutzung Das kNN-Workbook ist in der Lage, mit einer potenziell grossen und dynamisch wachsenden Menge von Datensätzen umzugehen. Neu hinzugefügte Datensätze werden bei einer wiederholten Auswertung ebenfalls berücksichtigt. Daten können entweder im kNN-Workbook selbst gespeichert oder zur Auswertung aus einer anderen Excel-Datei herauskopiert und eingefügt werden. Die Installation eines Datenbanksystems entfällt. Abbildung 2 zeigt einen Screenshot der Benutzeroberfläche des kNN-Workbooks, nachdem eine kNN-Auswertung vorgenommen wurde: 1. Um die abhängige Variable ŷ eines Schätzereignisses zu berechnen, muss das Schätzereignis mit den konkreten Werten seiner unabhängigen Variablen in Zeile 7 der Benutzeroberfläche eingegeben werden. Das kNN-Workbook bietet die Möglichkeit zur Eingabe von maximal 29 unabhängigen und einer abhängigen Variablen. 2. Die Referenzereignisse trägt der Benutzer ab Zeile 9 ein, beispielsweise durch Kopieren und Einfügen der Daten aus einer bereits bestehenden Excel-Datei. 3. Dann wählt er mittels der Checkboxen in Zeile 2 die zur Berechnung vorgesehenen unabhängigen Variablen (Spalten G, H, I, J, K) und mittels des Dropdown-Menüs in Zelle AG2 die Spalte mit der abhängigen Variablen (Spalte L) aus. 4. Schliesslich legt er aus dem Drop-down-Menü in Zelle AG4 einen passenden Wert für k fest und betätigt den «Calc-Knopf». 5. Das kNN-Workbook wertet die eingegebenen Daten aus und präsentiert dem Benutzer folgende Ergebnisse: – Die geschätzte, abhängige Variable ŷ des Schätzereignisses wird angezeigt (Zelle L7). – Jede ausgewählte, unabhängige Variable xi wird mit der abhängigen Variablen korreliert, und es werden die dazugehörigen Bravais-PearsonKorrelationskoeffizienten berechnet und angezeigt (Zeile 3). Für jede ausgewählte, unabhängige Variable wird zudem die Standardabweichung berechnet (Zeile 4). – Für jeden Datensatz werden die euklidische Distanz sowie die Rangzuordnung bezüglich der Nähe zum Referenzdatensatz berechnet (Spalten AF und AG). Die zu den k nächsten Nachbarn gehörenden Datensätze werden fett markiert (z.B. Zeile 9 und 21). – Es wird automatisch eine Grafik erstellt, in der auf der y-Achse der Wert der abhängigen Va- Schweiz Z Forstwes 163 (2012) 4: 119–129 Variablenname Beschreibung einheit Kombiseilgerät seilschlepper – x x Unabhängige Variablen Massnahmenart Art des forstlichen Eingriffes in einen Bestand. Reduziert auf zwei Ausprägungen unterschiedlicher Arbeitsintensität: «Durchforstung» und «Räumung» Rückedistanz Durchschnittliche Rückedistanz m x x Erschwernisse Besondere Erschwernisse bei der – x x – x x Holzernte durch Gelände, Witterung, unvorhersehbare Ereignisse etc. Reduziert auf die Ausprägung «vorhanden» oder «nicht vorhanden» Entwicklungs- Die durchschnittliche Entwick- stufe lungsstufe des Bestandes. Reduziert auf zwei Kategorien «Baumholz» und «stufig» fm/ha Vorrat Holzvorrat im Bestand vor Eingriff Nadelholzanteil Der Nadelholzanteil des ange- fm/ha x x % x x fm x x fm x x % x x – x zeichneten Holzes fm stehend Entnahmemenge gemäss Anzeichnungsprotokoll insgesamt fm Mittelstamm Durchschnittliches Mittelstamm- stehend volumen (gemäss Anzeichnungsprotokoll) %-Nutzung Anteil Entnahme am stehenden Vorrat Kombiseilgerät- Zwei eingesetzte Kombiseilgerät- typ typen: «Typ 1», «Typ 2» Anzahl Seillinien Anzahl Seillinien des Holzschlages – x Anzahl Stützen Anzahl Stützen aller Seillinien im – x m x – x Holzschlag Seillinienlänge Gesamtlänge aller Seillinien des Rückerichtung Rückerichtung reduziert auf zwei riablen und auf der x-Achse dessen euklidische Distanz aufgetragen sind (Abbildung 3). Die Referenzdatensätze werden rosa und schwarz dargestellt. Rosa Rauten repräsentieren die für die Berechnung des Schätzwertes verwendeten k nächsten Nachbarn, schwarze Quadrate hingegen Referenzdatensätze, die nicht mehr zu den k nächsten Nachbarn gehören. Der Schätzwert selbst wird als rotes Dreieck mit einer horizontalen, roten Linie in der Grafik angezeigt. Durch diese Informationen gewinnen die Benutzerinnen und Benutzer einen Überblick über ihre Daten, die Güte der Schätzung und insbesondere darüber, welches nun die zu ihrem Referenzdatensatz ähnlichen Datensätze sind. Die Erfahrungswerte bereits abgeschlossener Holzschläge werden so zu einer nützlichen Orientierungshilfe bei der Schätzung geplanter Schläge. Technische Implementierung Die Umsetzung des kNN-Workbooks erfolgte auf der Basis der Visual-Studio-Office-Tools(VSTO)Add-in-Technologie für Excel 2007. Aufgrund der weiten Verbreitung der Microsoft-Office-Produktpalette kann davon ausgegangen werden, dass auf diese Weise die grösste Zahl von Nutzern erreicht werden kann. Ein Nachteil dieser Wahl liegt darin, dass damit keine Open-Source-Lösung unterstützt wird. Über die COM1-Schnittstelle von Excel 2007 werden Daten an eine .NET-Laufzeitumgebung2 übergeben, welche diese Daten auswertet. Die Resultate werden wiederum via COM-Schnittstelle an Excel übergeben, welches die Daten anschliessend darstellt. Das kNN-Workbook wurde in der Programmiersprache C# geschrieben. Holzschlages Kategorien unterschiedlicher Arbeitsintensität: «bergauf», «bergab/eben»* Seilschlepper- Drei eingesetzte Seilschlepper- typ typen mit zunehmender Arbeits- – x leistung: «Typ 1», «Typ 2», «Typ 3» abhängige Variablen h/m3 Holz- Stunden Holzhauerei und Rücken hauerei und pro geernteten Kubikmeter Holz. Rücken Enthält die Arbeitsschritte Fällen, h/m3 x x Aufrüsten, Rücken, Einschneiden und Poltern, beim Kombiseilgerät überdies Montage und Datengrundlage des Fallbeispiels Die kNN-Methode wurde mittels des kNNWorkbooks auf in den Jahren 2005 bis 2010 erhobene Holzschlagdatensätze für Seilschlepper und Kombiseilgerät angewendet. Die Daten stammen alle aus demselben schweizerischen Forstbetrieb. Sämtliche erfassten Holzschläge wurden in Eigenregie des Betriebes durchgeführt. Alle Holzschlagdatensätze wurden vom Betrieb mit denselben Variablen erstellt und den nach den Ernteverfahren getrennten Datensatzmengen zugeordnet. Anstelle von Produktivitätskennzahlen (z.B. m3/h) wurden vom Betrieb die dazu inversen Effizienzkennzahlen (h/m3) erhoben. Je kleiner die Effizienzkennzahl ausfällt, desto effizienter ist ein Verfahren. Demontage Tab 1 Aufgenommene unabhängige und abhängige Variablen. * Für alle aufgestellten Seillinien eines Holzschlages wurde in dieselbe Richtung gerückt. Aufgrund der eingeschränkten Vergleichbarkeit der Rückerichtungen wurde nicht weiter zwischen «bergab» oder «eben» unterschieden. Hingegen wurden diese beiden gemeinsam von der weniger arbeitsintensiven Rückerichtung «bergauf» abgegrenzt. Schweiz Z Forstwes 163 (2012) 4: 119–129 1 COM steht für Component Object Model, eine von Microsoft entwickelte Middleware zur Kommunikation von auf Windows aufsetzenden Softwarekomponenten. 2 Common Language Runtime (CLR): die Laufzeitumgebung des Microsoft .NET-Frameworks. connaissances 123 Variablenname Mittelwert Minimum Maximum standardabweichung Unabhängige Variablen Massnahmenart 66 Datensätze «Durchforstung», 30 Datensätze «Räumung» Rückedistanz 235 Erschwernisse 80 650 99 52 Datensätze «ohne», 44 Datensätze «mit Erschwernissen» Entwicklungsstufe 73 Datensätze «Baumholz», 23 Datensätze «stufig» fm/ha Vorrat 392 180 750 90 Nadelholzanteil 86 2 100 23 fm stehend 597 173 1600 297 fm Mittelstamm stehend 1.59 0.35 3.37 0.66 89 27 100 21 %-Nutzung Kombiseilgerättyp 28 Datensätze «Typ 1», 68 Datensätze «Typ 2» Anzahl Seillinien 2.4 1.0 7.0 1.2 Anzahl Stützen 3.0 0.0 10.0 2.3 Seillinienlänge 694 150 2700 487 Rückerichtung 46 Datensätze «eben/bergab», 50 Datensätze «bergauf» abhängige Variablen h/m3 Holzhauerei und 0.69 0.27 1.62 0.29 Rücken Tab 2 Kennzahlen der unabhängigen und abhängigen Variablen beim Kombiseilgerät. Variablenname Mittelwert Minimum Maximum standardabweichung Unabhängige Variablen Massnahmenart 32 Datensätze «Durchforstung», 38 Datensätze «Räumung» Rückedistanz 177 Erschwernisse 40 1500 212 39 Datensätze ohne, 31 Datensätze «mit Erschwernissen» Entwicklungsstufe 59 Datensätze «Baumholz», 11 Datensätze «stufig» fm/ha Vorrat 389 180 600 84 Nadelholzanteil 89 2 100 26 fm stehend 352 120 804 146 fm Mittelstamm stehend 2.03 0.64 3.90 0.72 %-Nutzung 98 30 100 12 Seilschleppertyp 31 Datensätze «Typ 1», 25 Datensätze «Typ 2», 14 Datensätze «Typ 3» abhängige Variablen h/m3 Holzhauerei und 0.81 0.50 1.53 0.21 Rücken Tab 3 Kennzahlen der unabhängigen und abhängigen Variablen beim Seilschlepper. Aus der Vielzahl der erhobenen unabhängigen Variablen wurden jene ausgewählt, welche einen signifikanten Einfluss auf die Holzernteproduktivität beziehungsweise -effizienz haben. Die aufgeführte Liste unabhängiger Variablen erhebt nicht den Anspruch auf Vollständigkeit, da durch den Forstbetrieb nur eine Auswahl möglicher Eingangsgrössen erhoben wurde. Unvollständige Datensätze wurden entfernt. Übrig blieben 96 Datensätze für das Holzernteverfahren mittels Kombiseilgerät und 70 Datensätze für dasjenige mittels Seilschlepper. Die Tabellen 1 bis 3 zeigen die aufgenommenen unabhängigen und abhängigen Variablen und ihre Kennzahlen für die Holzernteverfahren Seilschlepper und Kombiseilgerät. 124 wissen ergebnisse und Diskussion Gestützt auf die Daten des Fallbeispiels wurden als Erstes schrittweise Analysen mittels multipler linearer Regression durchgeführt. Die signifikanten unabhängigen Variablen (Prediktorvariablen) wurden in die Modellrechnung aufgenommen und Kennwerte bezüglich ihrer Schätzgüte berechnet (Tabellen 4 und 5). In einem zweiten Schritt wurden die in der Regressionsmodellrechnung aufgenommenen unabhängigen Variablen pro Holzerntemethode für die Analyse mittels der kNN-Methode verwendet. Um das optimale k zu ermitteln, wurde für jeden möglichen Wert von k eine eigene Analyse durchgeführt, dabei wurden die Kennwerte RMSE, Bias und MAPE berechnet (Abbildungen 4 und 5). In einem dritten Schritt wurde die Schätzgüte der kNN-Analyse bei optimalem k mit derjenigen der multiplen linearen Regressionsmodellrechnung verglichen (Abbildungen 6 und 7). Regressionsanalyse Sowohl für das Kombiseilgerät als auch für den Seilschlepper wurde zuerst ein Gesamtmodell einer multiplen linearen Regression mit sämtlichen für das Holzernteverfahren zur Verfügung stehenden unabhängigen Variablen erstellt. Anschliessend wurden in einem rückwärts gerichteten Eliminationsverfahren schrittweise jene unabhängigen Variablen mit dem geringsten Erklärungsbeitrag zum Modell entfernt, bis ein Gesamtmodell gefunden war, bei welchem alle unabhängigen Variablen das Signifikanzkriterium von 0.05 erfüllten. 3 Als abhängige Variable wurde die Effizienz des Holzschlags (h/m3 Holzhauerei und Rücken) betrachtet. Eine Überprüfung der Korrelationsmatrizen der unabhängigen Variablen ergab für zwei Variablenkombinationen beim Kombiseilgerät (fm stehend und Anzahl Seillinien sowie Anzahl Seillinien und Länge) eine erhöhte Korrelation (> 0.6). Durch das Weglassen einer der korrelierenden unabhängigen Variablen wurde das Modell jedoch nicht signifikant schlechter oder besser. Für das Kombiseilgerät blieben am Ende die unabhängigen Variablen Kombiseilgerättyp, Erschwernisse, Nadelholzanteil, fm stehend, %-Nutzung, Anzahl Stützen und Rückerichtung übrig. Wie Tabelle 4 entnommen werden kann, handelt es sich insgesamt um ein plausibles Schätzmodell mit einem multiplen Korrelationskoeffizienten von 0.81. Es werden 65.1% der Gesamtvarianz durch die Regression erklärt. Für den Seilschlepper blieben die unabhängigen Variablen Nadelholzanteil, fm Mittelstamm stehend, %-Nutzung und Seilschleppertyp übrig. Die Kennzahlen des Modells sind in Tabelle 5 dargestellt. 3 Für eine genaue Dokumentation des Verfahrens siehe die Benutzerdokumentation von SAS v9.1 (SAS Institute Inc. 2004). Schweiz Z Forstwes 163 (2012) 4: 119–129 Regressionskennzahlen anoVa Multipler Korrelationskoeffizient R 0.8071 Determinationskoeffizient R 2 0.6513 Adjustiertes R 2 0.6235 Standardfehler 0.1761 Beobachtungen 96 Quelle der Variation Freiheitsgrade summe d. Quadrate Mittel d. Quadrate F-Wert Wahrsch. >F Modell 7 5.0985 0.7284 23.4767 1.11E-17 Fehler 88 2.7302 0.0310 Gesamtsumme 95 7.8286 Koeffizienten standardfehler t-statistik p-Wert 95%-Vertrauensintervall 1.8463 0.1900 9.7155 1.38E-15 1.4687 2.2240 –0.1376 0.0481 –2.8618 0.0053 –0.2331 –0.0420 Untergrenze Achsenabschnitt Kombiseilgerättyp Erschwernisse obergrenze 0.1061 0.0431 2.4610 0.0158 0.0204 0.1918 Nadelholzanteil –0.0048 0.0009 –5.2102 1.23E-06 –0.0067 –0.0030 fm stehend –0.0002 7.02E-05 –3.2682 0.0015 –0.0004 –8.99E-05 %-Nutzung –0.0023 0.0010 –2.4156 0.0178 –0.0043 –0.0004 Anzahl Stützen 0.0361 0.0093 3.9067 0.0002 0.0178 0.0545 Rückerichtung –0.0880 0.0380 –2.3128 0.0231 –0.1636 –0.0124 Tab 4 Statistische Kennzahlen der multiplen linearen Regression für das Kombiseilgerät. Regressionskennzahlen anoVa Multipler Korrelationskoeffizient R 0.6866 Determinationskoeffizient R 2 0.4714 Adjustiertes R 2 0.4389 Standardfehler 0.1539 Beobachtungen 70 Quelle der Variation Freiheitsgrade summe d. Quadrate Mittel d. Quadrate F-Wert Wahrsch. >F Modell 4 1.3729 0.3432 14.4933 1.63E-08 Fehler 65 1.5393 0.0237 Gesamtsumme 69 2.9123 Koeffizienten standardfehler t-statistik p-Wert 95%-Vertrauensintervall 0.9227 0.1623 5.6853 3.34E-07 0.5986 1.2468 –0.0040 0.0008 –4.8262 8.79E-06 –0.0057 –0.0023 –0.0827 0.0274 –3.0137 0.0037 –0.1374 –0.0279 %-Nutzung 0.0037 0.0018 2.0643 0.0430 0.0001 0.0072 Seilschleppertyp 0.0706 0.0247 2.8621 0.0057 0.0213 0.1199 Untergrenze Achsenabschnitt Nadelholzanteil fm Mittelstamm stehend obergrenze Tab 5 Statistische Kennzahlen der multiplen linearen Regression für den Seilschlepper. Dieses Schätzmodell besitzt einen multiplen Korrelationskoeffizienten von 0.69. Mit diesem Modell werden 47.1% der Gesamtvarianz erklärt. Berechnung von RMse, Bias und MaPe Die Berechnung der Kennzahlen RMSE, Bias und MAPE zur Bewertung der Schätzgüte erfolgte anhand der Formeln (10) bis (12). Der Bias liegt für beide Holzernteverfahren wie zu erwarten nahe bei 0 h/m3 Holzhauerei und Rücken, während der RMSE für das Kombiseilgerät bei 0.169 h/m3 und für den Seilschlepper bei 0.148 h/m3 Holzhauerei und Rücken liegt. Der MAPE liegt für das Kombiseilgerät bei circa 20.2% und beim Seilschlepper bei 14.7% (Tabelle 6, Zeilen a und e). Diskussion der Variablen Wie den p-Werten in Tabelle 4 und 5 entnommen werden kann, ist die unabhängige Variable Na- Schweiz Z Forstwes 163 (2012) 4: 119–129 delholzanteil für beide Holzernteverfahren besonders massgebend, beim Kombiseilgerät ausserdem auch noch die Variable Anzahl Stützen. Die Variable %-Nutzung wurde ebenfalls für beide Verfahren in die Regressionsformel aufgenommen, allerdings mit unterschiedlichen Vorzeichen. Die beiden Gerätetyp-Variablen Kombiseilgerättyp und Seilschleppertyp wurden für beide Verfahren berücksichtigt. Ausserdem wurde für den Seilschlepper die Variable fm Mittelstamm stehend aufgenommen, für das Kombiseilgerät waren es die Variablen Erschwernisse, fm stehend und Rückerichtung. Die Rückedistanz erwies sich für beide Holzernteverfahren als nicht aussagekräftige unabhängige Variable. Daraus sollte jedoch keine verallgemeinerte Aussage abgeleitet werden, da diese mit zunehmender Distanz immer stärker ins Gewicht fallen könnte. Ebenfalls zu wenig Aussagekraft besassen die Variablen Massnahmenart und Entwicklungs- connaissances 125 Kombiseilgerät 1 0.9 0.25 0.8 0.2 0.7 0.15 0.6 0.1 0.5 0.4 0.05 MAPE (%/100) RMSE und Bias (h/m3 Holzhauerei und Rücken) 0.3 0.3 0 0.2 –0.05 –0.1 0.1 0 10 20 30 40 50 60 70 80 90 0 100 f(k) = RMSE’k + Biask’ + MAPE’k k RMSE kNN RMSE Regression Bias kNN Bias Regression MAPE kNN MAPE Regression RMSE’k = knn-Methode Nachdem Regressionsformeln für beide Holzerntemethoden hergeleitet wurden und eine Auswahl aus allen verfügbaren unabhängigen Variablen getroffen wurde, soll nun mithilfe derselben 4 Um eine noch bessere Vergleichbarkeit der beiden Schätzverfahren zu erreichen, müsste das Kreuzvalidierungsverfahren auch auf die Regressionsanalyse angewendet werden. Darauf wurde jedoch im Rahmen dieser Studie verzichtet, da von den Autoren im Hinblick auf die Kennziffern RMSE, Bias und MAPE für die Regression keine signifikante Abweichung erwartet wurde. 0.8 0.2 0.7 0.15 0.6 0.1 0.5 0.4 0.05 MAPE (%/100) RMSE und Bias (h/m3 Holzhauerei und Rücken) 0.9 0.3 0 0.2 –0.05 0.1 20 30 40 50 60 70 0 k RMSE kNN RMSE Regression Bias kNN Bias Regression MAPE kNN MAPE Regression Abb 5 RMSE, Bias und MAPE in Abhängigkeit der Wahl von k für den Seilschlepper. 126 (14) stufe, was womöglich an der unscharfen Abgrenzung der verschiedenen Eingriffe und Entwicklungsstufen lag, sowie die Variable fm/ha Vorrat. Für das Kombiseilgerätverfahren fanden zudem die beiden Variablen Anzahl Seillinien und Seillinienlänge keine Aufnahme in das Schätzmodell. 1 0.25 10 RMSEk – RMSEmin RMSEmax – RMSEmin der normalisierte Kennwert des RMSE für ein gegebenes k ist (RMSEk ist der RMSE für ein gegebenes k, RMSEmax ist der Maximalwert und RMSEmin der Minimalwert aller über k variierten RMSE). Die Formeln der normalisierten Kennwerte |Biask|’ und MAPE’k sind analog. Um diese Grössen für die kNN-Methode und ein bestimmtes k zu berechnen, ist es nötig, ein sogenanntes Kreuzvalidierungsverfahren durchzuführen.4 Dabei werden die vorhandenen n Datensätze in m Teilmengen aufgeteilt (m ≤ n). Dann wird in m Durchläufen unter Ausschluss einer Testteilmenge Ti mittels aller verbleibenden m–1 Trainingsteilmengen die i-te Teilmenge Ti geschätzt. Einen Spezialfall bildet die hier gewählte Leave-one-out-Kreuzvalidierung, bei welcher die Zahl der Durchläufe der Zahl der Teilmengen entspricht (m = n), sodass jede Teilmenge genau einmal als Testteilmenge auftritt. In Abbildung 4 sind RMSE, Bias und MAPE in Abhängigkeit ihrer Wahl von k für das Kombiseilgerät und in Abbildung 5 für den Seilschlepper dargestellt. Zum Vergleich wurden überdies die entsprechenden Kennwerte der Regressionsanalyse eingezeichnet. Für RMSE und Bias liegt das Optimum bei verschiedenen k, für den RMSE bei k = 4 (Kombiseilgerät) beziehungsweise k = 6 (Seilschlepper) und für den Bias bei k = 10 (Kombiseilgerät) beziehungsweise k = 2 (Seilschlepper). Der MAPE nimmt beim Kombiseilgerät einen minimalen Wert bei k = 23 an (Abbil- Seilschlepper 0.3 0 (13) minimal sein, wobei Abb 4 RMSE, Bias und MAPE in Abhängigkeit der Wahl von k für das Kombiseilgerät. –0.1 Variablen die kNN-Methode auf ihre Schätzgenauigkeit geprüft werden. Um die Güte der Anpassung der Schätzwerte an die realen Messwerte zu beurteilen, werden der RMSE, der Bias und der MAPE herangezogen (Formeln [10] bis [12]). Diese Werte sind bei der kNNMethode jedoch abhängig von der Wahl der Anzahl nächster Nachbarn k. Die genannten Kennwerte können somit bei der kNN-Methode umgekehrt auch zur Bestimmung des optimalen k verwendet werden. Gesucht ist ein k, bei welchem alle drei Kennwerte RMSE, Bias und MAPE möglichst nahe bei 0 zu liegen kommen, beziehungsweise die Summe der im Intervall 0–1 normalisierten Kennwerte minimal ist. Für dieses k soll demnach wissen Schweiz Z Forstwes 163 (2012) 4: 119–129 h/m3 Holzhauerei und Rücken bzw. %/100 Kombiseilgerät 0.25 0.238 0.202 0.193 0.2 0.169 0.15 0.1 0.05 0 –0.05 0.005 0.000 Bias RMSE kNN-Methode MAPE Multiple lineare Regression hauerei und Rücken und der MAPE bei 23.8% (Tabelle 6, Zeile b). Beim Seilschlepperverfahren liegt der RMSE bei 0.173 h/m3 Holzhauerei und Rücken und der MAPE bei 17.7% (Tabelle 6, Zeile f). Vergleich der schätzgüte der knn-Methode und der multiplen Regressionsanalyse Um zu überprüfen, inwieweit die kNN-Methode als Schätzmethode geeignet ist, werden die Kennzahlen Bias, RMSE und MAPE der multiplen Regression mit denjenigen der kNN-Methode verglichen (Abbildungen 6 und 7). Es zeigt sich, dass trotz optimalen k die kNNMethode bezüglich der drei Kennwerte in keinem Fall so gut abschneidet wie die Regressionsanalyse. Die Unterschiede zwischen beiden statistischen Verfahren sind allerdings nicht gravierend.5 h/m3 Holzhauerei und Rücken bzw. %/100 Abb 6 Bias, RMSE und MAPE für das Holzernteverfahren Kombiseilgerät bei kopt = 4. Seilschlepper 0.25 0.2 0.177 0.173 0.148 0.15 0.147 0.1 0.05 0.000 0 –0.016 –0.05 Bias RMSE kNN-Methode MAPE Multiple lineare Regression Abb 7 Bias, RMSE und MAPE für das Holzernteverfahren Seilschlepper bei kopt = 6. dung 4). Für eine gute Wahl von k wäre jedoch auch das Zwischenoptimum bei k = 10 eine nähere Betrachtung wert. Für den Seilschlepper liegt das Optimum in Hinsicht auf den MAPE bei k = 6 (Abbildung 5). Das gemäss Formel (13) über alle drei Kennwerte hinweg optimale k liegt demnach in unseren Beispielen für das Kombiseilgerät bei k = 4, was nahe bei der Empfehlung von Enas & Choi (1986) liegt. Eine Wahl von k = 10 würde allerdings kein signifikant schlechteres Resultat ergeben und läge näher bei der Empfehlung von Loftsgarden & Quesenberry (1965). Für den Seilschlepper ist das optimale k = 6. Damit liegen wir ebenfalls nicht weit von den Empfehlungen von Loftsgarden & Quesenberry (1965) sowie Enas & Choi (1986). Der Bias liegt beim Kombiseilgerätverfahren bei 0.005 h/m3 (Tabelle 6, Zeile b) und beim Seilschlepperverfahren bei –0.016 h/m3 Holzhauerei und Rücken (Tabelle 6, Zeile f). Der RMSE liegt für das Kombiseilgerätverfahren bei 0.193 h/m3 Holz- Schweiz Z Forstwes 163 (2012) 4: 119–129 Zur wahl der Modellvariablen Eine Schwierigkeit sowohl bei der Regression als auch bei der kNN-Methode besteht in der Wahl eines geeigneten Modells. Das rückwärtsgerichtete Eliminationsverfahren, mit welchem aus sämtlichen möglichen Variablenkombinationen das geeignete Schätzmodell extrahiert wurde, ist zeitaufwendig und bedarf einiger statistischer Kenntnisse, womit es in der Praxis nicht problemlos verwendet werden kann. Durch eine weitere Untersuchung mit sämtlichen pro Holzernteverfahren zur Verfügung stehenden unabhängigen Variablen (Tabelle 1) konnte jedoch gezeigt werden, dass derartige Schätzmodelle sowohl für die Regression als auch für die kNN-Methode nur unwesentlich bessere Resultate in Bezug auf Bias, RMSE und MAPE erzeugen (Tabelle 6). Natürlich wird unter Einbezug auch nicht signifikanter unabhängiger Variablen in das Modell ein gewisses Rauschen in Kauf genommen. Da sich die Schätzresultate in Bezug auf die drei genannten Kennzahlen in unserer Untersuchung nicht wesentlich verschlechterten oder verbesserten, können Praktiker und Praktikerinnen, welche keinerlei Anhaltspunkte für die Modellwahl haben, in einem ersten Schritt sämtliche unabhängigen Variablen in ihr Modell einbeziehen. Fazit und ausblick Beide Methoden, die kNN-Methode und die multiple lineare Regression, können zur Schätzung von Holzernteproduktivitäten herangezogen wer5 Eine nachträglich durchgeführte Residuenanalyse zeigte einen Trend der Residuen sowohl der multiplen linearen Regression als auch der kNN-Methode. Für beide Verfahren werden kleine Werte der unabhängigen Variablen generell über- und grosse Werte generell unterschätzt. Die Autoren sind der Meinung, dass dieses Phänomen auf die zugrunde liegenden Daten zurückzuführen ist. Weitere Untersuchungen sind geplant. connaissances 127 Bias (h/m3) RMse (h/m3) MaPe (%) Kombiseilgerät (Modell mit signifikanten Variablen) a) Multiple lineare Regression –2.822 E-16 0.169 20.2 b) kNN-Methode (k = 4) 0.005 0.193 23.8 Kombiseilgerät (Modell mit allen verfügbaren Variablen) c) Multiple lineare Regression –5.447 E-16 0.163 20.0 d) kNN-Methode (k = 4) 0.004 0.193 23.7 seilschlepper (Modell mit signifikanten Variablen) e) Multiple lineare Regression –7.296 E-17 0.148 14.7 f) kNN-Methode (k = 6) –0.016 0.173 17.7 seilschlepper (Modell mit allen verfügbaren Variablen) g) Multiple lineare Regression –1.967 E-16 0.141 14.3 h) kNN-Methode (k = 6) –0.013 0.182 18.4 Tab 6 Vergleich von Bias, RMSE und MAPE der Schätzmodelle, in welche alle pro Holzernteverfahren zur Verfügung stehenden unabhängigen Variablen eingeflossen sind, mit den optimalen Schätzmodellen. den. Die Prognosegenauigkeit liegt in derselben Grössenordnung. Die Gründe für die lediglich in einem akzeptablen Bereich liegende Schätzgüte sind nach Meinung der Autoren weniger in den Schätzverfahren zu suchen als in einer zu schmalen Variationsbreite der unabhängigen Variablen der zugrunde liegenden Daten. Beide Schätzmethoden haben Vor- und Nachteile und ihre eigenen Anwendungsschwerpunkte. Regression Die Annahmen über die funktionalen Zusammenhänge zwischen den unabhängigen und der abhängigen Variablen werden durch die Regressionsformel explizit gemacht. Aufgrund der einfachen Formel ist die Regression leicht anzuwenden und besonders geeignet für den Einsatz in Simulationsmodellen und für Sensitivitätsanalysen. Die Anwendung der Regressionsformel erfordert keinen Zugriff auf die zugrunde liegenden Daten. • • knn-Methode Aufgrund der einfachen Verständlichkeit der kNN-Methode sowie der Visualisierbarkeit der k nächsten Nachbarn ist sie besonders geeignet für Praktiker und Praktikerinnen, die einzelne Ereignisse schätzen wollen. Die kNN-Methode ist robust und nicht parametrisch, das heisst, sie setzt im Gegensatz zur Regressionsanalyse nicht die Wahl eines bestimmten Modelltyps (z.B. linear, exponentiell, logarithmisch) voraus. Im Gegensatz zur Regression müssen bei der Anwendung der kNN-Methode funktionale Zusammenhänge zwischen den unabhängigen und der abhängigen Variablen nicht bekannt sein (Fehrmann et al 2008), sie werden allerdings durch die kNNMethode auch nicht aufgezeigt. Weiter können zusätzliche unabhängige Variablen nachträglich ins Modell aufgenommen werden, ohne dass das Schätz- • • 128 wissen modell neu gerechnet werden muss. Allerdings erfordert die kNN-Methode eine gute Wahl von k. ˉˉ Richtlinien können hierbei hilfreich sein, z.B. k = √ˉn 3/8 oder k = n , wobei n die Anzahl Referenzereignisse darstellt. Die kNN-Methode nutzt lokale Abweichungen von einem grösseren Trend besser aus als eine lineare Regression (Fehrmann et al 2008). Die kNN-Methode hat die Tendenz, systematisch kleinste Werte zu über- und grösste Werte zu unterschätzen. Eine Verringerung von k verkleinert zwar diesen Bias, erhöht jedoch gleichzeitig die Varianz (Maltamo et al 2003, Malinen 2003). Die Anwendung der kNN-Methode berücksichtigt immer sämtliche vorhandenen Datensätze. Sie kann so auf eine laufend aktualisierte Datenbasis zugreifen, sie setzt aber den Zugriff auf sämtliche Daten notwendigerweise voraus. Die Schätzmodelle veralten aufgrund neu hinzugefügter Datensätze im Gegensatz zur Regression nicht. Eine Extrapolation über den durch Daten unterlegten Bereich hinaus ist weder bei der Regressionsanalyse noch bei der kNN-Methode ohne Weiteres möglich. Eine Schwierigkeit, die überdies bei beiden Schätzmethoden zu bewältigen ist, ist die Auswahl geeigneter unabhängiger Variablen. Mit der kNN-Methode beziehungsweise mit der vorgestellten Software kNN-Workbook lassen sich natürlich nicht nur Holzerntedaten auswerten sowie diesbezügliche Leistungen und Kosten schätzen. Grundsätzlich sind die Methode und das Instrument auch auf andere Datensätze und Schätzgrössen anwendbar. Zum Beispiel liesse sich auch die Sortimentszusammensetzung von Holzschlägen (Anteile an Säge-, Industrie- und Energieholz) gestützt auf Erfahrungszahlen prognostizieren. Für eine Weiterentwicklung des Ansatzes wäre es überlegenswert, eine zentrale Holzerntedatenbank aufzubauen. Repräsentativ über die Schweiz verteilte Testbetriebe würden sich gegebenenfalls gegen Entschädigung oder Einräumung spezieller Nutzungsrechte dazu verpflichten, zuvor festgelegte Variablen ihrer Holzschläge zu erfassen und diese Daten in die Datenbank einzuspeisen (Frutig et al 2009). Die Datenerfassung sowie die Schätzung von Produktivitäten und Kosten mittels der kNN-Methode würden über Internet und Webservices6 erfolgen. Es ist vorgesehen, die auf Excel 2007 basierende Software kNN-Workbook einem breiteren Publikum, insbesondere den Forstbetriebsleitern, über die Website der WSL gratis zur Verfügung zu stellen. Die Autoren sind interessiert an Rückmeldungen von Personen, die Instrument und Methode getestet haben. n • • • Eingereicht: 23. Februar 2011, akzeptiert (mit Review): 31. August 2011 6 Mithilfe von Webservices können Daten automatisiert ausgetauscht oder Funktionen auf entfernten Rechnern aufgerufen werden. Schweiz Z Forstwes 163 (2012) 4: 119–129 Literatur DUDa Ro, HaRT Re, sToRK Dg (2001) Pattern classification. New York: John Wiley, 2 ed. 654 p. enas gg, cHoi sc (1986) Choice of the smoothing parameter and efficiency of k-nearest neighbour classification. Comput Math Appl 12: 235–244. FeHRMann L (2006) Alternative Methoden zur Biomasseschätzung auf Einzelbaumebene unter spezieller Berücksichtigung der k-Nearest Neighbour (k-NN) Methode. Göttingen: Georg-August-Univ, Fakultät Forstwissenschaften Waldökologie, Dissertation. 155 p. FeHRMann L, LeHTonen a, KLeinn cH, ToMPPo e (2008) Comparison of linear and mixed-effect regression models and a k-nearest neighbour approach for estimation of singletree biomass. Can J For Res 38: 1–9. doi: 10.1139/X07-119 FeLBeR a (2005) Prognose der lokalen Waldbrandgefahr im Tessin durch Modellierung mit Hilfe der k-Nearest Neighbors (kNN) Methode. Basel: Univ Basel, Naturwissenschaftl Fakultät, PhD Thesis. 143 p. FRUTig F, THees o, LeMM R, KosTaDinoV F (2009) Holzernte- produktivitätsmodelle HeProMo – Konzeption, Realisierung, Nutzung und Weiterentwicklung. In: Thees O, Lemm R, editors. Management zukunftsfähige Waldnutzung. Zürich: Vdf. pp. 441–466. LeMM R, VogeL M, FeLBeR a, THees o (2005) Eignung der k-Nearest Neighbours (kNN) Methode zur Schätzung von Produktivitäten in der Holzernte. Grundsätzliche Überlegungen und erste Erfahrungen. Allg Forst- Jagdztg 176: 189–200. LoFTsgaaRDen D, QUesenBeRRy c (1965) A nonparametric estimate of multivariate density function. Ann Math Stat 36: 1049–1050. MaLinen J (2003) Locally adaptable non-parametric methods for estimating stand characteristics for wood procurement planning. Silva Fenn 37: 109–120. MaLTaMo M, MaLinen J, Kangas a, HäRKönen s, Pasanen aM (2003) Most similar neighbour-based stand vari- able estimation for use in inventory by compartments in Finland. Forestry 76: 449–464. ein instrument zur schätzung von Holzernteproduktivitäten mittels der knn-Methode Un instrument pour évaluer la productivité de la récolte des bois selon la méthode knn Für die betriebliche Planung und Steuerung der Holzernte ist es wichtig, zuverlässige Informationen über ihre Zeitbedarfe und Kosten zu haben. Um diese effizient und verlässlich schätzen zu können, bedarf es entsprechender Methoden und Kalkulationsinstrumente. In vorliegendem Beitrag wird geprüft, ob sich die Methode der k nächsten Nachbarn (kNN-Methode) hierzu eignet. Dazu wird die Funktionsweise der kNNMethode erläutert und anhand zweier Datensätze zu den Holzernteverfahren «Kombiseilgerät» und «Seilschlepper» die Schätzgenauigkeit der kNN-Methode geprüft. Es zeigt sich, dass ihre Schätzgenauigkeit in derselben Grössenordnung wie diejenige einer multiplen linearen Regression liegt. Vorteile der kNN-Methode sind die einfache Verständlichkeit und gute Visualisierbarkeit sowie der Umstand, dass die Schätzmodelle nicht veralten, weil laufend neue Datensätze berücksichtigt werden können. An der Eidgenössischen Forschungsanstalt für Wald, Schnee und Landschaft wurde daher das kNN-Workbook entwickelt, ein Softwareinstrument, mit welchem beliebige Datensätze in der Praxis mit der kNN-Methode analysiert werden können. Dieses Instrument wird im Artikel ebenfalls vorgestellt. Pour la planification et la gestion opérationnelles de la récolte des bois, il importe de disposer d’informations fiables sur le temps requis et les coûts engendrés. Des méthodes et des instruments de calcul appropriés sont dès lors nécessaires afin que ces paramètres soient estimés avec efficacité et fiabilité. Le présent article examine dans quelle mesure la méthode des k plus proches voisins (méthode kNN) s’adapte à ce dessein. Pour ce faire, l’algorithme des k plus proches voisins est d’abord décrit avant d’être appliqué à deux sets de données sur les méthodes de récolte des bois «câble-grue et processeur combiné» et «débusqueur». Il s’avère que l’exactitude de l’estimation de la méthode kNN se situe dans le même ordre de grandeur que celle d’une régression linéaire multiple. Les avantages de la méthode kNN résident dans sa compréhensibilité et la bonne visualisation ainsi que dans le fait que les modèles ne deviennent pas obsolètes, car continuellement complétés par de nouvelles données. A l’Institut fédéral de recherches WSL a ainsi été développé un workbook kNN, un instrument logiciel qui permet d’analyser des données de la pratique avec la méthode kNN. Cet instrument est également présenté dans cette contribution. Schweiz Z Forstwes 163 (2012) 4: 119–129 connaissances 129