• Willkommen im Geoclub - dem größten deutschsprachigen Geocaching-Forum. Registriere dich kostenlos, um alle Inhalte zu sehen und neue Beiträge zu erstellen.

Besondere Caches - Formel

Oliver

Geowizard
Großer Index sehr gut
Kleiner Index nicht ganz so gut wie sehr gut

Stern = Anzahl Empfehlungen
Haken = Anzahl Funde
In Klammern = nicht drüber nachdenken
 

Oliver

Geowizard
Ganz deiner Meinung ...
... wird nach dem nächsten Release etwa so aussehen:

rn.gif


Edit: das Denglisch wird ist natürlich nur ein Entwurf ;)
 

pfeffer

Geowizard
@Oliver: stellst Du auf diese Formel um?
bisher ist es ja etwas anders:

a = Anzahl der Empfehlungen
(ohne evtl. Empfehlungen des Owners)

b = Anzahl der Funde seit dem 14.1.2007
(seit dem Empfehlungen online sind)

c = Anzahl der Funde

Index = (a+1) * (a+1) / (b + c/10 + 3) * 100

Ich habe das jetzt zusammen mit Salzkammergut in CacheWolf nach der hier angegebenen Formel: (a*a +1) / (1+b/10) umgesetzt (wobei ich nur Founds und nur Empfehlungen nach dem 14.1.2007, dem Einführungstermin des Systems berücksichtige).

Ich finde, wir sollten uns mal ein paar Grundlagengedanken dazu machen.

Ich finde, wir brauchen einen Bezugspunkt. Dazu kommt in Frage:
a) maximale Bewertung, d.h. jeder Log ist eine Empfehlung oder
b) eine "normale" Bewertung, die angesetzt wird, wenn noch keine Logs vorliegen.

Evtl. kann man auch beide Bezugspunkte festsetzen, zB.
maximal = 100
normal = 50

Dann bräuchte man eine Fromel, die das liefert. Dabei stellen sich insbesondere 2 Probleme
1. wenn noch wenige Logs vorhanden sind, dann ist statistisch die Bewertung sehr unsicher. Man möchte also eine Formel, die bei wenig vorhandenen Logs nur geringe Abweichungen von der "Normalbewertung" vornimmt.

2. Viele Logs werden automatisch von Geocaching.com nach Opencaching übertragen. Dabei werden nie Empfehlungen ausgesprochen. Wenn man annimmt, dass besonders gute Caches besonders häufig geloggt werden, dann würde sich dadurch eine Verzerrung in der Weise ergeben, dass die guten Caches wegen vieler Logs und wenigen Empfehlungen unterbwertet werden.

Zu 1.: Ich denke, da müsste sich irgendetwas machen lassen. Ist denn keiner hier, der sich mit Statistik gut auskennt?

Zu 2.: Eine Verzerrung gibt es nur dann, wenn bei den guten Caches der Anteil der automatisch loggenden Personen größer ist als bei normalen und schlechten. Da sind unterschiedliche Effekte denkbar:
- Wenn man gute Caches bereits an der Cache-Beschreibung, d.h. bevor man den Cache gemacht hat, erkannen kann, dann ist zu erwarten, dass diese Caches besonders häufig geloggt werden. Gleiches gilt, wenn sich Geocacher kennen und untereinander den Empfehlungen von anderen folgen, die bereits die Caches gefunden haben. Beides spielt sicher eine Rolle.
Solange wir nicht erkennen können, ob es sich um einen automatischen Logeintrag, der lediglich von geocaching.com kopiert wurde, handelt, weiß ich nicht, wie wir diese Verzerrung herausrechnen sollten.

Ach ja, noch was: ich finde die Idee grundsätzlich gut, die zeitlich jüngeren Emfehlungen höher zu werten als ältere. Aber ich fürchte, das macht die Geschichte zu komplex.

Sind das alle relevanten Kriterien? Oder habe ich was vergessen?
Wenn wir die Liste der Kriterien vollständig haben, dann kann sich ja mal jemand systematisch Gedanken darüber machen, wie wir das in eine Formel kriegen.

Schöne Grüße,
Pfeffer.
 

Oliver

Geowizard
pfeffer schrieb:
bisher ist es ja etwas anders:

a = Anzahl der Empfehlungen
(ohne evtl. Empfehlungen des Owners)

b = Anzahl der Funde seit dem 14.1.2007
(seit dem Empfehlungen online sind)

c = Anzahl der Funde

Index = (a+1) * (a+1) / (b + c/10 + 3) * 100

Ich habe das jetzt zusammen mit Salzkammergut in CacheWolf nach der hier angegebenen Formel: (a*a +1) / (1+b/10) umgesetzt (wobei ich nur Founds und nur Empfehlungen nach dem 14.1.2007, dem Einführungstermin des Systems berücksichtige).

Die alte Formel sollte "nachgetragene" Empfehlungen besonders berücksichtigen, weil sich jemand die Mühe gemacht hat sein altes Log nochmals zu bearbeiten ... von demher konnte man tatsächlich von einer "besonderen" Empfehlung ausgehen.

Nach 11 Monaten sind die Effekte allerdings vernachlässigbar.

Die neue Formel soll eigentlich nur noch Bewertungen überproportional gegenüber Founds hervorheben ... eine einfache Prozentzahl im Sinne von "maximal 10 möglich, 5 erreicht also 50% besonders" wird der Sache nicht gerecht, weil ja nur 10% der Caches als Top bewertet werden können.

... hab mir aber auch keine tiefgründigen statistischen Gedanken gemacht ... derzeit schafft man es in vielen Gegenden ja noch mit einer oder 2 Empfehlungen auf die Top-Liste. Eine "Alterung" der Empfehlungen halte ich "später" für sinnvoll ... sonst wird es einen 1. Top-Cache geben der seit 5 Jahren Empfehlungen sammelt und deshalb von einem neueren Cache nicht abgelöst wird.

Suggestions welcome ;)
 
ich würde den Vergänglichkeitsfaktor auch völlig weg lassen. Eine Empfehlung ist eine Empfehlung... und eine Generalisierung über die Haltbarkeit eines Caches können wir leider nicht empirisch erfassen, also stört es in einer solchen Formel nur.

lion
 
Oliver schrieb:
... Die alte Formel sollte "nachgetragene" Empfehlungen besonders berücksichtigen, weil sich jemand die Mühe gemacht hat sein altes Log nochmals zu bearbeiten ... von demher konnte man tatsächlich von einer "besonderen" Empfehlung ausgehen.

Nach 11 Monaten sind die Effekte allerdings vernachlässigbar.

...
Suggestions welcome ;)

Gern,

die neue Formel sollte auch - wie bisher - alte Logs und Empfehlungen berücksichtgen.
Hier oben im hohen Norden gibt es ca. 100 GeoCacher; Gäste die hierherkommen sind nicht so viele da wie in anderen Gegenden.

Da die GeoCaches von den regionalen GeoCachern in der Regel bereits vor längerer Zeit gefunden wurden scheiden diese dann für eine nachträgliche Empfehlung aus, oder habe ich das falsch verstanden?
Das fände ich nicht so gut.

Gruss
Alex
 

pfeffer

Geowizard
@Oliver:
Was ich noch interessant fände:
a) wieviele User könnten mindestens 1 Empfehlung abgeben, haben aber noch nie eine abgegeben?
a1) wieviele Founds haben die im Durchschnitt und im Median?

b) Wieviele haben bereits eine Empfehlung abgegeben?
b1) wieviele Empfehlungsmöglichkeiten wurden von diesen (noch) nicht genutzt?

c) wieviele Empfehlungsmöglichkeiten gibt es insgesamt?
c1) wieviele wurden davon insgesamt genutzt?

d) wieviele Founds gibt es insgesamt?

e) wieviele Caches gibt es insgesamt?
e1) wieviele haben davon mindestens 1 Empfehlung?
e2) wieviele Founds haben die Caches im Durchschnitt (am besten und im Median) mit 0 Empfehlungen, mit 1 Empfehlung, mit 2, 3, 4, 5, 6 und 7 Empfehlungen?

Ich denke, mit Hilfe dieser Zahlen könnte man sich einen guten Überblick darüber verschaffen, wie gut das Empfehlungssystem funktioniert und wie relevant etwaige Verzerrungen sind.

Schöne Grüße,
Pfeffer.
 

Oliver

Geowizard
pfeffer schrieb:
Ich denke, mit Hilfe dieser Zahlen könnte man sich einen guten Überblick darüber verschaffen, wie gut das Empfehlungssystem funktioniert und wie relevant etwaige Verzerrungen sind..

Wäre es ok wenn ich dir eine MS Access-DB schicke mit den OC-Daten?
Dann kannst du rechnen ;)
 

pfeffer

Geowizard
Vielen Dank an Oliver dafür, dass er mir so schnell die Datenbank verfügbar gemacht hat.

Ich bin noch dabei, weitere Analysen zu machen. Schon mal ein paar Zahlen und Ergebnisse zwischendurch:

1. Insgesamt hat Opencaching etwa 10.000 Benutzer. Davon haben 2500 mehr als 9 Funde, könnten also eine Empfehlung abgeben. Tatsächlich haben 581 User Empfehlungen abgegeben. Von diesen 581 haben 78 zwar Empfehlungen abgegeben, aber bei weitem nicht ihre Möglichkeiten gunutzt, d.h. mehr als 10 Empfehlungsmöglichkeiten nicht genutzt. Das bedeutet, wir haben ungefähr 500 User, die das Empfehlungssystem richtig nutzen. (denkbar wäre auch, dass manche so viele schlechte caches gemacht haben, dass sie davon keinen empfehlen wollen).
Insgesamt muss man sagen: schade, dass es sowenig genutzt wird. Vielleicht könnte man dieses Feature noch irgendwie besser bewerben? (Ich finde die Überschrift "Besondere Caches" sollte umbenannt werden in "beste Caches" oder "Empfohlene Caches").

2. Es ist zu beobachten, dass empfohlene Caches häufiger gefunden werden. Das gilt sowohl für alle User als auch für den Fall, das man user ausschließt, die selbst noch keine Empfehlung abgegeben haben. Der Zusammenhang ist bei den Usern, die schon mal eine Empfehlung abgegeben haben, deutlicher als im Gesamtdurchschnitt. Diesen Unterschied könnte man so deuten, dass diejenigen, die Empfehlungen geben, auch selbst auf Empfehlungen reagieren und diese Caches bevorzugt suchen.

3. Zur Verzerrung: Es ist zu beobachten, dass die absolute Anzahl Empfehlungen als eine lineare Funktion der Founds aufgefasst werden kann (R^2 = 0,9722). Diese Funktion gilt nur für Caches, die mindestens 1 Empfehlung haben. Sie geht allerdings nicht durch den Koordinatenursprung, sondern ist verschoben.
Sie lautet:

Wenn nur Nutzer berücksichtigt werden, die mindestens 1 Empfehlung abgegeben haben (R^2 = 0,9722):
Anzahl Empfehlungen = Anzahl Founds * 0,714 - 1,4365

Wenn alle Nutzer berücksichtigt werden (R^2 = 0,9529):
Anzahl Empfehlungen = Anzahl Founds * 0,4452 - 3,39

Der Unterschied im Faktor (0,4452 gegenüber 0,714) ist leicht zu interpretieren: Der Anteil der nicht grundsätzlich empfehlenden User ist im 2. Fall größer als im ersten und entsprechend die Anzahl der Empfehlungen pro weiterem Log kleiner.

Wäre der absolute Term (-1,4365 bzw. -3,39) 0, so würde in beiden Fällen eine Verdopplung der Anzahl Founds zu einer Verdopplung der Empfehlungen führen. Das würde bedeuten, es gäbe keine Verzerrung.

Mir ist allerdings noch nicht klar, wie der absoulte Term zu interpretieren ist.

Jetzt habe ich einen Einfall:
auch, wenn der absolute Term signifikant von 0 verschieden ist, gilt trotzdem: Wenn ein Cache einmal eine Empfehlung erhalten hat, dann erhält er weitere Empfehlungen, proportional zu den Founds.

Die Unproportionalität entsteht also vor der ersten Empfehlung und wird auch danach nicht aufgeholt. Ich vermute, dieses Phänomen könnte auf folgendem psychischen Effekten beruhen: Es fällt einem leichter, einen Cache zu empfehlen, den jemand anders auch gut findet. Das bedeutet, nur wenn schon ein paar begeisterte Logs da sind, macht man eine Empfehlung. Wenn jemand anders bereits eine Empfehlung gegeben hat, dann ist seine Begeisterung klar. Deswegen werden Caches, die bereits eine Empfehlung haben, auch regelmäßig weiter empfohlen.

Auf jeden Fall bedeutet das Ganze:
Man kann verzerrungsfrei einen einfachen Quotienten aus Anzahl Empfehlungen und Anzahl Founds (die entsprechend korrogiert sind) nehmen, um die Güte eines Cache zu bestimmen. Allerdings muss die Zahl der Founds irgendwie vorher etwas reduziert werden. Das könnte man entweder dadurch machen, dass man bei allen Caches 7,6 (=3,39 / 0,4452) Logs abzieht, oder dadurch dass jeweils die Anzahl Logs erst nach der ersten Empfehlung gezählt wird.
7,6 konstant abzuziehen ist irgendwie doof, weil sich diese Zahl im Laufe der Zeit ja auch ändern kann, so dass eine erneute Analyse der Datenbank notwendig würde.
Um entscheiden zu können, ob man einfach die Anzahl Founds erst ab der ersten Empfehlung zählen sollte, müsste ich noch eine Längsschnittanalyse machen...

Soweit erstmal für heute,
beste Grüße,
Pfeffer.

Fußnoten:
Zu bedenken ist
a) dass ich diese Analyse auf Querschnittsdaten aufgebaut habe
b) dass ich die Daten erst aggregiert und danach die Regressionsanalyse gemacht habe, das führt dazu, dass das R^2 größer ist als wenn die Regressionsanalyse korrekt auf den Einzeldaten angewendet worden wäre.
 

dbox

Geomaster
pfeffer schrieb:
...Wenn man annimmt, dass besonders gute Caches besonders häufig geloggt werden...
Sollte man das wirklich? Ich glaube, häufige Finds sollten besser kein Kriterium sein. Sonst landen irgendwann alle Autobahnmikros oben auf der Liste.

Gruß Rüdiger.
 

MiK

Geoguru
Die Anzahl der Funde kann von ganz verschiedenen Bedingungen abhängen. Der Cache ist leicht zu finden. Der Cache liegt an einem Ort, an dem viele vorbei kommen. Der Cache liegt in der Nähe eines ausgezeichneten Caches und wird oft mitgenommen. Der Cache hat viele Empfehlungen. Der Cache ist einfach wirklich gut. Der Cache verheißt durch eine gute Beschreibung wirklich gut zu sein. ...

Um jetzt daraus eine vernünftige Zahl zu machen, die zur Bewertung des Caches geeignet ist, müsste man heraus finden, wie viele dieser Funde von Cachern gemacht wurden, die jeden gefundenen Cache darauf überprüfen, ob er eine Empfehlung wert ist. Das ist wohl schwer möglich und verändert sich hoffentlich auch mit der Zeit.

Auf der anderen Seite ist die Anzahl der Empfehlungen, die ich aussprechen kann auch begrenzt. Deswegen spricht es auch nicht unbedingt gegen einen Cache, wenn ich keine Empfehlung ausspreche. Davon wird aber ausgegangen, wenn ich die Anzahl der Empfehlungen ins Verhältnis zu den Funden setze.

Meiner Meinung nach, gibt es zwei Vernünftige Wege zur Bewertung.
1. Man nimmt einfach nur die blanke Zahl der Empfehlungen. Diese wird sowieso durch die begrenzte Zahl der zu vergebenden Empfehlungen auf gewisse Weise normiert.

2. Man gibt bei jedem Fund eine Bewertung ab. Ob die nun binär in Form einer Empfehlung, oder mehrstufig in Noten gemacht wird ist eine andere Frage. Wichtig ist aber, dass die Anzahl der guten Bewertungen nicht begrenzt sind. Dann könnte man eher das Verhältnis zur Anzahl der Funde als Kriterium heranziehen.
 

pfeffer

Geowizard
@dbox: Du hast mich misverstanden.
@alle:
Ich will _nicht_ die Anzahl der Founds nutzen, um den Cache zu bewerten. Ich wollte nur sagen: ein Cache, der mindestens 1 Empfehlung erhalten hat, erhält bei weiteren Founds auch weitere Empfehlungen. Das richtet sich gegen Miks Argumentation, man sollte nur die Anzahl der Empfehlungen nehmen. Würde man so verfahren, wie Mik es vorschlägt, wo würden Caches eine höhere Bewertung bekommen, die häufiger gefunden werden. Deswegen ist die Bildung eines Quotienten wichtig.

Ich halte es für wichtig, dass die Anzahl der Empfehlungen, die jeder aussprechen kann, wie gegenwärtig begrenzt ist. Nur dadurch kann sicher erreicht werden, dass man sich genau überlegt, welchem Cache man seine Empfehlung schenkt.

Allerdings ist wahr, dass dadurch Caches, die gut sind, aber nicht zu den 10% besten gehören, keine Empfehlungen bekommen.
Ich denke, man könnte da schon noch darüber nachdenken, ob man zusätzlich eine niedrigere Bewertungsstufe einbaut.

Ich bin mir recht sicher, dass wir, wenn wir den Quotienten berechnen, keinem _sehr_ guten Cache zu wenig Punkte geben. Über die Bewertung von guten, aber nicht sehr guten, müssten wir uns dann nochmal Gedanken machen.

Gruß,
Pfeffer.

PS: Vielleicht kommt der absoluter Term auch bloß durch die verzögerte Einführung des Bewertungssystems zustande. Das werde ich bald mal prüfen.
 

MiK

Geoguru
Ich widerspreche Dir nicht bei der Aussage, dass eine Empfehlung unter Umständen zu weiteren Empfehlungen verleitet.

Aber ich bin der Meinung, dass die Anzahl der Funde aus unterschiedlichsten Gründen überproportional hoch sein kann. Und deswegen halte ich es als wesentlichen Teil der Bewertungsformel für ungeeignet.

Vielleicht sollte man die Anzahl der Empfehlungen eines Caches eher in das Verhältnis zu den insgesamt abgegebenen Empfehlungen setzen. Dann hat das mehr den Charakter einer Abstimmung oder Wahl.
 

pfeffer

Geowizard
es ist richtig, dass die Founds aus unterschiedlichen Gründen hoch sein können.
Aber das ist aber kein Argument dagegen, sie im Nenner zu verwenden, solange nicht nachgewiesen ist, dass bei caches, die Empfehlungen haben, gleichzeitig die Zahl der User, die grundsätzlich keine Empfehlungen abgeben, mit der Zahl der Empfehlungen steigt. Das dies nicht der Fall ist, habe ich durch die lineare Kruve nachgewiesen.

Im ersten Moment, erschien mir Deine Idee, die Anzahl der Empfehlungen in Relation zu den insgesamt ausgesprochenen Empfehlungen zu setzen recht abwegig. Aber vielleicht ist sie doch nicht so schlecht, vielleicht gibt es weniger Verzerrungsargumente. Muss ich nochmal drüber nachdenken.

Gruß,
Pfeffer.
 
Oben