wird es noch schlimmer bei gc.com ?

rue-der-ger · 4 Juli 2009

11:15 Ortszeit war der Stromausfall durch Besprenkelung des
Generatorraums.
AuthorizeNet war um 12:45 Ortszeit wieder online!!!

Siehe hier: http://clipsyndicate.com/publish/video/1006808?wpid=2541

Bei Geocaching.com musste sich wohl erst Jemand an den Fahrradgenerator setzen...

Er hat es aber nicht lange ausgehalten die Seite ist wieder DOWN!

Dingo01 · 4 Juli 2009

radioscout schrieb:
Wie wäre es, wenn sich ein paar mehr User entschließen können, jetzt PM zu werden?...

@ radioscout: Du Spielverderber :x !
DAS ist viel zu konstruktiv!!!
Nix beitragen, spidern und motzen macht doch viel mehr Spaß!!!

Historyfan · 4 Juli 2009

Down???

also bei mir läufts

Dingo01 · 4 Juli 2009

rue-der-ger schrieb:
Bei Geocaching.com musste sich wohl erst Jemand an den Fahrradgenerator setzen...

Er hat es aber nicht lange ausgehalten die Seite ist wieder DOWN!

Ach ja?

Träum und motz weiter....

rue-der-ger · 4 Juli 2009

Jepp, ist wieder da.

Hey Leute, wir sprechen hier von einer kommerziellen Seite,
die sich die meisten Dienste gut bezahlen lässt.
Geocaching.com ist kein gemeinnütziger Verein der durch
Ehrenamtliche oder ä. betrieben wird. Da wird Geld verdient
und eben an den falschen Stellen gespart, dabei bleibe ich.

Keine Ahnung wieviele PM es weltweit gibt.
Zumindest gibt es 840.000 gelegte Caches.
Wenn nur jeder 2. User einen einzigen Cache gelegt hat
und davon nur jeder 4. ein PM ist (was tiefgestapelt ist)
sind das pro Jahr 12.600.000,- $ Einnahmen.

Hinzu kommen pro TB oder Coin 1,50 $ an GC.

Rechnet selber und fragt Euch weiter ob wir dankbar sein sollen,
dass die Seite nach 29 Stunden Ausfall wieder da ist.

Mein Gratis E-Mail-Account ist zuverlässiger....

Dingo01 · 4 Juli 2009

Und noch was:
----------------------------------------------------------------------------------------------------------
"Colotastrophe: The Day After
Our servers are a bunch of primadonnas. They demand to be pampered in the greatest colocation facility in the world (if you agree with the video of Fisher Plaza touting that fact), resting on pillows of AC and fed power in Waterford crystal goblets. We literally pay more for the 5 cabinets that house the servers* than we do our entire Groundspeak office - and then some.

Around 5am Pacific today, all of our grumpy but lucid Groundspeak servers woke from their slumber to greet geocachers** who were, as one user wrote, scratching their arms in search for their next geocaching fix. Most were just happy to have the servers back online but others were asking questions about disaster recovery and communication in a crisis. Instead of finger pointing, although cathartic, I'd like to focus on what worked, what didn't, and how we can try to avert some issues if (and when) this happens again.

To set the stage, we have been hosted at Internap in the Fisher Plaza since 2002 and in that time have only had 2 significant events that related directly to facility issues. The last issue lasted around 8 hours while this one is, by far, the most signficant downtime in the history of the web site. In total we had 29 hours of downtime. Unfortunately the 29 hours were during the geocaching peak season on the busiest weekend of the year and, to compound things, a day off from work for many. The Fates were definitely conspiring to pick the worst day to bring the Geocaching.com site down.

What Worked

The usefulness of Twitter and Facebook became obvious for this crisis. All our web servers and email servers were all located at Fisher Plaza. We had very few options for posting updates, so we had to rely on outside systems to communicate with our community and our partners. I switched from Groundspeak emails to my Gmail account, and my iPhone running Tweetie helped me to get information out as I was "on the scene." By the end of the day I added an additional 800+ followers on Twitter which, in the past, was used as a toy for logging geocaching finds with my family and for the random Groundspeak update.

Also, although we didn't have the need for backups this time, we have daily backups of all our systems. Since this happened before our nightly backups occured it was close to the worst time for a data failure. At the most we would have lost a day of data. In a catastrophic event this isn't a total Fail. It just sucks.

What Didn't Work

Although I won't finger point at the cause of this issue, I will point out that Fisher Plaza people lacked any official communication with the first responders at the scene. Many clients of the building were in the dark, both figuratively and literally, while we were waiting outside for news of what really happened. Instead we had to join in on Twitter to figure out what happened. Was it a fire? (yes) Did the sprinklers turn on? (yes) OMG! Our machines are fried! (no. just the generator) If someone walked out of the building with some authority and told us what they knew - we could have passed that information on to our customers. Internap did a relatively good job at giving status updates though they were sparse and sometimes repeated. I'd give Internap a C and Fisher Plaza an F for communication.

I'll be just as hard on us and say that we should get an F for communication preparedness. Although I think we did a good job at working around our own issues with Facebook and Twitter (and this blog), we were unable to make updates available on our web pages and our iPhone application. The reason why some sites could do this and others could not is that our entire server infrastructure was in the Fisher Plaza basket. The other companies likely had better ways to switch over to a new location. Our only alternative, pointing DNS to another server, would have made it harder to get back online since many people would continue to point to the wrong machine when the servers were back with power. Since we only anticipated a ~12hr outage it made no sense to do something that could take another 24 hours to correct for some users.

There are some obvious things to do to correct what didn't work, and some solutions that will require some thought. I'll highlight a couple of high level things we'll consider and implement.

We're not a bank, so although 29 hours is a long time to be down, we do not plan to duplicate our infrastructure so we are completely redundant. It is just too expensive to make fiscal sense. Instead, we'll ensure that in the case of a catastrophic event that we'll have the best backups and the best steps for restoring those backups to a new system. We already have a good system but we'll make it even better.

We'll have a better system for communicating with our customers, so these systems will be the focus for redundancy planning. This includes rerouting web servers and email. Even streaming my Twitter account on the front page of Geocaching.com would have been helpful for letting people know what is happening.

Lastly, we're going to create an official disaster recovery plan so everyone knows what to do at Groundspeak in the situation where there is a catastrophic event. We should always understand the worst case scenario and how to recover from it. We owe this to our customers.

For those in the US, have a Happy 4th of July! And thanks to everyone for your ongoing support of Groundspeak and the geocaching activity. From the Tweets and Facebook posts you definitely enjoy geocaching. Now go out and find a cache!

* we're not using all of the cabinets at Internap yet but we're still paying for them

** although we also run Waymarking.com and Wherigo.com, the geocaching community is easily the largest and most vocal, so I'm focusing on them for the blog. I know everyone else is just as excited to see our other sites back online."
Quelle: http://locuslingua.blogspot.com/
----------------------------------------------------------------------------------
So, wer noch motzen mag....

rue-der-ger · 4 Juli 2009

Dingo01 schrieb:
Ach ja?

Träum ~~und motz~~ weiter....

ElliPirelli · 4 Juli 2009

rue-der-ger schrieb:
Dingo01 schrieb:

Ach ja?

Träum ~~und motz~~ weiter....

Zum Vergrößern anklicken....

Bitte den off topic Bereich auf der Wiese posten!

Dingo01 · 4 Juli 2009

stimmt.... also zurück zu
"Colotastrophe: The Day After...."
Daß diese Sache suboptimal gelaufen ist (siehe mein Zitat oben) ist also klar.... daß es Konsequenzen geben wird auch (s.o.)...
Aber es war halt "nur" ne Colotastrophe.... immerhin beschäftigen wir uns hier mit nem Hobby, wenn auch einem sehr netten...
Existentiell hat das doch wohl niemanden von uns getroffen - und wenn das Problemhandling bei Groundspeak sich jetzt verbessert.... na Klasse!

Dingo01 · 4 Juli 2009

REM:
Colotastrophe = collateral catastrophe

Cheers,
Dingo01

rue-der-ger · 4 Juli 2009

Dingo01 schrieb:
stimmt.... also zurück zu
"Colotastrophe: The Day After...."
Daß diese Sache suboptimal gelaufen ist (siehe mein Zitat oben) ist also klar.... daß es Konsequenzen geben wird auch (s.o.)...
Aber es war halt "nur" ne Colotastrophe.... immerhin beschäftigen wir uns hier mit nem Hobby, wenn auch einem sehr netten...
Existentiell hat das doch wohl niemanden von uns getroffen - und wenn das Problemhandling bei Groundspeak sich jetzt verbessert.... na Klasse!

Ja, da gehe ich mit.
Wenn jetzt auf die Fehler die passenden Konsequenzen folgen
ist ja alles gut.
Ich teile mal (temporär) Deinen Optimismus Dingo01!

ime · 5 Juli 2009

radioscout schrieb:
Wie wäre es, wenn sich ein paar mehr User entschließen können, jetzt PM zu werden?

Solange so primitive Dinge wie

* korrekte (einheitliche) Formatierung der Koordinaten
* Sperre verbotsgesetzverdächtiger TB-Bescheibungen
* Bundesländer
* mehrsprachige Cachebeschreibungen
* einheitliche ISO-konforme Daten (Datum!, Entfernungen, etc.)
....

nicht umgesetzt werden können, werde ich den Burschen (Purchen) sicher nicht wieder Geld nachwerfen.

Anonymous · 5 Juli 2009

Die amerikanische Meinung zu Kritik:
Love it or leave it.

radioscout · 5 Juli 2009

ime schrieb:
* Sperre verbotsgesetzverdächtiger TB-Bescheibungen

Wahrscheinlich ist das, was dich stört, nach US-Gesetzen zulässig.

ime schrieb:
* Bundesländer

Die sind doch schon seit Ewigkeiten drin. Wer braucht sowas eigentlich?

fogg · 5 Juli 2009

Dingo01 schrieb:
Und noch was:
----------------------------------------------------------------------------------------------------------
"Colotastrophe: The Day After
[...]

The reason why some sites could do this and others could not is that our entire server infrastructure was in the Fisher Plaza basket. The other companies likely had better ways to switch over to a new location.
[...]

So, wer noch motzen mag....

Ja, genau! Ich würde gerne noch motzen: Wer jährlich mehrere Millionen Dollar/Euros pro Jahr einnimmt (und das hatten wir ja schon mal hochgerechnet), der sollte auch auf der Informatik-/DV-Seite mehr als nur Amateurqualitäten erkennen lassen. Die Downtime von 29 Stunden ist für so einen Verein einfach ein Armutszeugnis! Wieso hat sich da eigentlich niemand darüber Gedanken gemacht, was passiert, wenn mal der eine Server-Standort ausfällt :schockiert: ?

Aber die Geschichte ist völlig konsistent mit der Qualität der Web-Schnittstelle und der Progammierumgebung und dem Support von Wherigo. Da sind wirklich nur Informatik-Amateure (oder schlimmer) am Werk :igitt: . Wer da also weiter seine PM-Gebühren bezahlt (so wie ich :???:

), der weiß spätestens jetzt, was ihn erwartet :zensur: .

- Fogg

radioscout · 5 Juli 2009

IIRC waren diese 29 Stunden der erste größere Ausfall in fast 10 Jahren.
Gibt es wirklich einen plausiblen Grund für eine Website, deren Ausfall für eine so kurze Zeit keine negativen Folgen hat, den hier beschriebenen Aufwand für mehr Redundanz zu treiben?

fogg · 5 Juli 2009

radioscout schrieb:
IIRC waren diese 29 Stunden der erste größere Ausfall in fast 10 Jahren.
Gibt es wirklich einen plausiblen Grund für eine Website, deren Ausfall für eine so kurze Zeit keine negativen Folgen hat, den hier beschriebenen Aufwand für mehr Redundanz zu treiben?

Lieber Radioscout,

wenn du Informatiker wärst (äh, und ich vergaß: mehrere Millionen pro Jahr einnehmen würdest), würdest du diese Frage hier nicht stellen.

- Fogg

Carsten · 5 Juli 2009

fogg schrieb:
wenn du Informatiker wärst (äh, und ich vergaß: mehrere Millionen pro Jahr einnehmen würdest), würdest du diese Frage hier nicht stellen.

Wenn du es mehr aus betriebswirtschaftlicher Sicht sehen würdest, würdest du hier auch was anderes schreiben. Jeremy hatte es irgendwo getwittert: Es lohnt sich nicht.

Groundspeak ist nun mal ein kommerzielles Unternehmen und da zählt nicht das, was die IT am liebsten hätte, sondern das, was finanziell ein Plus verspricht. Und wenn man die Kosten für ein zweites Datacenter und die Einnahmeausfälle (durch entgangene PMs, nicht verkaufte Trackables) durch einen seltenen, nicht vorherzusehenden Ausfall gegenüberstellt, bin ich mir ziemlich sicher (niemand von uns hat Zahlen dazu) die Einnahmeausfälle sind deutlich geringer als die Kosten für die Redundanz.

fogg · 5 Juli 2009

Carsten schrieb:
fogg schrieb:

wenn du Informatiker wärst (äh, und ich vergaß: mehrere Millionen pro Jahr einnehmen würdest), würdest du diese Frage hier nicht stellen.

Zum Vergrößern anklicken....

Wenn du es mehr aus betriebswirtschaftlicher Sicht sehen würdest, würdest du hier auch was anderes schreiben. Jeremy hatte es irgendwo getwittert: Es lohnt sich nicht.

Groundspeak ist nun mal ein kommerzielles Unternehmen und da zählt nicht das, was die IT am liebsten hätte, sondern das, was finanziell ein Plus verspricht. Und wenn man die Kosten für ein zweites Datacenter und die Einnahmeausfälle (durch entgangene PMs, nicht verkaufte Trackables) durch einen seltenen, nicht vorherzusehenden Ausfall gegenüberstellt, bin ich mir ziemlich sicher (niemand von uns hat Zahlen dazu) die Einnahmeausfälle sind deutlich geringer als die Kosten für die Redundanz.

OK, dann meld ich mich jetzt mal ab :roll:

. Um die geeignete "anreizkompatible" Rückmeldung zu geben, werde ich meine PM dann also nicht verlängern.

Ernsthaft: Wenn man Geld wie GS in die Hand nimmt, dann muss man auch was tun ... Und das jetzige Debakel ist ja nicht isoliert. Die Wherigo-Katastrophe (selbst mal versucht, zu programmieren?) und die Funktionalität der Web-Oberfläche sprechen Bände.

Klar, wenn man das vom BWL-Standpunkt aus betrachtet :/ M$ lebt ja auch immer noch.

Der Punkt ist einfach: Würde ich ein paar MEuro in die Hand nehmen und einen weltweiten Service anbieten, dann würde es mir als Informatiker nicht in den Sinn kommen, OHNE Backup zu arbeiten. Als BWLer hätte ich durchaus andere Ansichten ...

- Fogg

ElliPirelli · 5 Juli 2009

Ich finde es durchaus faszinierend, welch hohe Wogen 29h ohne Zugang zur Webseite schlagen können....

In welcher Welt leben denn hier so einige?
Was mehr wollt Ihr, als daß der CEO nachts um drei an einem Feiertag lossprintet, Familie und sämtliche Pläne für das Feiertagswochenende sausen läßt und sich die Zeit damit verbringt gelangweilt vor einem Gebäude zu stehen, wo er erstmal stundenlang nichts machen kann.
Daß der für Technik zustände Mitarbeiter seinen Urlaub abbricht, Familie Familie sein läßt und sich in den Flieger schmeißt und wieder nach Seattle zurückfliegt. Um auch erst mal stundenlang nichts machen zu können, weil eben kein Strom da ist.

Dies ist ein Fall von höherer Gewalt, da können die Jungs von Groundspeak gar nichts für.
Sie haben alles nur mögliche gemacht, getwittert und gebloggt, um die Kunden über die Ereignisse, warum es keinen Zugang zur Webseite gibt zu informieren.

Wenn sogar Radiostationen und Fernsehsender ihre Programme von Schwesterstationen senden müssen, wenn Online shops nicht mehr funktionieren, weil das Bezahlsystem per Kreditkarte nicht funktioniert, weil auch diese Firma ihren Server in diesem Rechenzentrum stehen hat, dann versteh ich eher den Streß. Aber wegen einem Zeitvertreib?

Wer so völlig unvorbereitet in den Urlaub fährt, daß er erst am Abend vorher seine PQs zieht, ist selber schuld.
Die zieht man sich schon mal ein, zwei Wochen vorher, und eventuell aktualisiert man sie am Abend vorher.
Es werden schon nicht soooo viele Caches in diesen zwei Wochen oder mehr archiviert worden sein. Und auch nicht so viele Neue dazu gekommen sein.

Bei Wochenendplanung sieht das etwas anders aus, das geb ich ja zu, aber auch da ist es kein Drama, wenn der Zugang zur Webseite nicht funktioniert.

Egal wieviel Geld die Jungs wirklich verdienen, 3 Ausfälle in 10 Jahren rechtfertigen nicht den Riesenaufwand, doppelgleisig zu fahren.

Ich sag mal den liebsten Satz hier im Forum: Es ist nur ein Spiel!

wird es noch schlimmer bei gc.com ?

Geocacher

Geowizard

Geocacher

Geowizard

Geocacher

Geowizard

Geocacher

Geoguru

Geowizard

Geowizard

Geocacher

Geomaster

Anonymous

Guest

Geoking

Geomaster

Geoking

Geomaster

Geowizard

Geomaster

Geoguru