• Willkommen im Geoclub - dem größten deutschsprachigen Geocaching-Forum. Registriere dich kostenlos, um alle Inhalte zu sehen und neue Beiträge zu erstellen.

XML/GPX Parser

MiK

Geoguru
Den Müll liefert GC aber nunmal so aus und ist dann nicht mehr von gewollten Unicodezeichen zu unterscheiden.
 
OP
Romanese

Romanese

Geocacher
Ich habe mal die xml Cache Dateien mit dem IE geoeffnet und bekomme genau die Zeile und Spalte angezeigt, an der ein nicht gueltiges Zeichen steht. Sowas in der Art braeuchten wir, oder?
 

MiK

Geoguru
Wenn es auch noch eine Erklärung dazu gibt, warum dieses Zeichen nicht gültig sein soll. Am Ende brauchen wir eine Liste aller nicht gültigen Zeichen.
 

Engywuck

Geowizard
Es gibt Bytefolgen, die kein gültiges Unicode darstellen. Sonst wären Binärdateien ja auch Unicode ;-)

Gruß,
E.
 

Engywuck

Geowizard
Es gibt die einfachen Tests: Folgende Byte-Werte können in UTF-8 nicht vorkommen: C0, C1, F5, F6, F7, F8, F9, FA, FB, FC, FD, FE, FF.
Und dann gibts noch kompliziertere Abhängigkeiten zwischen Start- und Folgebytes. So kann ein einzelnes Byte gültig oder ungültig sein, je nach dem, was vorher steht. Da hilft dann nur: den gesamten Text nach den UTF-8-Regeln parsen und prüfen. (Siehe Wikipedia zu UTF-8)

Aber eigentlich will man das alles gar nicht machen.

Gruß,
E.
 

MiK

Geoguru
Vielleicht lässt sich ja herausfinden, welcher Fehler hier genau zuschlägt. Aber ich fürchte, hier werden irgendwelche Binärdaten fälschlicherweise mit ausgegeben und es ist nicht vorhersehbar, was da kommt.
 

MiK

Geoguru
Ich habe vorhin mal den oben genannten Cache geladen. Dabei ergab sich an der fraglichen Stelle folgende Hexfolge:
28 41 C2 BB C4 8C E4 A9 80 C6 B9 E7 A6 B8 E0 A4 90
Auf den ersten Blick konnte ich darin keinen Fehler feststellen.
Allerdings liefert GC auch immer mal andere Folgen aus.
 

MiK

Geoguru
00101000 01000001 11000010 10111011 11000100 10001100 11100100 10101001
10000000 11000110 10111001 11100111 10100110 10111000 11100000 10100100
10010000
 

greiol

Geoguru
ver lust hat, kann es mal durch http://snowplow.org/martin/utf8checker/ jagen und und nachsehen. die nächste frage ist dann, ob wir die sequenz genau so von gc.com bekommen oder ob der erst im spider so entsteht.
 

MiK

Geoguru
Das Problem ist, dass die Sequenz auch gar nicht fest ist. Gestern stand beim gleichen Cache noch mit 99% Sicherheit etwas anderes. Irgendwann habe ich es auch geschafft bei einem Reload immer wieder etwas anderes zu bekommen. Also alles auch im Browser. Unabhängig von CW.
 

greiol

Geoguru
auch wenn die sequenz sich ändert, ändert das doch nichts am problem, oder? bekommen wir bereits mist geliefert kann man sich übelegen ob man den aufwand treibt das auszufiltern bzw. falls erst bei unserre verarbeitung mist rauskommt, den teil halt fixen. oder man überlegt sich das zu lassen und sagt denen die ihr colorado/oregon/dakota füttern wollen, dass sie PQs benutzen müssen. dem wolf selber sind die zeichen ja hinreichend egal.
 

MiK

Geoguru
Ich wollte damit sagen, dass überhaupt nicht feststeht, dass die Sequenz, die ich erhalten und analysiert habe, wirklich eine ist, die auf diesen Geräten zu Problemen führt. Vielleicht war sie auch nur "zufällig" korrektes UTF-8. Das glaube ich aber eher nicht.
 
OP
Romanese

Romanese

Geocacher
greiol schrieb:
oder man überlegt sich das zu lassen und sagt denen die ihr colorado/oregon/dakota füttern wollen, dass sie PQs benutzen müssen. dem wolf selber sind die zeichen ja hinreichend egal.

Das betrifft nicht nur Garmin Produkte sondern auch andere Software. Ich faende es schade wenn wir keine Loseung implementieren, da ich oft - vorallem im Urlaub oder auf Dienstreisen - nur meinen PDA mit dem Cachewolf dabei habe und damit die GPX Dateien erstelle.

MiK schrieb:
Das Problem ist, dass die Sequenz auch gar nicht fest ist. Gestern stand beim gleichen Cache noch mit 99% Sicherheit etwas anderes. Irgendwann habe ich es auch geschafft bei einem Reload immer wieder etwas anderes zu bekommen. Also alles auch im Browser. Unabhängig von CW.

Das kann ich bestaetigen. Ich habe 4mal mit dem Browser den Cache neu geladen und 3 unterschiedliche Zeichenfolgen bekommen. Kann es auch Absicht sein von GC.com?
 

MiK

Geoguru
Romanese schrieb:
Das kann ich bestaetigen. Ich habe 4mal mit dem Browser den Cache neu geladen und 3 unterschiedliche Zeichenfolgen bekommen. Kann es auch Absicht sein von GC.com?
Ich glaube eher, es ist ein Bug. Bei mir hatte sich soetwas auch schon mal in eine Cachebeschreibung eingeschlichen. Das ließ sich dann aber einfach von mir wieder entfernen. Ich glaube, ich habe irgendwo mal gelesen, dass die bei bestimmten html-Tags entstehen. Aber das kann ich nicht mehr sicher sagen.
 
Oben