PDA

Archiv verlassen und diese Seite im Standarddesign anzeigen : Update



IcePic
12.01.2007, 19:43
So hab mal wieder was dran getan. Und zwar kann ich jetzt das ganze Profile parsen, sprich Uni, Hobby und sowas. In der xml-File siehts dann so aus



<node id="1">
<data key="Name">Christoph</data>
<data key="Profile">ids=d47f356ba54fb1e2</data>
<data key="Image">http://217.188.35.147/pics/members/12/9/334857-6987-w.jpg</data>
<data key="Membersince">14.07.2006</data>
<data key="Lastupdate">12.11.2006</data>
<data key="Uni">Uni Duisburg-Essen(seit 2004)</data>
<data key="Status">null</data>
<data key="Gender">männlich</data>
<data key="Stud">null</data>
<data key="Studdir">Informationswissenschaft / Informatik</data>
<data key="Birth">null</data>
<data key="Interests">null</data>
<data key="Music">http://www.last.fm/user/IcePic/</data>
<data key="Books">null</data>
<data key="Movies">null</data>
<data key="Quote">null</data>
<data key="Friends">null</data>
</node>


Wie man sieht, in meinem Profile steht nicht wirklich viel. Es sind noch nicht alle Profiledaten eingetragen, aber das ist nur noch Tiparbeit. Was jetzt noch fehlt, wäre das Parsen der Gruppe.
Den Code zum Parsen der Profile hab ich btw zum Teil von
http://studianalyse.sourceforge.net/

Ach ja und ich hab noch ein kleines Problem mit Umlauten. Wenn ich nach "Lieblingsbüchern" parse, matchen die Regexes nicht. Ich nehme mal an das liegt an den Umlauten. Jemand ne Ahnung wie man das macht?

foppi
13.01.2007, 06:39
Wenn ich nach "Lieblingsbüchern" parse, matchen die Regexes nicht.

Richtiges encoding?

Was bringt dich eigentlich zu einer xml-Benutzung a la


<data key='abc'>...</data>

statt


<abc>...</abc>

?

destructor
13.01.2007, 07:51
Zudem würde ich auch das null-Value anders kodieren. So kannst du es vom String "null" niemals wieder unterscheiden. Viele XML-Bibliotheken machen das ohnehin schon defaultmäßig so, dass null-Werte garnichterst geschrieben werden (XMEncoder) oder speziell codiert werden ("<null/>" bei XStream)

IcePic
13.01.2007, 21:53
Was bringt dich eigentlich zu einer xml-Benutzung a la

Die Prefuse-XMl-libary. Das Schreiben in eine xml-File lass ist schon vorhanden.

IcePic
14.01.2007, 21:01
So mal wieder ein Update. Es werden jetzt Profile-Daten(mit Billd) der einzelnen Knoten auf der rechten Seite angezeigt. Und zwar immer der Knoten, der als letztes von der Mouse "berührt" wurde.


Das Panel mit den Nutzerdaten stammt von vizster Projekt und ist vom "Studieanalyse-Projekt" ein bischen angepasst worden.
Falls noch jemand mitmachen will:

- Der Parser arbeit noch nicht immer 100%
- Ein Xml-Parser vom akutellen zum Prefuse Alpha Graphml wäre schön, so dass man den vizster Client benutzen kann.
- Die Oberfläche müsste mal vernünftig gemacht werden.

Wenn jemand interesse hat, kann er sich melden. Dann schick ich den Source raus.

IcePic
16.01.2007, 22:37
Hab mal ne Projektpage bei Sourceforge eingerichtet:



Hier der CVS


*zensiert*


Und hier der Link zur letzten lauffähigen Version:



Starten wie eh und jeh


java -jar java -jar SATv003.jar email pass


Anmerkungen dazu:
Man muss voher das jar öffnen und die entity-file ins Verzeichnis koperien.
Das Ding ist von meinem selbstgebastelten Stringextractor für html. Hat da vielleicht jemand ne vorgefertigte Lösung? Die Stringbeans von Htmlparser kann ich nicht wirklich benutzen.
Ansonsten wirft das Teil noch jede Menge exception und der Parser klappt auch nicht immer 100%. Falls eine Exception kommt, einfach noch mal auf den Knoten klicken. Beim 2 mal klappts meistens. Außerdem werden manchmal nicht alle Bilder vernünftig geladen. Liegt dara, dass der die direkt vom Webserver holt und nicht cacht. Das muss man noch ändern. Außerdem dauert das Parsen jetzt echt lange. Also nicht wundern, wenn nichts reagiert ;)
Achja der Graph wird in bla.xml im workingdir. gespeichert. Durch paar kleine Änderungen am Quelltext kann man den dann offline angucken

IcePic
21.01.2007, 17:39
Und mal wieder ein Update. Man kann Graphen nun übers Menü laden und abspeichern.
Die Graphen sind gerichtet und mit eliptischen Kanten verbunden. Außerdem werden die Profilebilder auf der Platte gecacht. Wers ausporbieren will, kann vom cvs auschecken.
Der Menüeintrag "Connect", parst dabei wie gehabt das eigene Profile und man kann sich durchklicken. Mit "Force" kann man das Layout verändern.



Nun muss noch unbedingt eine Progressbar eingefügt werden. Im Moment siehts so aus, als wäre das Programm beim Parsen abgeschmiert. Bei Knoten mit vielen Freunden >50 kann das Parsen schon 2-3 Minuten dauern.
Und die Suchfunktion will noch nich so wie ich will!

IcePic
21.01.2007, 21:45
Here we go again!

- Suchfunktion für Namen ist drin.
- Weibliche Mitglieder werden rosa, männlich blau eingefärbt.
- Nachbarknoten werden markiert, wenn man mit der Mouse über einen Knoten fährt.
- Man kann seine Freundschaften mit einer Rekursionstiefe von 2 auslesen. (Wirft noch nen paar exception, da klappt das downloaden der Profilebilder nicht immer.

Und weils so schön ist, noch mal nen großer Graph:
[url][/url

IcePic
25.01.2007, 23:14
Ich hab mal für dieses Projekt http://turrican.unixag-zw.fh-kl.de/studianalyse/ einen kleinen Patch geschrieben, so dass nun auch zusammenhängende Graphen erstellt werden können. Das war vorher nicht möglich.
Allerdings hat Studivz den Client gesperrt.


StudiVZ hat sich entschlossen, unsere Login Funktion zu blockieren. StudiAnalyse ist somit momentan nicht nutzbar! Wir wünschen und hoffen auf eine Zusammenarbeit, die vorteilhaft für StudiVz, unsere Forschung und die Interessen der einzelnen Nutzer ist!
Wir warten auf ein Statement von StudiVZ...

Die sperre lässt sich zwar leicht umgehen, allerdings warte ich mit der Veröffentlichung noch, bis alles geklärt ist.

Hier schonmal ein paar Screenshots:



Die Jungs haben wirklich ganze arbeit geleistet.

Dominik
26.01.2007, 15:58
Isses denn klar !! inwiefern !! StudiVZ eine Sperre eingebaut hat? Also was für Maßnahmen wurden getroffen? Würde mich sehr interessieren ^^ :D

IcePic
26.01.2007, 16:16
Die Jungs haben im Header des Httpclients als Clientbezeichnung ihr Projekt angegeben und das haben sie gesperrt. Wenn man also den Quelltext runterläd und brav Mozilla einträgt gehts wieder ;)

nero_rocks
16.03.2007, 22:54
Hi, bin neu hier (offensichtlich^^).

Ich habe mal 2 kleine Fragen: laufen diese Auswertungstoolprojekte eigentlich noch? und besitzen sie schon ein Modul zur automatischen Lösung der Captchas?

IcePic
17.03.2007, 13:07
Bei dem Dingen hier http://turrican.unixag-zw.fh-kl.de/studianalyse/ musste die Version aus dem CVS auschecken und die Connect-Klasse ein bissle anpassen. Dort wird immer ein Link zu Projekt page mitgeschickt. Das benutzt Studivz zum sperren,
Die Captchas werden einfach an den Benutzer weitergereicht. Automatisches Knacken ist afaik noch nicht möglich. Mein Projekt ist eingestellt. Sollte Studivz das Tool von oben offiziell Erlauben(die Jungs stehen in Kontakt mit denen) würde ich da weiter machen.

nero_rocks
17.03.2007, 13:55
Ich arbeite nämlich an meinem eigenen Client ;). Meine Erfahrung: mit Jakarta HTTP Client und JTidy als HTML Parser fährt man sehr gut. Aber da mich besonders die Captchas genervt haben, habe ich mich vorerst hauptsächlich damit beschäftigt. Ergebnis: eine Sammlung von Java Klassen, die im Captcha die einzelnen Buchstaben/Ziffern herausfiltern und aus einer Art Datenbank die (entsprechend der "Erfahrungsdaten") wahrscheinlichste Lösung zurückgeben. Diese hat bei Ausgangsdaten von 40 gelösten Captcha eine Fehlerrate von 0-2 falsche Buchstaben/Ziffern.Bin momentan nur noch an einem kleinen "Einlerntool" um die Datenbasis einfacher erweitern zu können. Aber ich würde natürlich meine Erfahrung hier gern teilen wollen.