am 29.08.2017 20:17
... wunderbar!
nmh
am 29.08.2017 20:23
So viele Ergebnisse können sich nicht irren
LG
TutsichGut
PS.
Den goldenen Bullen für feinste StandUp Comedy !!!!!!!
am 29.08.2017 21:18
nein nein nein,
ich kann ..nein nein ich will es nicht glauben.
Nein nein.. isch ben fedisch.
Nein nein nein ich konnte nicht alles lesen.
Mein nein nein
nmh wenn Du mich brauchst .............ISCH BEN FÖR DISCH DO
melde Dich , und ich werde mich Outen.
Ich nenne meinen NAMEN...
ich Informiere M.O.----S.R. ---H.S.----F.Sch.---K.A.Junior---NRW A.L.
und alle anderen die wo ich kenne.
Nein ...nein ...nmh ein ???????
nein nein
Baumot ...Aliba.....Alta.....Fb.....usw. alles egal und nichtig.........
Mei Casel Home in Colonge dengskerche is open for You and you Family
Rache den ...Marias von Prauenheims !!!
Grüße
Hr. Dr. Dipl.Ing.
Unternehmesgruppe
.........&.........
Architektur, Planung und Ausführung
nhm, eine erst Hilfe Ausstattung ist unterwegs
......halte durch
29.08.2017 22:19 - bearbeitet 29.08.2017 22:40
29.08.2017 22:19 - bearbeitet 29.08.2017 22:40
Hallo @Pramax,
"eckhardschnell hat den ästhetisch ansprechenderen Avatar", Danke dafür.
Sagt das was jetzt evtl. was über eine mögliche Beziehung der Praktikantin und mir? Oder mag die @Praktikantin @nmh vielleicht nicht so sehr, weil er Chef, ich nur ______ .
Oder kenne ich Tools, die ich nmh, nicht mitteilen möchte, Konkurrenz im eigenen Haus.
Oder bin ich sogar Autor 4, der es immer besser weisß. (Nee, kann nich sein, mache zu viele Fehler und ohne Schlussredaktion, geht gar nichts)
Wir werden es nie erfahren (jetzt müsste die Sprachanalyse zuschnappen).
Der bereits um 15 Grad geneigte (und nochmal was für die Sprachanalyse)
eckhardschnell, wünscht allen eine gute Nacht
PS: Aus den Geschichten hier sollte man mal ein Buch machen, ups Cross-Selling...
am 30.08.2017 06:51
Hallo @dg2210,
woooooow!!! Was für ein Beitrag. Wie lange hast du an diesem geschrieben!?!? Tage, Monate...!?!? Wirklich sehr sehr GUT. Vielen Dank hierfür.
Du hast aber Recht, einige Beiträge von nmh wiedersprechen sich. Wir bekommen noch raus was genau dahinter steckt 😉
Mansur
30.08.2017 09:41 - bearbeitet 30.08.2017 11:15
30.08.2017 09:41 - bearbeitet 30.08.2017 11:15
Vielen Dank, @Mansur1, für dein Lob.
Tatsächlich arbeite ich seit Ostern mehr oder weniger intensiv an der vorgestellten Analyse; Fairerweise muss ich zugeben, daß ich viel Zeit für Dinge aufgewendet haben, die sich schlussendlich als nutzlos erwiesen.
Die Installation von TensorFlow auf meinem neuen PC war noch die einfachste Sache. Danach war erst einmal die Einarbeitung in Python notwendig, da ich vorher noch nie ernsthaft mit dieser Sprache gearbeitet habe. Die Programmteile zum Bereinigen der Texte (HTML-Tags entfernen, Umlaute auflösen, Akzente entfernen) habe ich mir bei stackoverflow.com zusammengesucht. Dabei ist auch der scharfe-s Fehler in das Programm gerutscht.
Danach musste ich mit mir eine Auswerte-Strategie für die Texte finden und nahm dieses Beispiel als Ausgangspunkt. Diesen Artikel wirklich zu verstehen hat mich auch ganz ordentlich Zeit gekostet...um dann erkennen zu müssen, daß der dort gewählte Ansatz für mein Problem wohl nicht zielführend ist. Zitat: "The choice of hyperparameters can strongly influence the accuracy on this task. To achieve state-of-the-art performance on this task requires training over a very large dataset, carefully tuning the hyperparameters and making use of tricks like subsampling the data, which is out of the scope of this tutorial."
Die Idee der Textzerlegung in Trigramme stammt aus dem Artikel, dort geht der Autor aber noch einen Schritt weiter und bildet aus den Trigrammen sogenannte Skip-Gramme, bei denen das mittlere Wort abwechselnd mit dem ersten und zweiten Wort kombiniert wird.
Aus the quick brown fox jumped over the lazy dog wird dann zuerst
([the, brown], quick), ([quick, fox], brown), ([brown, jumped], fox) und schliesslich: (quick, the), (quick, brown), (brown, quick), (brown, fox)
Ziemlich eintönig war auch das manuelle Korrigieren der Trigrammen auf Rechtschreibfehler und Plural/Singular Varianten.
Nachdem @Pramax am Montag die Sache mit dem scharfen-s aufgefallen ist, habe ich kurz daran gedacht, meine Auswertung unter Berücksichtigung dieses Faktors zu wiederholen. Ich habe mich dagegen entscheiden, weil es bedeutet hätte, die ganzen (nervtötenden) manuellen Korrekturen nochmals durchführen zu müssen. Im Grunde ist es auch egal, ob es 4 oder 5 Stammautoren für nmh gibt.
Ich bin mir bewusst, daß meine simple Trigramm-Zähl-Methode ein sehr grobes Werkzeug ist, und würde mich freuen, wenn jemand die nmh-Texte linguistisch analysieren könnte (z.B. nach Satzlänge, Verwendung von Nebensätzen, Vergleiche, Assoziationen, Referenzen etc).
am 30.08.2017 10:11
Das hätte. Dir nichts genutzt. nmh benutzt kurze. einfache. Sätze. Ohne Nebensätze. Keine Schachtelsätze. Das steht ganz klar so in den Schreibvereinbarungen. An die sich auch alle Autoren halten. Bis auf Autor 3, der doch manchmal, und darauf möchte ich besonders hinweisen, weil es mir relevant gerade hinsichtlich der Auswertung, die dg2210, einer jener Nutzer, die alles, was in der Community gepostet wird, ganz besonders ernst nehmen, und, wo war ich?, genau, erscheint, wobei auch die anderen Mitglieder sehr ernsthafte Gedanken darauf verschwenden und verwenden, wer sich wohl hinter einem Team, dessen Name lediglich durch das 3-Buchstaben-Akronym verwendet und repräsentiert wird, verbergen mag, dessen Beiträge wir hier ständig lesen müssen dürfen, sich nicht an die Schreibvereinbarungen hält, die gleichwohl vom Chefred damals, als der noch mit an Bord war, so ausgehandelt wurden und daher für alle verbindlich sind. Aber das ist eine Ausnahme. Sonst nur kurze Sätze. Einfache Texte. Ohne den Leser zu strapazieren. Und natürlich Fettdruck.
nmh
am 30.08.2017 10:24
Mensch Leute,
habt ihr noch nicht erkannt, dass der 3-Buchstaben-Mensch in irgend einem warmen Steuerparadies sitz und nur noch die Peitsche über den Ghostwritern schwingt?
Wobei sich mir nur noch die Frage stellt, ob da nicht längst KI (Sprachavatare) im Spiel ist.
Es wäre kein Wunder, da er ja bekanntermaßen über ein sehr großes RZ verfügt.
am 30.08.2017 11:09
@nmh: Netter Versuch, aber nutzlos.
Meine automatische Bereinigung entfernt HTML-Tags (z.B. Fettdruck) und Satzzeichen.
"kurze. einfache. Sätze" wird zu "kurze einfache saetze"
Falls du mir die Arbeit erschweren möchtest (warum?), dann solltest du falsche Anfangsbuchstaben bei Schlüsselworten verwenden.
Beispiel: das Fragment "nmh, München, doch das kommt an"
Ich habe ja verraten, daß ich zur manuellen Bereinigung der Trigramme eine alphabetisch sortierte Liste verwende. Fehler am Ende eines Trigramms sind extrem leicht zu erkennen:
nmh muenchen doch
nmh muenchen doch
nmh muenchen doch
nmh muenchen doch
nmh muenchen doch
nmh muenchen doch
nmh muenchen dochh
Hättest du in einem Beitrag geschrieben "mnh, München, doch das kommt an",
so wäre das entsprechende Trigramm hundert Bildschirmseiten vor den anderen Trigrammen erschienen und wäre höchstwahrscheinlich von mir übersehen worden:
mnh muenchen doch
(100 Bildschirmseiten mit anderen Trigrammen)
nmh muenchen doch
nmh muenchen doch
nmh muenchen doch
nmh muenchen doch
nmh muenchen doch
30.08.2017 11:22 - bearbeitet 30.08.2017 11:24
30.08.2017 11:22 - bearbeitet 30.08.2017 11:24
Nachtrag zur Frage von @Mansur1 :
Der Auslöser für meine Arbeit war dieser Vortrag bei 32C3 mit dem Titel "Large Scale Authorship Attribution from Executable Binaries of Compiled Code and Source Code"
in dem gezeigt wird, wie sich veröffentlichter Sourcecode einem Autor zuordnen lässt.
Zitat: "Last year I presented research showing how to de-anonymize programmers based on their coding style. This is of immediate concern to open source software developers who would like to remain anonymous. On the other hand, being able to de-anonymize programmers can help in forensic investigations, or in resolving plagiarism claims or copyright disputes. [...] We were able to increase the scale and accuracy of our methods dramatically and can now handle 1,600 programmers, reaching 94% de-anonymization accuracy"