Hallo,

ich hätte ja nicht gedacht, dass das Projekt so schnell Fahrt aufnimmt. Ich wollte das Folgende eigentlich erst später in Ruhe in einem separaten Thread ansprechen, aber vielleicht passt es hier gerade gut.

Für die Optimierung eines Layouts ist doch neben den diversen Kriterien und ihrer Gewichtung der zugrunde liegende Textkorpus von (großer) Bedeutung. Also - offensichtlich - z.B. deutscher vs. finnischen Text. Oder - weniger extrem - z.B. rein deutscher Text vs. 80% deutsch + 20% englisch.

Nun habe ich beobachtet - oder meine es zumindest - dass es eine gewisse Diskrepanz gibt zwischen dem numerischen Output eines Optimierers (score oder cost) und der "gefühlten Verbesserung" (Ausdruck den man tatsächlich oft liest)  nach bestimmten manuellen Anpassungen.

Ich könnte mir vorstellen, dass das an den konkreten Quellen des genutzten Korpus liegt (die bis jetzt mMn nicht so viel Beachtung finden, irgendwo in Fußnoten beschrieben werden). *Die meisten Leute schreiben aber keine Romane oder Artikel oder halten Reden im EU Parlament oder woher auch immer sich die typischen Korpora noch speisen.*

Um adäquate Statistiken (Bigramme, Trigramme) zu erhalten, für die dann optimiert wird, müsste man nicht alltäglichere Textquellen nehmen? So etwas wie (Kurz-)Nachrichten, und Posts und Kommentare in sozialen Medien, also z.B. Email, Slack, Teams, Mastodon, Youtube?

Da kämen vielleicht ganz andere Sachen raus. Bei mir z.B. - ganz ohne explizite englische Texte - würde das Layout vielleicht optimiert auf
yes, no, the, this, that, ...
Ihr versteht worauf ich hinaus will.

Natürlich wäre es nicht so leicht an eine solche Datenmenge, möglichst groß und repräsentativ, dranzukommen. Ein Problem ist, dass private Nachrichten ... privat sind, und dienstliche im Zweifelsfall noch sensibler.

*Aber eine ganz ähnliche Datensammlung startet hier ja gerade. Darum interessiert mich, wie ihr darüber denkt.* Und ob man das Skript und das ganze Projekt vielleicht gleich größer denken sollte.

VG,

Chris


Am 20.08.25 um 21:45 schrieb Florian Thaler:
Zur Auswertung: Es dürfte ja einen großen Unterschied geben, ob man einen existierenden Text abschreibt, oder selber einen Text entwirft. Im ersten Fall (der bei mir tatsächlich recht häufig ist), ist die Optimierung der n-Gramme inklusive . und , viel wichtiger als im zweiten Fall, bei dem man ja vermutlich häufiger an diesen Stellen Gedanken-Pausen macht. Aber das Skript kann diesen Unterschied ja gar nicht erkennen? Siehst du irgendeine Möglichkeit, mit abzufragen, ob ein Text abgeschrieben wurde oder frisch entstanden ist?

Liebe Nora, ich stimme dir da absolut zu! Das ist einer der Gründe, wieso wir "GedankenstoppNgramme" nie vollständig aus dem Korpus löschen sollten, sondern höchstens ihre Häufigkeit reduzieren.

Und nein, das Skript kann den Kontext leider nicht erfassen. Das praktikabelste was ich mir vorstellen kann, ist dass jeder, der seine Daten dann zurückschickt, ins Email mitreinschreibt, in welchen Kontexten die Person schreibt (neben der Info, welches Layout verwendet wurde).

Bitte stelle sicher, dass du die neueste Version des Skripts verwendest (siehe Anhang). In der ersten Version hat der Erik ja einen Bug in der Trigrammdauermessung entdeckt.

Ich denke wenn man später den Median nimmt, kommt ein passendes Ergebnis raus. Ich bin sehr gespannt auf die Ergebnisse. Auch meine eigenen.
Median war mein Plan :)
Möglicherweise kann ich dann ja sogar jeder interessierten Person eine kurze Zusammenfassung ihrer Zeiten geben.

Liebe Grüße,
Florian

_______________________________________________
Diskussion mailing list [email protected]
To unsubscribe send an email [email protected]
_______________________________________________
Diskussion mailing list -- [email protected]
To unsubscribe send an email to [email protected]

Antwort per Email an