Hallo,
ich hätte ja nicht gedacht, dass das Projekt so schnell Fahrt aufnimmt.
Ich wollte das Folgende eigentlich erst später in Ruhe in einem
separaten Thread ansprechen, aber vielleicht passt es hier gerade gut.
Für die Optimierung eines Layouts ist doch neben den diversen Kriterien
und ihrer Gewichtung der zugrunde liegende Textkorpus von (großer)
Bedeutung. Also - offensichtlich - z.B. deutscher vs. finnischen Text.
Oder - weniger extrem - z.B. rein deutscher Text vs. 80% deutsch + 20%
englisch.
Nun habe ich beobachtet - oder meine es zumindest - dass es eine gewisse
Diskrepanz gibt zwischen dem numerischen Output eines Optimierers (score
oder cost) und der "gefühlten Verbesserung" (Ausdruck den man
tatsächlich oft liest) nach bestimmten manuellen Anpassungen.
Ich könnte mir vorstellen, dass das an den konkreten Quellen des
genutzten Korpus liegt (die bis jetzt mMn nicht so viel Beachtung
finden, irgendwo in Fußnoten beschrieben werden). *Die meisten Leute
schreiben aber keine Romane oder Artikel oder halten Reden im EU
Parlament oder woher auch immer sich die typischen Korpora noch speisen.*
Um adäquate Statistiken (Bigramme, Trigramme) zu erhalten, für die dann
optimiert wird, müsste man nicht alltäglichere Textquellen nehmen? So
etwas wie (Kurz-)Nachrichten, und Posts und Kommentare in sozialen
Medien, also z.B. Email, Slack, Teams, Mastodon, Youtube?
Da kämen vielleicht ganz andere Sachen raus. Bei mir z.B. - ganz ohne
explizite englische Texte - würde das Layout vielleicht optimiert auf
yes, no, the, this, that, ...
Ihr versteht worauf ich hinaus will.
Natürlich wäre es nicht so leicht an eine solche Datenmenge, möglichst
groß und repräsentativ, dranzukommen. Ein Problem ist, dass private
Nachrichten ... privat sind, und dienstliche im Zweifelsfall noch sensibler.
*Aber eine ganz ähnliche Datensammlung startet hier ja gerade. Darum
interessiert mich, wie ihr darüber denkt.* Und ob man das Skript und das
ganze Projekt vielleicht gleich größer denken sollte.
VG,
Chris
Am 20.08.25 um 21:45 schrieb Florian Thaler:
Zur Auswertung: Es dürfte ja einen großen Unterschied geben, ob man
einen existierenden Text abschreibt, oder selber einen Text entwirft.
Im ersten Fall (der bei mir tatsächlich recht häufig ist), ist die
Optimierung der n-Gramme inklusive . und , viel wichtiger als im
zweiten Fall, bei dem man ja vermutlich häufiger an diesen Stellen
Gedanken-Pausen macht.
Aber das Skript kann diesen Unterschied ja gar nicht erkennen? Siehst
du irgendeine Möglichkeit, mit abzufragen, ob ein Text abgeschrieben
wurde oder frisch entstanden ist?
Liebe Nora, ich stimme dir da absolut zu! Das ist einer der Gründe,
wieso wir "GedankenstoppNgramme" nie vollständig aus dem Korpus
löschen sollten, sondern höchstens ihre Häufigkeit reduzieren.
Und nein, das Skript kann den Kontext leider nicht erfassen. Das
praktikabelste was ich mir vorstellen kann, ist dass jeder, der seine
Daten dann zurückschickt, ins Email mitreinschreibt, in welchen
Kontexten die Person schreibt (neben der Info, welches Layout
verwendet wurde).
Bitte stelle sicher, dass du die neueste Version des Skripts
verwendest (siehe Anhang). In der ersten Version hat der Erik ja einen
Bug in der Trigrammdauermessung entdeckt.
Ich denke wenn man später den Median nimmt, kommt ein passendes
Ergebnis raus. Ich bin sehr gespannt auf die Ergebnisse. Auch meine
eigenen.
Median war mein Plan :)
Möglicherweise kann ich dann ja sogar jeder interessierten Person eine
kurze Zusammenfassung ihrer Zeiten geben.
Liebe Grüße,
Florian
_______________________________________________
Diskussion mailing list [email protected]
To unsubscribe send an email [email protected]
_______________________________________________
Diskussion mailing list -- [email protected]
To unsubscribe send an email to [email protected]