[Neo] Re: Skript zur Messung von Ngram-Dauern (Gedankenpausen?)

Chris K via Diskussion Thu, 21 Aug 2025 09:57:01 -0700

Hallo,

ich hätte ja nicht gedacht, dass das Projekt so schnell Fahrt aufnimmt.Ich wollte das Folgende eigentlich erst später in Ruhe in einemseparaten Thread ansprechen, aber vielleicht passt es hier gerade gut.

Für die Optimierung eines Layouts ist doch neben den diversen Kriterienund ihrer Gewichtung der zugrunde liegende Textkorpus von (großer)Bedeutung. Also - offensichtlich - z.B. deutscher vs. finnischen Text.Oder - weniger extrem - z.B. rein deutscher Text vs. 80% deutsch + 20%englisch.

Nun habe ich beobachtet - oder meine es zumindest - dass es eine gewisseDiskrepanz gibt zwischen dem numerischen Output eines Optimierers (scoreoder cost) und der "gefühlten Verbesserung" (Ausdruck den mantatsächlich oft liest) nach bestimmten manuellen Anpassungen.

Ich könnte mir vorstellen, dass das an den konkreten Quellen desgenutzten Korpus liegt (die bis jetzt mMn nicht so viel Beachtungfinden, irgendwo in Fußnoten beschrieben werden). *Die meisten Leuteschreiben aber keine Romane oder Artikel oder halten Reden im EUParlament oder woher auch immer sich die typischen Korpora noch speisen.*

Um adäquate Statistiken (Bigramme, Trigramme) zu erhalten, für die dannoptimiert wird, müsste man nicht alltäglichere Textquellen nehmen? Soetwas wie (Kurz-)Nachrichten, und Posts und Kommentare in sozialenMedien, also z.B. Email, Slack, Teams, Mastodon, Youtube?

Da kämen vielleicht ganz andere Sachen raus. Bei mir z.B. - ganz ohneexplizite englische Texte - würde das Layout vielleicht optimiert auf

yes, no, the, this, that, ...
Ihr versteht worauf ich hinaus will.

Natürlich wäre es nicht so leicht an eine solche Datenmenge, möglichstgroß und repräsentativ, dranzukommen. Ein Problem ist, dass privateNachrichten ... privat sind, und dienstliche im Zweifelsfall noch sensibler.

*Aber eine ganz ähnliche Datensammlung startet hier ja gerade. Daruminteressiert mich, wie ihr darüber denkt.* Und ob man das Skript und dasganze Projekt vielleicht gleich größer denken sollte.


VG,

Chris


Am 20.08.25 um 21:45 schrieb Florian Thaler:

Zur Auswertung: Es dürfte ja einen großen Unterschied geben, ob maneinen existierenden Text abschreibt, oder selber einen Text entwirft.Im ersten Fall (der bei mir tatsächlich recht häufig ist), ist dieOptimierung der n-Gramme inklusive . und , viel wichtiger als imzweiten Fall, bei dem man ja vermutlich häufiger an diesen StellenGedanken-Pausen macht.Aber das Skript kann diesen Unterschied ja gar nicht erkennen? Siehstdu irgendeine Möglichkeit, mit abzufragen, ob ein Text abgeschriebenwurde oder frisch entstanden ist?
Liebe Nora, ich stimme dir da absolut zu! Das ist einer der Gründe,wieso wir "GedankenstoppNgramme" nie vollständig aus dem Korpuslöschen sollten, sondern höchstens ihre Häufigkeit reduzieren.
Und nein, das Skript kann den Kontext leider nicht erfassen. Daspraktikabelste was ich mir vorstellen kann, ist dass jeder, der seineDaten dann zurückschickt, ins Email mitreinschreibt, in welchenKontexten die Person schreibt (neben der Info, welches Layoutverwendet wurde).
Bitte stelle sicher, dass du die neueste Version des Skriptsverwendest (siehe Anhang). In der ersten Version hat der Erik ja einenBug in der Trigrammdauermessung entdeckt.
Ich denke wenn man später den Median nimmt, kommt ein passendesErgebnis raus. Ich bin sehr gespannt auf die Ergebnisse. Auch meineeigenen.
Median war mein Plan :)
Möglicherweise kann ich dann ja sogar jeder interessierten Person einekurze Zusammenfassung ihrer Zeiten geben.
Liebe Grüße,
Florian

_______________________________________________
Diskussion mailing list [email protected]
To unsubscribe send an email [email protected]

_______________________________________________
Diskussion mailing list -- [email protected]
To unsubscribe send an email to [email protected]

[Neo] Re: Skript zur Messung von Ngram-Dauern (Gedankenpausen?)

Antwort per Email an