[Neo] Auswahl der Textquellen

qwertfisch Thu, 21 Aug 2025 17:11:04 -0700

Moin,

Ich könnte mir vorstellen, dass das an den konkreten Quellen des
genutzten Korpus liegt (die bis jetzt mMn nicht so viel Beachtung finden,
irgendwo in Fußnoten beschrieben werden). Die meisten Leute schreiben
aber keine Romane oder Artikel oder halten Reden im EU Parlament oder
woher auch immer sich die typischen Korpora noch speisen.

Es sollten auch Zeitungsartikel sein und ähnliches. Aber all dies sindnatürlich Berichte, Ansprachen, und Romane benutzen als Schriftsprachebeispielsweise sehr viel Präteritum als Zeitform, was so eigentlich niemandspricht.

Um adäquate Statistiken (Bigramme, Trigramme) zu erhalten, für die dann
optimiert wird, müsste man nicht alltäglichere Textquellen nehmen? So
etwas wie (Kurz-)Nachrichten, und Posts und Kommentare in sozialen Medien,
also z.B. Email, Slack, Teams, Mastodon, Youtube?

Du hast schon recht, es fehlt an Alltagssprache, an Dialogsprache. SelbstE-Mails mit längeren Texten orientieren sich doch sehr an gesprochenem, wennauch vielleicht eloquenter ausgedrückt.Gerade E-Mail wäre doch eine gute Quelle, da sie Alltag oder geschäftlicheUnterhaltungen abbildet, jedoch mit längeren Texten. Aber auch Chats,Kommentare in Foren, bei Mastodon usw. wären wohl hilfreich. Kurznachrichtenvielleicht weniger, da man diese dann halt doch auf Phones und vielleichtnoch Tablets tippt, aber ohne eine zehn Finger breite Tastatur.

Wenn es nicht so total privat wäre, könnte ich auch mit über 6400 gesendetenMails in >25 Jahren dienen. Ich könnte Auswertung auf diesem Korpus laufenlassen oder eine alphabetisch oder nach Häufigkeit sortierte Wortlistedarauf generieren, falls das hilft?

Auf dem Smartphone hat meine verwendete Tastatur-App aber auch schon eineriesige Datenbasis aus meinen getippten Chat- und Kurznachrichten. Ichkönnte mit zufällig ausgewählten Wortvorschlägen inzwischen problemlossinnvoll klingende Sätze erstellen, die sich nach mir anhören. ^^ Meineigenes LLM … obwohl, eher ein SLM ;) An dieser Stelle hab ich immer dieIdee, dass ich auch am PC beim Texteschreiben ne Wortvorschlagslistebekomme, aber im Endeffekt tippe ich schneller als ich das gesuchte Wortpassend mit Cursortasten ausgewählt habe. ^^

Habe mal von einem deutschen IRC-Channel, wo es viel um Privatkramgequatschegeht, die Wörter nach Häufigkeit sortiert. Von den Nicknames abgesehen,lauten die Top 25: ich, die, das, und, ist, nicht, der, auch, aber, so, mit,in, ja, es, zu, man, ein, den, du, dann, da, was, noch, für, auf.Alltagssprache eben. :)

(Insgesamt übrigens über 84000 Wörter, die mindestens zweimal vorkommen,oder über 200k verschiedene insgesamt – das sind dann aber auch Namen,Ortsnamen, Falschschreibungen, Zahlen, aber auch Wörter wieInstallationsgeraffel, Weihnachtsverpflichtungen oderKabelprogrammwegelagerer.)




qwertfisch
_______________________________________________
Diskussion mailing list -- [email protected]
To unsubscribe send an email to [email protected]

[Neo] Auswahl der Textquellen

Antwort per Email an