Moin,
Ich könnte mir vorstellen, dass das an den konkreten Quellen des genutzten Korpus liegt (die bis jetzt mMn nicht so viel Beachtung finden, irgendwo in Fußnoten beschrieben werden). Die meisten Leute schreiben aber keine Romane oder Artikel oder halten Reden im EU Parlament oder woher auch immer sich die typischen Korpora noch speisen.
Es sollten auch Zeitungsartikel sein und ähnliches. Aber all dies sind natürlich Berichte, Ansprachen, und Romane benutzen als Schriftsprache beispielsweise sehr viel Präteritum als Zeitform, was so eigentlich niemand spricht.
Um adäquate Statistiken (Bigramme, Trigramme) zu erhalten, für die dann optimiert wird, müsste man nicht alltäglichere Textquellen nehmen? So etwas wie (Kurz-)Nachrichten, und Posts und Kommentare in sozialen Medien, also z.B. Email, Slack, Teams, Mastodon, Youtube?
Du hast schon recht, es fehlt an Alltagssprache, an Dialogsprache. Selbst E-Mails mit längeren Texten orientieren sich doch sehr an gesprochenem, wenn auch vielleicht eloquenter ausgedrückt. Gerade E-Mail wäre doch eine gute Quelle, da sie Alltag oder geschäftliche Unterhaltungen abbildet, jedoch mit längeren Texten. Aber auch Chats, Kommentare in Foren, bei Mastodon usw. wären wohl hilfreich. Kurznachrichten vielleicht weniger, da man diese dann halt doch auf Phones und vielleicht noch Tablets tippt, aber ohne eine zehn Finger breite Tastatur.
Wenn es nicht so total privat wäre, könnte ich auch mit über 6400 gesendeten Mails in >25 Jahren dienen. Ich könnte Auswertung auf diesem Korpus laufen lassen oder eine alphabetisch oder nach Häufigkeit sortierte Wortliste darauf generieren, falls das hilft?
Auf dem Smartphone hat meine verwendete Tastatur-App aber auch schon eine riesige Datenbasis aus meinen getippten Chat- und Kurznachrichten. Ich könnte mit zufällig ausgewählten Wortvorschlägen inzwischen problemlos sinnvoll klingende Sätze erstellen, die sich nach mir anhören. ^^ Mein eigenes LLM … obwohl, eher ein SLM ;) An dieser Stelle hab ich immer die Idee, dass ich auch am PC beim Texteschreiben ne Wortvorschlagsliste bekomme, aber im Endeffekt tippe ich schneller als ich das gesuchte Wort passend mit Cursortasten ausgewählt habe. ^^
Habe mal von einem deutschen IRC-Channel, wo es viel um Privatkramgequatsche geht, die Wörter nach Häufigkeit sortiert. Von den Nicknames abgesehen, lauten die Top 25: ich, die, das, und, ist, nicht, der, auch, aber, so, mit, in, ja, es, zu, man, ein, den, du, dann, da, was, noch, für, auf. Alltagssprache eben. :)
(Insgesamt übrigens über 84000 Wörter, die mindestens zweimal vorkommen, oder über 200k verschiedene insgesamt – das sind dann aber auch Namen, Ortsnamen, Falschschreibungen, Zahlen, aber auch Wörter wie Installationsgeraffel, Weihnachtsverpflichtungen oder Kabelprogrammwegelagerer.)
qwertfisch _______________________________________________ Diskussion mailing list -- [email protected] To unsubscribe send an email to [email protected]
