Wörterbuch
Häufigkeitslabels im Wörterbuch
HanyuGuide zeigt grobe Untertitelhäufigkeitslabels statt Roh-Rängen. Sie helfen beim Priorisieren von Wörtern, ohne exakte Nutzung in jedem Kontext zu behaupten.
Grenzen der Labels
| SUBTLEX-CH-Rang | HanyuGuide-Label |
|---|---|
| 1-1,000 | Sehr häufig |
| 1,001-5,000 | Häufig |
| 5,001-20,000 | Weniger häufig |
| 20,001+ | Selten |
| Kein passender Rang | Nicht genug Untertiteldaten |
Quelle und Methode
Die Häufigkeitslabels werden aus SUBTLEX-CH: Chinese Word and Character Frequencies Based on Film Subtitles von Qing Cai und Marc Brysbaert, PLOS ONE 5(6): e10729, abgeleitet. Der Datensatz steht unter der Lizenz Creative Commons Namensnennung 4.0 International. HanyuGuide normalisiert die veröffentlichten Wortfrequenzränge und ordnet sie lernfreundlichen Häufigkeitslabels zu.
Das Quellkorpus basiert auf Film- und Fernsehuntertiteln. Die Labels sind daher Untertitelhäufigkeitswerte, keine formalen HSK-Stufen, Lehrbuchstufen oder universellen Ranglisten gesprochener Sprache.
Quellen: PLOS-ONE-Artikel, ergänzende Frequenzdateien, und Figshare-Datensatzspiegel.
Warum Roh-Ränge ausgeblendet sind
Roh-Ränge können präziser wirken, als sie sind. Wörterbucheinträge können mehrere Lesungen, alternative Schreibweisen oder Unterschiede in der Quellnormalisierung haben. Deshalb nutzt HanyuGuide auf öffentlichen Seiten grobe Gruppen und hält Roh-Ränge aus öffentlichen Agent- und Mobile-API-Antworten heraus.
Siehe die Open-Source-Danksagungen für den vollständigen Hinweis zur Datenquelle.