コンテンツへスキップ

辞書

辞書の頻度ラベル

HanyuGuideは生の順位ではなく、大まかな字幕頻度ラベルを表示します。これらのラベルは、すべての文脈での正確な使用頻度を示すものではなく、学習の優先順位づけを助けるためのものです。

ラベルの範囲

SUBTLEX-CH順位 HanyuGuideラベル
1-1,000 とても一般的
1,001-5,000 一般的
5,001-20,000 やや珍しい
20,001+ 珍しい
一致する順位なし 字幕データが不十分

出典と方法

頻度ラベルは、Qing CaiとMarc BrysbaertによるSUBTLEX-CH: Chinese Word and Character Frequencies Based on Film Subtitles, PLOS ONE 5(6): e10729 から派生しています。このデータセットは Creative Commons Attribution 4.0 Internationalライセンス の下でライセンスされています。HanyuGuideは公開された語頻度順位を正規化し、学習者向けの頻度ラベルに対応付けています。

元のコーパスは映画とテレビの字幕に基づいています。そのため、これらのラベルは正式なHSKレベル、教科書レベル、または普遍的な会話頻度順位ではなく、字幕頻度の目安として読むのが適切です。

出典: PLOS ONE論文, 補足頻度ファイル, および Figshareデータセットミラー.

生の順位を非表示にする理由

生の順位は実際以上に精密に見えることがあります。辞書項目には複数の読み、別表記、またはソース正規化の違いがあるため、HanyuGuideは公開ページでは大まかな分類を使い、公開エージェントAPIとモバイルAPIのレスポンスから生の順位値を除外しています。

データソースに関する完全な表記は オープンソースクレジット をご覧ください。