辞書
辞書の頻度ラベル
HanyuGuideは生の順位ではなく、大まかな字幕頻度ラベルを表示します。これらのラベルは、すべての文脈での正確な使用頻度を示すものではなく、学習の優先順位づけを助けるためのものです。
ラベルの範囲
| SUBTLEX-CH順位 | HanyuGuideラベル |
|---|---|
| 1-1,000 | とても一般的 |
| 1,001-5,000 | 一般的 |
| 5,001-20,000 | やや珍しい |
| 20,001+ | 珍しい |
| 一致する順位なし | 字幕データが不十分 |
出典と方法
頻度ラベルは、Qing CaiとMarc BrysbaertによるSUBTLEX-CH: Chinese Word and Character Frequencies Based on Film Subtitles, PLOS ONE 5(6): e10729 から派生しています。このデータセットは Creative Commons Attribution 4.0 Internationalライセンス の下でライセンスされています。HanyuGuideは公開された語頻度順位を正規化し、学習者向けの頻度ラベルに対応付けています。
元のコーパスは映画とテレビの字幕に基づいています。そのため、これらのラベルは正式なHSKレベル、教科書レベル、または普遍的な会話頻度順位ではなく、字幕頻度の目安として読むのが適切です。
出典: PLOS ONE論文, 補足頻度ファイル, および Figshareデータセットミラー.
生の順位を非表示にする理由
生の順位は実際以上に精密に見えることがあります。辞書項目には複数の読み、別表記、またはソース正規化の違いがあるため、HanyuGuideは公開ページでは大まかな分類を使い、公開エージェントAPIとモバイルAPIのレスポンスから生の順位値を除外しています。
データソースに関する完全な表記は オープンソースクレジット をご覧ください。