词典
词典频率标签
HanyuGuide 显示宽泛的字幕频率标签,而不是原始排名。这些标签用于帮助学习者安排词汇优先级,并不表示每个语境中的精确实际用法。
标签范围
| SUBTLEX-CH 排名 | HanyuGuide 标签 |
|---|---|
| 1-1,000 | 非常常见 |
| 1,001-5,000 | 常见 |
| 5,001-20,000 | 不太常见 |
| 20,001+ | 少见 |
| 无匹配排名 | 字幕数据不足 |
来源和方法
频率标签源自 Qing Cai 和 Marc Brysbaert 的 SUBTLEX-CH: Chinese Word and Character Frequencies Based on Film Subtitles,PLOS ONE 5(6): e10729。该数据集采用 Creative Commons Attribution 4.0 International 许可。HanyuGuide 会规范化已发布的词频排名,并映射为面向学习者的频率标签。
源语料基于影视字幕,因此这些标签更适合作为字幕频率基准,而不是正式 HSK 等级、教材等级或通用口语频率排名。
来源: PLOS ONE 论文, 补充频率文件, 以及 Figshare 数据集镜像.
为什么隐藏原始排名
原始排名看起来可能比实际更精确。词典条目可能有多个读音、替代写法或来源规范化差异,因此 HanyuGuide 目前在公开页面使用粗略分组,并且不在公开 agent 和移动 API 响应中暴露原始排名值。
完整的数据来源说明请参阅 开源致谢。