Dicionário
Rótulos de Frequência do Dicionário
O HanyuGuide mostra rótulos amplos de frequência em legendas em vez de rankings brutos. Esses rótulos ajudam estudantes a priorizar palavras sem sugerir uso real exato em todos os contextos.
Limites dos Rótulos
| Ranking SUBTLEX-CH | Rótulo HanyuGuide |
|---|---|
| 1-1,000 | Muito comum |
| 1,001-5,000 | Comum |
| 5,001-20,000 | Pouco comum |
| 20,001+ | Raro |
| Sem ranking correspondente | Dados de legendas insuficientes |
Fonte e Método
Os rótulos de frequência são derivados de SUBTLEX-CH: Chinese Word and Character Frequencies Based on Film Subtitles, de Qing Cai e Marc Brysbaert, PLOS ONE 5(6): e10729. O conjunto de dados é licenciado sob a licença Creative Commons Attribution 4.0 International. O HanyuGuide normaliza e mapeia os rankings publicados de frequência de palavras para rótulos voltados a estudantes.
O corpus de origem se baseia em legendas de filmes e televisão, então esses rótulos devem ser lidos como referências de frequência em legendas, não como níveis HSK, níveis de livro didático ou rankings universais de frequência na fala.
Fontes: artigo da PLOS ONE, arquivos de frequência complementares, e espelho do conjunto de dados no Figshare.
Por que os rankings brutos ficam ocultos
Rankings brutos podem parecer mais precisos do que são. Entradas do dicionário podem ter várias leituras, grafias alternativas ou diferenças de normalização da fonte, então o HanyuGuide usa grupos amplos em páginas públicas e mantém rankings brutos fora das respostas públicas das APIs de agente e mobile.
Veja os créditos de código aberto para o aviso completo sobre a fonte dos dados.