Dictionnaire
Étiquettes de fréquence du dictionnaire
HanyuGuide affiche de larges étiquettes de fréquence dans les sous-titres au lieu de rangs bruts. Elles aident à prioriser les mots sans suggérer une précision absolue dans tous les contextes.
Limites des étiquettes
| Rang SUBTLEX-CH | Étiquette HanyuGuide |
|---|---|
| 1-1,000 | Très courant |
| 1,001-5,000 | Courant |
| 5,001-20,000 | Peu courant |
| 20,001+ | Rare |
| Aucun rang correspondant | Pas assez de données de sous-titres |
Source et méthode
Les étiquettes de fréquence sont dérivées de SUBTLEX-CH: Chinese Word and Character Frequencies Based on Film Subtitles, par Qing Cai et Marc Brysbaert, PLOS ONE 5(6): e10729. Le jeu de données est sous licence Creative Commons Attribution 4.0 International. HanyuGuide normalise les rangs de fréquence publiés et les associe à des étiquettes pour apprenants.
Le corpus source repose sur des sous-titres de films et de télévision. Ces étiquettes sont donc des repères de fréquence de sous-titres, pas des niveaux HSK, des niveaux de manuel ou des classements universels de fréquence orale.
Sources : article PLOS ONE, fichiers de fréquence complémentaires, et miroir du jeu de données Figshare.
Pourquoi les rangs bruts sont masqués
Les rangs bruts peuvent sembler plus précis qu’ils ne le sont. Les entrées du dictionnaire peuvent avoir plusieurs lectures, des graphies alternatives ou des différences de normalisation de source. HanyuGuide utilise donc des groupes larges sur les pages publiques et exclut les rangs bruts des réponses publiques des API agent et mobile.
Consultez les crédits open source pour l’avis complet sur la source des données.