Dictionnaire

Étiquettes de fréquence du dictionnaire

HanyuGuide affiche de larges étiquettes de fréquence dans les sous-titres au lieu de rangs bruts. Elles aident à prioriser les mots sans suggérer une précision absolue dans tous les contextes.

Limites des étiquettes

Rang SUBTLEX-CH	Étiquette HanyuGuide
1-1,000	Très courant
1,001-5,000	Courant
5,001-20,000	Peu courant
20,001+	Rare
Aucun rang correspondant	Pas assez de données de sous-titres

Source et méthode

Les étiquettes de fréquence sont dérivées de SUBTLEX-CH: Chinese Word and Character Frequencies Based on Film Subtitles, par Qing Cai et Marc Brysbaert, PLOS ONE 5(6): e10729. Le jeu de données est sous licence Creative Commons Attribution 4.0 International. HanyuGuide normalise les rangs de fréquence publiés et les associe à des étiquettes pour apprenants.

Le corpus source repose sur des sous-titres de films et de télévision. Ces étiquettes sont donc des repères de fréquence de sous-titres, pas des niveaux HSK, des niveaux de manuel ou des classements universels de fréquence orale.

Sources : article PLOS ONE, fichiers de fréquence complémentaires, et miroir du jeu de données Figshare.

Pourquoi les rangs bruts sont masqués

Les rangs bruts peuvent sembler plus précis qu’ils ne le sont. Les entrées du dictionnaire peuvent avoir plusieurs lectures, des graphies alternatives ou des différences de normalisation de source. HanyuGuide utilise donc des groupes larges sur les pages publiques et exclut les rangs bruts des réponses publiques des API agent et mobile.

Consultez les crédits open source pour l’avis complet sur la source des données.