Từ điển
Nhãn tần suất trong từ điển
HanyuGuide hiển thị các nhãn tần suất phụ đề theo nhóm rộng thay vì thứ hạng thô. Những nhãn này giúp người học ưu tiên từ vựng mà không ngụ ý mức sử dụng chính xác trong mọi ngữ cảnh.
Ranh giới nhãn
| Thứ hạng SUBTLEX-CH | Nhãn HanyuGuide |
|---|---|
| 1-1,000 | Rất phổ biến |
| 1,001-5,000 | Phổ biến |
| 5,001-20,000 | Ít phổ biến |
| 20,001+ | Hiếm |
| Không có thứ hạng khớp | Không đủ dữ liệu phụ đề |
Nguồn và phương pháp
Các nhãn tần suất được suy ra từ SUBTLEX-CH: Chinese Word and Character Frequencies Based on Film Subtitles của Qing Cai và Marc Brysbaert, PLOS ONE 5(6): e10729. Bộ dữ liệu được cấp phép theo giấy phép Creative Commons Attribution 4.0 International. HanyuGuide chuẩn hóa và ánh xạ các thứ hạng tần suất từ đã công bố thành nhãn tần suất dành cho người học.
Kho ngữ liệu nguồn dựa trên phụ đề phim và truyền hình, nên các nhãn này nên được hiểu là mốc tần suất trong phụ đề, không phải cấp độ HSK, cấp độ giáo trình hay thứ hạng phổ quát của ngôn ngữ nói.
Nguồn: bài báo PLOS ONE, tệp tần suất bổ trợ, và bản sao bộ dữ liệu trên Figshare.
Vì sao ẩn thứ hạng thô
Thứ hạng thô có thể trông chính xác hơn thực tế. Mục từ điển có thể có nhiều cách đọc, cách viết thay thế hoặc khác biệt do chuẩn hóa nguồn, vì vậy HanyuGuide hiện dùng các nhóm rộng trên trang công khai và không đưa giá trị thứ hạng thô vào phản hồi API công khai cho agent và di động.
Xem ghi công nguồn mở để biết thông báo đầy đủ về nguồn dữ liệu.