Bỏ qua đến nội dung

Từ điển

Nhãn tần suất trong từ điển

HanyuGuide hiển thị các nhãn tần suất phụ đề theo nhóm rộng thay vì thứ hạng thô. Những nhãn này giúp người học ưu tiên từ vựng mà không ngụ ý mức sử dụng chính xác trong mọi ngữ cảnh.

Ranh giới nhãn

Thứ hạng SUBTLEX-CH Nhãn HanyuGuide
1-1,000 Rất phổ biến
1,001-5,000 Phổ biến
5,001-20,000 Ít phổ biến
20,001+ Hiếm
Không có thứ hạng khớp Không đủ dữ liệu phụ đề

Nguồn và phương pháp

Các nhãn tần suất được suy ra từ SUBTLEX-CH: Chinese Word and Character Frequencies Based on Film Subtitles của Qing Cai và Marc Brysbaert, PLOS ONE 5(6): e10729. Bộ dữ liệu được cấp phép theo giấy phép Creative Commons Attribution 4.0 International. HanyuGuide chuẩn hóa và ánh xạ các thứ hạng tần suất từ đã công bố thành nhãn tần suất dành cho người học.

Kho ngữ liệu nguồn dựa trên phụ đề phim và truyền hình, nên các nhãn này nên được hiểu là mốc tần suất trong phụ đề, không phải cấp độ HSK, cấp độ giáo trình hay thứ hạng phổ quát của ngôn ngữ nói.

Nguồn: bài báo PLOS ONE, tệp tần suất bổ trợ, và bản sao bộ dữ liệu trên Figshare.

Vì sao ẩn thứ hạng thô

Thứ hạng thô có thể trông chính xác hơn thực tế. Mục từ điển có thể có nhiều cách đọc, cách viết thay thế hoặc khác biệt do chuẩn hóa nguồn, vì vậy HanyuGuide hiện dùng các nhóm rộng trên trang công khai và không đưa giá trị thứ hạng thô vào phản hồi API công khai cho agent và di động.

Xem ghi công nguồn mở để biết thông báo đầy đủ về nguồn dữ liệu.