사전

사전 빈도 라벨

HanyuGuide는 원시 순위 대신 넓은 자막 빈도 라벨을 표시합니다. 이 라벨은 모든 상황의 정확한 실제 사용 빈도를 뜻하지 않고, 학습 우선순위를 잡는 데 도움을 주기 위한 것입니다.

라벨 범위

SUBTLEX-CH 순위	HanyuGuide 라벨
1-1,000	매우 흔함
1,001-5,000	흔함
5,001-20,000	덜 흔함
20,001+	드묾
일치하는 순위 없음	자막 데이터 부족

출처와 방법

빈도 라벨은 Qing Cai와 Marc Brysbaert의 SUBTLEX-CH: Chinese Word and Character Frequencies Based on Film Subtitles, PLOS ONE 5(6): e10729에서 파생되었습니다. 이 데이터셋은 Creative Commons Attribution 4.0 International 라이선스에 따라 라이선스가 부여됩니다. HanyuGuide는 공개된 단어 빈도 순위를 정규화하고 학습자용 빈도 라벨로 매핑합니다.

원본 코퍼스는 영화와 TV 자막을 기반으로 하므로, 이 라벨은 공식 HSK 수준, 교재 수준, 보편적인 구어 빈도 순위가 아니라 자막 빈도 기준으로 이해하는 것이 적절합니다.

출처: PLOS ONE 논문, 보조 빈도 파일, 및 Figshare 데이터셋 미러.

원시 순위를 숨기는 이유

원시 순위는 실제보다 더 정밀해 보일 수 있습니다. 사전 항목에는 여러 읽기, 대체 표기, 원본 정규화 차이가 있을 수 있으므로 HanyuGuide는 공개 페이지에서 넓은 구간을 사용하고 공개 에이전트 및 모바일 API 응답에서 원시 순위 값을 제외합니다.

전체 데이터 출처 고지는 오픈소스 크레딧에서 확인하세요.