사전
사전 빈도 라벨
HanyuGuide는 원시 순위 대신 넓은 자막 빈도 라벨을 표시합니다. 이 라벨은 모든 상황의 정확한 실제 사용 빈도를 뜻하지 않고, 학습 우선순위를 잡는 데 도움을 주기 위한 것입니다.
라벨 범위
| SUBTLEX-CH 순위 | HanyuGuide 라벨 |
|---|---|
| 1-1,000 | 매우 흔함 |
| 1,001-5,000 | 흔함 |
| 5,001-20,000 | 덜 흔함 |
| 20,001+ | 드묾 |
| 일치하는 순위 없음 | 자막 데이터 부족 |
출처와 방법
빈도 라벨은 Qing Cai와 Marc Brysbaert의 SUBTLEX-CH: Chinese Word and Character Frequencies Based on Film Subtitles, PLOS ONE 5(6): e10729에서 파생되었습니다. 이 데이터셋은 Creative Commons Attribution 4.0 International 라이선스에 따라 라이선스가 부여됩니다. HanyuGuide는 공개된 단어 빈도 순위를 정규화하고 학습자용 빈도 라벨로 매핑합니다.
원본 코퍼스는 영화와 TV 자막을 기반으로 하므로, 이 라벨은 공식 HSK 수준, 교재 수준, 보편적인 구어 빈도 순위가 아니라 자막 빈도 기준으로 이해하는 것이 적절합니다.
출처: PLOS ONE 논문, 보조 빈도 파일, 및 Figshare 데이터셋 미러.
원시 순위를 숨기는 이유
원시 순위는 실제보다 더 정밀해 보일 수 있습니다. 사전 항목에는 여러 읽기, 대체 표기, 원본 정규화 차이가 있을 수 있으므로 HanyuGuide는 공개 페이지에서 넓은 구간을 사용하고 공개 에이전트 및 모바일 API 응답에서 원시 순위 값을 제외합니다.
전체 데이터 출처 고지는 오픈소스 크레딧에서 확인하세요.