This platform is in a testing period — content and features may change.

Ministry of Education, Youth and Sport

Directorate-General for Higher Education

Department of Research and Innovation

CJES

Cambodian Journal of Education and STEM

Open access research in education and STEM from Cambodia and the region

Research articleVol 2, No 1 · 202431 March 2024

Identifying High-Frequency Words in Khmer Texts: A Corpus Linguistics Analysis

ការកំណត់ពាក្យប្រើប្រាស់ញឹកញាប់ក្នុងអត្ថបទជាភាសាខ្មែរ៖ ការវិភាគតាមកម្មវិធីCorpus Linguistics

Abstract

Reading, listening, speaking, and writing skills are essential in human communication. Learners or teachers who do not understand the high-frequency words which are the foundation for understanding the four skills are more likely to spend much time and less likely to get good results. Therefore, high-frequency words play an essential role in helping learners achieve their goals and in helping curriculum designers or developers create applications that are easily accessible to the public. This study aims at identifying the high-frequency words in the standard of NormFreq in Khmer text 40 times per 1 million words analyzed from texts from Koh Santepheap newspapers, Let’s Read! (developed by the Asia Foundation), books on a collection of Khmer/Cambodian folktales, a set of Khmer wisdom books, and books on Khmer literature at the high school level. AntConc is a corpus linguistics program used to analyze high-frequency words, and the Khmer dictionary 2022 is used to classify the parts of speech of the most frequent words, drawn from the standard of NormFreq 40 times per 1 million words. As a result, this study identified a list of 1,974 high-frequency words, with nouns being the most commonly part of speech, comprising 1,008 words. These research findings may assist teachers, curriculum developers, NGOs, or relevant partners in considering high-frequency words and nouns when preparing reading texts or materials for basic or elementary levels.

សង្ខិតន័យ

បំណិនអាន ​ស្តាប់ ​និយាយ និង​សរសេរ ដើរតួនាទីយ៉ាងសំខាន់ក្នុងការប្រាស្រ័យទាក់ទងគ្នារបស់មនុស្ស។ ប្រសិនបើអ្នកសិក្សា ឬគ្រូបង្រៀនមិនចាប់អារម្មណ៍អំពីពាក្យប្រើប្រាស់ញឹកញាប់ដែលជាមូលដ្ឋាន ដើម្បីបំពេញជំនាញទាំងបួននោះទេ ពួកគាត់ទំនងជា​ចំណាយពេលវេលាច្រើន និងមិនមានភាពងាយស្រួលក្នុងការទទួលបានលទ្ធផលល្អក្នុងការសិក្សា ឬការបង្រៀននោះទេ។ ហេតុនេះ ពាក្យប្រើប្រាស់ញឹកញាប់ដើរតួនាទីសំខាន់ក្នុងការជួយអ្នកសិក្សាឱ្យសម្រេចបានតាមគោលដៅ និងជួយសម្រួលដល់អ្នករៀបចំកម្មវិធីសិក្សា ឬអ្នកបង្កើតកម្មវិធីផ្សេងៗ ដើម្បីបង្កើតកម្មវិធីប្រើប្រាស់បានយ៉ាងងាយស្រួលដល់សាធារណជន។ ការសិក្សានេះមានគោលបំណងកំណត់​ពាក្យប្រើប្រាស់ញឹកញាប់ក្នុងអត្ថបទ ជាភាសាខ្មែរ តាមនិយាមស្ដង់ដា ៤០ដង ក្នុង១លានពាក្យ ដែលត្រូវបានវិភាគចេញពីប្រភពទិន្នន័យកាសែតកោះសន្តិភាព គេហទំព័រតោះយើងអាន! (បង្កើតដោយអង្គការមូលនិធិអាស៊ី) សៀវភៅប្រជុំរឿងព្រេង សៀវភៅគតិលោក និងសៀវភៅអក្សរសិល្ប៍ខ្មែរកម្រិតថ្នាក់វិទ្យាល័យ។ ដើម្បីវិភាគទិន្នន័យ ការសិក្សានេះប្រើកម្មវិធី AntConc ដែលជាកម្មវិធី Corpus Linguistics ដែលត្រូវបានប្រើប្រាស់ក្នុងការវិភាគកំណត់​ពាក្យប្រើប្រាស់ញឹកញាប់។ វចនានុក្រមភាសាខ្មែរ ឆ្នាំ២០២២ ក៏ត្រូវបានប្រើប្រាស់ដើម្បីកំណត់ថ្នាក់ពាក្យនៃពាក្យប្រើប្រាស់ញឹកញាប់ដែលទាញចេញពីនិយាមស្ដង់ដា ៤០ដង ក្នុង១លានពាក្យ។​ ជាលទ្ធផល ការស្រាវជ្រាវនេះអាចកំណត់បានបញ្ជីពាក្យប្រើប្រាស់ញឹកញាប់ដែលមានចំនួន ១ ៩៧៤ពាក្យ និងថ្នាក់ពាក្យជានាមសព្ទដែលប្រើប្រាស់ច្រើនជាងគេមានចំនួន ១ ០០៨ពាក្យ។ លទ្ធផលស្រាវជ្រាវនេះអាចជួយសម្រួលដល់គ្រូបង្រៀន អ្នករៀបចំកម្មវិធីសិក្សា អង្គការក្រៅរដ្ឋាភិបាល ឬដៃគូពាក់ព័ន្ធ ក្នុងការពិចារណាទៅលើពាក្យប្រើប្រាស់ញឹកញាប់ និងពាក្យនាមសព្ទក្នុងការរៀបចំអត្ថបទអំណាននៅក្នុងកម្រិត​មូលដ្ឋានដំបូងៗ។