Thống kê trên từ điển tiếng Việt (*) Trong nghiên cứu này, chúng tôi đã chọn từ điển tiếng Việt của Viện Ngôn ngữ học (do cố giáo sư Hoàng Phê chủ biên) [1] (gọi tắt là VDic). Trong ngữ liệu VDic, các trường thông tin của từ điển đã được đánh dấu, như trường từ đầu mục (headword), trường từ loại (POS:
Parts-of-speech), … VDic có 34.588 mục từ. Tiếng Việt chúng ta là thuộc loại hình ngôn ngữ đơn lập, vì vậy, đơn vị cơ bản đầu tiên cần đề cập đến chính là chữ (về mặt hình thái) hay tiếng/âm tiết (về mặt ngữ âm). Với số lượng khoảng 34.600 mục từ (trung bình so với các ngoại ngữ khác), nhưng tất cả các từ này, đều được cấu tạo bởi một hoặc vài chữ/âm tiết trong số 6.835 chữ/âm tiết (thuần Việt) khác nhau (không tính các âm tiết phiên âm các tiếng nước ngoài, tiếng dân tộc,
như: biu, daklak, …). Điều này tương tự với tiếng Hoa (cũng là một thứ tiếng đơn lập) khi 1 chữ/âm tiết của chúng ta sẽ tương đương 1 Hán tự trong tiếng Hoa, ví dụ: “học sinh” là 1 từ 2 âm tiết thì tương đương với 1 từ 学生 /xué sheng/ gồm 2 Hán tự. Khác với chữ viết trong tiếng Hán (hình thành bởi lục thư: tượng hình, chỉ sự, hội ý, hình thanh, chuyển chú và giả
tá), chữ Quốc ngữ hiện nay của chúng ta là chữ ghi âm (âm vị) bằng các chữ cái Latin kết hợp thêm một số dấu phụ (diacritics). Một âm vị trong tiếng Việt được ghi bằng một hoặc nhiều chữ cái. Ví dụ: âm vị /ƞ/ được ghi bằng 3 chữ cái: “ngh” (khi đứng trước các nguyên âm hẹp, dòng
trước như: /i, e, ê/). Các kết quả thống kê dưới đây chỉ thống kê trên bề mặt chữ cái/con chữ, chứ chưa đi sâu vào từng âm vị. Một chữ Quốc ngữ có một hay nhiều chữ cái, tối đa là 7 chữ cái (chỉ có 1 trường hợp, đó là chữ “nghiêng”). Phổ biến nhất là những chữ có 3 hay 4 chữ cái. Trung bình (kỳ vọng) là 3,5
chữ cái.
Chữ Quốc ngữ Tỉ lệ % Có 1 chữ cái 0,7 Có 2 chữ cái 11,6 Có 3 chữ cái 40,8 Có 4 chữ cái 33 Có 5 chữ cái 11,7 Có 6 chữ cái 2,2 Có 7 chữ cái rất nhỏ Bảng 1. Thống kê chữ theo chiều dài. Hình 1. Thống kê chữ theo chiều dài.
Một âm tiết tiếng Việt sẽ mang 1 trong 6 thanh: ngang, huyền, hỏi, ngã, sắc, nặng với các tỉ lệ như bên dưới. Theo đó, âm điệu bằng (ngang, huyền) chiếm tỉ lệ 36,8% so với âm điệu trắc (ngã, hỏi, sắc, nặng) chiếm 63,2%. Còn âm vực cao (ngang, ngã, sắc) thì tương đương (chiếm 52,9%) với âm vực thấp (huyền, hỏi, nặng: chiếm 47,1%).
Bảng 2. Thống kê âm tiết theo thanh điệu. Hình 2. Thống kê âm tiết theo thanh điệu.
Tùy vào sự hiện diện/vắng mặt và loại của âm cuối, mà một âm tiết tiếng Việt sẽ thuộc 1 trong 4 loại sau: âm tiết mở, khép, nửa mở và nửa khép. Dưới đây là tỉ lệ của 4 loại âm tiết đó trong từ điển VDic. Theo đó, âm tiết nửa khép (những âm tiết có âm vị cuối là những phụ âm mũi, như: /m,n, ƞ / trong “làm tin nhanh”) chiếm tỉ lệ cao gấp đôi so với các loại âm tiết còn lại (trung bình mỗi loại khoảng 20%).
Bảng 3. Thống kê các loại âm tiết. Chiều dài trung bình của âm tiết mở là ngắn nhất (2,81 chữ cái) và âm tiết nửa khép là dài nhất (3,95 chữ cái). Hình 3. Thống kê âm tiết theo loại.
Tỉ lệ thanh điệu của từng loại âm tiết có sự phân bố khác nhau. Với âm tiết khép, chỉ có 2 thanh sắc và nặng, còn 3 loại âm tiết còn lại có đầy đủ 6 thanh, trong đó thanh ngang chiếm tỉ lệ cao nhất (khoảng 25%), còn thanh ngã có tỉ lệ thấp nhất (khoảng 9%).
Bảng 4. Thống kê tỉ lệ % từng thanh điệu của mỗi loại âm tiết. Hình 4. Thống kê thanh điệu
Sự phân bố 29 chữ cái trong 6.835 chữ Quốc ngữ khác nhau trong từ điển cũng khác nhau: đa số bắt đầu là con chữ phụ âm (chiếm 95,8%), trong đó phụ âm ‘T’ và ‘N’ chiếm tỉ lệ cao nhất (13,7% và 12,2%). Điều này có thể giải thích là có tới 3 âm vị mà con chữ bắt đầu bằng phụ âm ‘t’ (t, tr và th) và phụ âm ‘n’ (n, ng, ngh, nh).
Bảng 5. Thống kê chữ theo chữ cái bắt đầu. Hình 5. Thống kê chữ theo chữ cái bắt đầu
Nếu xét trong toàn bộ 6.835 chữ Quốc ngữ khác nhau trong từ điển (không quan tâm đến vị trí con chữ), thì số lượng con chữ nguyên âm (chiếm 41,25%) cũng xấp xỉ hai phần ba số lượng con chữ phụ âm (chiếm 58,75%). Nguyên âm phổ biến nhất là ‘a’ (6,46%), nguyên âm xuất hiện ít nhất là ‘y’ (chiếm 1,62%). Phụ âm phổ biến nhất là ‘n’ (chiếm 12,41%) và thấp nhất là ‘q’ (chiếm 0,55%). Điều này có thể giải thích là trong mọi âm tiết tiếng Việt, nhất thiết phải có tối thiểu 1 nguyên âm (âm chính). Ngoài ra, bình thường trong mỗi âm tiết hay có phụ âm đầu và âm cuối, nên khiến tỉ lệ phụ âm cao hơn nguyên âm. Nguyên âm a, i, o, u có thể là âm chính hoặc âm cuối nên xuất hiện nhiều hơn. Tương tự, phụ âm n và h có mặt trong nhiều âm vị phụ âm đầu (n-, nh-, ng-, ngh-) và âm cuối (-n, -ng, -nh) nên tần số xuất hiện cao.
Bảng 6. Thống kê phân bố chữ cái trong toàn bộ chữ Quốc ngữ. Hình 6. Thống kê phân bố chữ cái trong toàn bộ chữ Quốc ngữ. So sánh với bảng 5, ta thấy có 9 trường hợp số liệu không thay đổi (in nghiêng, màu xanh), đó là các chữ cái phụ âm b, d, đ, k, l, q, s, v và x. Điều này có nghĩa là 9 phụ âm này chỉ đứng ở vị trí đầu âm tiết tiếng Việt mà thôi.
Trong một chữ Quốc ngữ thì khả năng một chữ cái kết hợp với một chữ cái khác cũng khác nhau (không tính đến thanh điệu). Qua bảng thống kê (2.646 chữ Quốc ngữ không dấu) bên dưới, ta thấy khả năng kết hợp lớn nhất chính là các cặp chữ cái để ghi cùng một âm vị. Ví dụ: nh, ng, tr, th, ch, kh; các cặp nguyên âm đôi: iê, ươ, ưa, … Cột g và r chỉ có 1 giá trị khác không, có nghĩa là g và r chỉ đứng sau 1 chữ cái (trường hợp ng và tr). Chữ cái i và u dễ kết hợp nhất (tới 20 khả năng). Chữ cái p và q chỉ có khả năng kết hợp với 1 chữ cái phía sau (ph và qu). Dòng tương ứng với chữ cái y chỉ có 2 ô khác không, đó là a (1) và ê (28). Điều này có nghĩa là sau y thì 97% khả năng là ê. Chữ cái r có độ hỗn loạn thông tin (entropy) cao nhất (3,3745 bit). Entropy trung bình của một chữ cái là 2,6 bit. Hình 7. Thống kê khả năng kết hợp các chữ cái.
Các từ tiếng Việt có thể gồm 1 hoặc nhiều âm tiết:
Bảng 7. Thống kê từ theo chiều dài (số lượng âm tiết trong 1 từ). Trong đó, số lượng từ 2 âm tiết chiếm đa số (gần 70%). Chiều dài trung bình (kỳ vọng) của từ tiếng Việt là: 2,12 âm tiết. Hình 8. Thống kê từ theo chiều dài.
Trong VDic, gồm các từ loại sau:
Bảng 8. Thống kê từ theo từ loại. Hình 9. Thống kê từ theo từ loại. Trong số khoảng 34.600 mục từ trong từ điển VDic, có khoảng 3.000 mục từ có nhiều hơn 1 từ loại (tính trung bình mỗi từ tiếng Việt có khoảng 1,1 từ loại) và độ dài trung bình của các từ đa từ loại là 1,4 âm tiết. Số lượng danh từ vẫn nhiều hơn và ngày càng nhiều hơn vì đây là tập mở (được bổ sung các tên gọi của các sự vật, hiện tượng mới trong cuộc sống). Chính vì chức năng định danh đó, nên chiều dài trung bình (tính theo số lượng âm tiết hay số mẫu tự) của danh từ cao cũng hơn của động từ và tính từ. TÀI LIỆU THAM KHẢO [1]. Viện Ngôn ngữ học (Hoàng Phê chủ biên), “Từ điển tiếng Việt”, NXB Đà Nẳng, 1980 ————————————————————— (*) Nội dung bài viết này được trích từ công trình: Đinh Điền, Đỗ Đức Hào, “Chữ Quốc ngữ hiện nay qua các con số thống kê”, hội thảo Chữ Quốc ngữ, 10/2015, Phú Yên. Bản quyền © 2003-2022, Bảo lưu mọi quyền | Được tạo bởi Anderson | Chính sách bảo mật All Rights Reserved | Created by Anderson | Privacy Policy Tất cả các quyền sở hữu trí tuệ đối với các trò chơi bao gồm từ điển Scrabble, Boggle, Words với bạn bè, người giải trí ô chữ, Hangman thuộc sở hữu của chủ sở hữu tương ứng của họ: Hasbro, Zynga, J.W. Spear & Mattel, v.v. Ông Anagrammer không liên kết với bất kỳ công ty nào ở trên. Là một fan hâm mộ lớn của các trò chơi Words, chúng tôi đã xây dựng các công cụ gian lận và tài nguyên từ này cho mục đích giáo dục và như một bổ sung cho các game thủ từ trên khắp thế giới. Chúng tôi hy vọng bạn sẽ tìm thấy nội dung trên các từ Scrabble có chứa thon làm giàu và sẽ sử dụng nó theo cách tích cực để mở rộng vốn từ vựng của bạn và cải thiện các kỹ năng trò chơi văn bản của bạn. ANAGrams của Thon Danh sách các từ được hình thành bởi các chữ cái của Thonwords containing thon. Check our Scrabble Word Finder,
Wordle solver, Words With Friends cheat dictionary, and WordHub word solver to find words that contain thon. Or use our Unscramble word solver to find your best possible play! Related:
Words that start with thon, Words that end in thon Quảng cáo Những từ được làm bằng chữ cái từ thon 12 từ không được thông qua bằng cách sử dụng các chữ cái thon
3 chữ
Quảng cáo 2 chữ
Những từ bạn có thể thực hiện với thonTừ Unscrambler đã tạo ra một danh sách 12 từ không được ghi từ các chữ cái thon (hnot). Mỗi từ không được tạo ra bằng thon trong đó là hợp lệ và có thể được sử dụng trong scrabble. Điểm số Scrabble được thực hiện từ ThonDanh sách các giá trị điểm scrabble cho các chữ cái được xáo trộn này:
Lời nói hoang sơ từ thonSắp xếp lại điều này t h o n và làm cho chúng từ. Sử dụng trình tìm từ, bạn có thể giải mã thêm kết quả bằng cách thêm hoặc xóa một chữ cái. Bạn có thể làm gì với những chữ cái lộn xộn này?
Bắt đầu với các kết thúc với chứa
Đừng hiển thị điều này một lần nữa Có 61 từ có chứa 'thon'thon' 5 chữ cái chứa 'thon': 6 chữ cái chứa 'thon': 6 chữ cái chứa 'thon': 6 chữ cái chứa 'thon': 6 chữ cái chứa 'thon': 6 chữ cái chứa 'thon': 6 chữ cái chứa 'thon': 6 chữ cái chứa 'thon': 6 chữ cái chứa 'thon': 6 chữ cái chứa 'thon': 6 chữ cái chứa 'thon': 6 chữ cái chứa 'thon': 6 chữ cái chứa 'thon': Những từ nào có chữ cái thon?marathon.. marathon.. telethon.. chthonic.. pythonic.. xanthone.. tithonia.. benthons.. amaethon.. Những từ nào có ase trong đó 5 chữ cái?ASE ở bất kỳ vị trí nào: 5 từ chữ.. abase.. abuse.. aisle.. amuse.. arise.. arose.. ashen.. aside.. Những từ nào bắt đầu bằng kéo?6 chữ cái bắt đầu bằng kéo.. toward.. towage.. townie.. towhee.. towery.. towing.. towies.. towers.. Những từ nào chứa các chữ cái ati?19 chữ cái có chứa ati.. phacoemulsification.. xenotransplantation.. interdenominational.. phosphatidylcholine.. nonrepresentational.. intellectualization.. photodisintegration.. departmentalization.. |