Coverage for src / wiktextract / extractor / vi / tags.py: 88%
32 statements
« prev ^ index » next coverage.py v7.12.0, created at 2025-12-05 07:46 +0000
« prev ^ index » next coverage.py v7.12.0, created at 2025-12-05 07:46 +0000
1from .models import WordEntry
3# https://vi.wiktionary.org/wiki/Mô_đun:labels/data
4LABEL_TAGS = {
5 "viết tắt": "abbreviation",
6 "trừu tượng": "abstract-noun",
7 "acronym": "acronym",
8 "ngoại động từ, nội động từ": "ambitransitive",
9 "archaic": "archaic",
10 "thuộc ngữ": "attributive",
11 "attributively": "attributively",
12 "trợ động từ": "auxiliary",
13 "giống chung": "common",
14 "đếm được": "countable",
15 "ngoại động từ kép": "ditransitive",
16 "khiển cách": "ergative",
17 "nghĩa mở rộng": "broadly",
18 "thành ngữ tính": "idiomatic",
19 "ở dạng số nhiều": "plural",
20 "viết tắt từ chữ đầu với cách đọc ghép âm": "initialism",
21 "nội động từ": "intransitive",
22 "không so sánh được": "not-comparable",
23 "tượng thanh": "onomatopoeic",
24 "chỉ có số nhiều": "plural-only",
25 "tính từ quan hệ": "relational",
26 "động từ tĩnh": "stative",
27 "ngoại động từ": "transitive",
28 "từ láy": "reduplication",
29 "không đếm được": "uncountable",
30 "cổ xưa": "archaic",
31 "ngôn ngữ trẻ con": "childish",
32 "vietnamese chữ Nôm": "Chữ-Nôm",
33 "từ lóng có vần điệu của người Luân Đôn": ["Cockney", "slang"],
34 "thông tục": "colloquial",
35 "lỗi thời": "dated",
36 "nghĩa xấu": "derogatory",
37 "phương ngữ": "dialectal",
38 "thuộc phương ngữ": "dialectal",
39 "xúc phạm dân tộc": ["ethnic", "slang"],
40 "uyển ngữ": "euphemistic",
41 "thân mật": "familiar",
42 "nghĩa bóng": "figuratively",
43 "trang trọng": "formal",
44 "từ lóng người đồng tính": "slang",
45 "từ ngữ lịch sử": "historical",
46 "kính ngữ": "honorific",
47 "hài hước": "humorous",
48 "không trang trọng": "informal",
49 "từ lóng internet": ["Internet", "slang"],
50 "trớ trêu": "ironic",
51 "nghĩa đen": "literally",
52 "ăn chương": "literary",
53 "hoán dụ": "metonymically",
54 "từ lóng quân sự": "slang",
55 "từ mới": "neologism",
56 "không còn phát sinh từ mới": "idiomatic",
57 "từ tạo ra cho trường hợp cụ thể": "nonce-word",
58 "không tiêu chuẩn": "nonstandard",
59 "không còn dùng": "obsolete",
60 "thuật ngữ không còn dùng": "obsolete",
61 "xúc phạm": "offensive",
62 "thơ ca": "poetic",
63 "lịch sự": "polite",
64 "hiếm": "rare",
65 "từ lóng": "slang",
66 "nhắn tin": "Internet",
67 "không phổ biến": "uncommon",
68 "thô tục": "vulgar",
69 "anh": "UK",
70 "biệt ngữ": "jargon",
71 "cũ": "obsolete",
72 "cổ": "archaic",
73 "không dịch": "not-translated",
74 "khẩu ngữ": "colloquial",
75 "lóng": "slang",
76 "mỉa mai": "ironic",
77 "nghĩa rộng": "broadly",
78 "số nhiều": "plural",
79 "nói trại": "euphemistic",
80 "tục tĩu": "vulgar",
81 "ít dùng": "rare",
82 "địa phương": "regional",
83 "định ngữ": "attributive",
84 "ấn độ": "India",
85 "động từ và ngoại động từ": "ambitransitive",
86 "châu mỹ": "US",
87 "hoa kỳ": "US",
88 "phát âm mỹ": "US",
89 "hoạt hình": "animate",
90 "phương ngữ mắt": "pronunciation-spelling",
91 "hy lạp cổ đại": "Ancient-Greek",
92 "la mã cổ đại": "Ancient-Rome",
93 "luật pháp hoa kỳ": "US",
94 "luật pháp việt nam": "Vietnam",
95 "chính trị úc": "Australian",
96 "chính trị philippines": "Philippine",
97 "tu từ học": "rhetoric",
98 # Template:zh-forms
99 "phồn.": "Traditional-Chinese",
100 "giản.": "Simplified-Chinese",
101 "alternative forms": "alternative",
102 "dated abbreviation": ["dated", "abbreviation"],
103 "triều châu": "Teochew",
104 "tiếng mân": "Min",
105 # Template:ja-verb-suru
106 # Module:Jpan-headword
107 "ngoại hoặc nội động từ": ["transitive", "intransitive"],
108 "suru": "suru",
109 "stem": "stem",
110 "past": "past",
111 # Template:ko-noun
112 "hanja": "hanja",
113 "hangeul": "hangeul",
114 # Template:ja-kanjitab
115 "kyūjitai": "kyūjitai",
116 # Template:sa-noun
117 "thân từ": "stem",
118 # Template:hi-noun
119 "chính tả urdu": "Urdu",
120}
122# https://vi.wiktionary.org/wiki/Mô_đun:gender_and_number/data
123GENDER_NUMBER_TAGS = {
124 "giống đực": "masculine",
125 "giống cái": "feminine",
126 "giống trung": "neuter",
127 "giống chung": "common-gender",
128 "gender-neutral": "neuter",
129 "động vật": "animate",
130 "bất động vật": "inanimate",
131 "chỉ loài vật": "animal-not-person",
132 "từ chỉ cá nhân": "person",
133 "nonpersonal": "impersonal",
134 "virile (= masculine personal)": "virile",
135 "nonvirile (= other than masculine personal)": "nonvirile",
136 "số ít": "singular",
137 "số kép": "dual",
138 "số nhiều": "plural",
139 "thể chưa hoàn thành": "imperfective",
140 "thể hoàn thành": "perfective",
141 "không đổi": "invariable",
142}
144LOCATIONS = {
145 "hà nội": "Hà-Nội",
146 "huế": "Huế",
147 "sài gòn": "Saigon",
148 "vinh": "Vinh",
149 "thanh chương": "Thanh-Chương",
150 "hà tĩnh": "Hà-Tĩnh",
151}
153SOUND_TAGS = {
154 "phát âm giọng anh chuẩn": "Received-Pronunciation",
155 "anh mỹ thông dụng": "General-American",
156 # Template:sa-ipa
157 "vệ đà": "Vedic",
158 "tiếng phạn cổ điển": "Classical-Sanskrit",
159}
161ZH_X_TAGS = {
162 "tiêu chuẩn hiện đại": "Standard-Chinese",
163 "bính âm": "Pinyin",
164 "cantonese": "Cantonese",
165 "mandarin": "Mandarin",
166}
168ZH_PRON_TAGS = {
169 "quan thoại": "Mandarin",
170 "tiêu chuẩn": "Standard",
171 "bính âm hán ngữ": "Pinyin",
172 "chú âm phù hiệu": "Bopomofo",
173 "xi'an": "Xi'an",
174 "guanzhong pinyin": ["Guanzhong", "Pinyin"],
175 "đông can": "Dungan",
176 "chữ kirin": "Cyrillic",
177 "wiktionary": "Wiktionary",
178 "quảng đông": "Guanzhong",
179 "việt bính": "Jyutping",
180 "khách gia": "Hakka",
181 "sixian": "Sixian",
182 "pfs": "Phak-fa-su",
183 "mai huyện": "Meixian",
184 "mân bắc": "Min-Bei",
185 "kcr": "Kienning-Colloquial-Romanized",
186 "mân đông": "Min-Dong",
187 "buc": "Foochow-Romanized",
188 "mân nam": "Min-Nan",
189 "mân tuyền chương": "Hokkien",
190 "poj": "POJ",
191 "triều châu": "Teochew",
192 "peng'im": "Peng'im",
193 "hán ngữ tiêu chuẩn": "Standard-Chinese",
194 "bính âm thông dụng": "Tongyong-Pinyin",
195 "wade–giles": "Wade-Giles",
196 "yale": "Yale",
197 "quốc ngữ la mã tự": "Gwoyeu-Romatsyh",
198 "palladius": "Palladius",
199 "ipa hán học": "Sinological-IPA",
200 "quảng đông tiêu chuẩn": "Standard-Cantonese",
201 "quảng châu–hồng kông": ["Guangzhou", "Hong Kong"],
202 "bính âm tiếng quảng đông": ["Cantonese", "Pinyin"],
203 "latinh hóa tiếng quảng đông": "Guangdong-Romanization",
204 "miền bắc sixian": ["Northern", "Sixian"],
205 "miêu lật": "Miaoli",
206 "pha̍k-fa-sṳ": "Phak-fa-su",
207 "hệ thống la mã hóa tiếng khách gia": "Hakka-Romanization-System",
208 "bính âm tiếng khách gia": "Hagfa-Pinyim",
209 "miền nam sixian": ["Southern", "Sixian"],
210 "mỹ nùng": "Neipu",
211 "kiến âu": "Jian'ou",
212 "la mã hóa phương ngữ kiến ninh": "Kienning-Colloquial-Romanized",
213 "phúc châu": "Fuzhou",
214 "bàng-uâ-cê": "Foochow-Romanized",
215 "hạ môn": "Xiamen",
216 "chương châu": "Zhangzhou",
217 "cao hùng": "Kaohsiung",
218 "phiên âm bạch thoại": "POJ",
219 "tâi-lô": "Tai-lo",
220 "phofsit daibuun": "Phofsit-Daibuun",
221 "jinjiang": "Jinjiang",
222 "philippines": "Philippines",
223 "tuyền châu": "Quanzhou",
224 "đài bắc": "Taipei",
225 "phiên âm bạch thoại-like": "POJ",
226 "phonetic": "Phonetic",
227 "ipa": "IPA",
228 "ngô": "Wu",
229 "northern": "Northern",
230 "shanghai": "Shanghai",
231}
233ZH_DIAL_TAGS = {
234 "chính thức": "formal",
235 "bạch thoại": "Written-vernacular-Chinese",
236 "quan thoại giao-liêu": "Jiaoliao-Mandarin",
237 "yên đài": "Yantai",
238 "mưu bình": "Muping",
239 "quan thoại trung nguyên": "Central-Plains-Mandarin",
240 "lạc dươn": "Luoyang",
241 "vạn vinh": "Wanrong",
242 "tây ninh": "Xining",
243 "quan thoại lan-ngân": "Lanyin-Mandarin",
244 "ngân xuyên": "Yinchuan",
245 "quan thoại tây nam": "Southwestern-Mandarin",
246 "liễu châu": "Liuzhou",
247 "quan thoại giang hoài": "Jianghuai-Mandarin",
248 "nam kinh": "Nanjing",
249 "dương châu": "Yangzhou",
250 "quảng châu": "Guangzhou",
251 "đông hoản": "Dongguan",
252 "huy châu": "Huizhou",
253 "tích khê": "Jixi",
254 "tấn": "Jin",
255 "thái nguyên": "Taiyuan",
256 "đài nam": "Tainan",
257 "lôi châu": "Leizhou",
258 "mân phủ tiên": "Puxian-Min",
259 "bình nam": "Southern-Pinghua",
260 "nam ninh": "Nanning",
261 "đình tử": "Tingzi",
262 "thượng hải": "Shanghai",
263 "tô châu": "Suzhou",
264 "đan dương": "Danyang",
265 "hàng châu": "Hangzhou",
266 "ninh ba": "Ningbo",
267 "ôn châu": "Wenzhou",
268 "kim hoa": "Jinhua",
269 "tương": "Xiang",
270 "trường sa": "Changsha",
271 "quan thoại đông bắc": "Northeastern-Mandarin",
272 "quan thoại ký-lỗ": "Jilu-Mandarin",
273 "cám": "Cantonese",
274 "mân trung sơn": "Zhongshan-Min",
275 "trung sơn": "Zhongshan",
276 "long đô": "Longdu",
277 "sa khê": "Shaxi",
278}
280TH_PRON_TAGS = {
281 "chính tả": "orthographic",
282 "âm vị": "phoneme",
283 "chính tả/âm vị": ["orthographic", "phonemic"],
284 "chuyển tự": "romanization",
285 "paiboon": "Paiboon",
286 "viện hoàng gia": "Royal-Institute",
287}
290TAGS = {
291 **LABEL_TAGS,
292 **GENDER_NUMBER_TAGS,
293 **LOCATIONS,
294 **SOUND_TAGS,
295 **ZH_X_TAGS,
296 **ZH_PRON_TAGS,
297 **ZH_DIAL_TAGS,
298 **TH_PRON_TAGS,
299}
301# https://vi.wiktionary.org/wiki/Mô_đun:labels/data/topical
302TOPICS = {
303 "địa chấn học": "seismology",
304 "thực vật học": "botany",
305 "hóa học": "chemistry",
306 "từ lóng người đồng tính": "LGBT",
307 "từ lóng quân sự": "military",
308 "bóng chày": "baseball",
309 "bóng rổ": "basketball",
310 "băng cầu": "ice-hockey",
311 "bắn cung": "archery",
312 "chính trị": "politics",
313 "cơ khí": "mechanical",
314 "cử tạ": "weightlifting",
315 "dược học": "pharmaceuticals",
316 "giải phẫu học": "anatomy",
317 "hàng hải": "shipping",
318 "hàng không": "aviation",
319 "in ấn": "printing",
320 "khoa đo lường": "metrology",
321 "khoáng vật học": "mineralogy",
322 "khúc côn cầu": "hockey",
323 "khảo cổ học": "archeology",
324 "kinh doanh": "business",
325 "kinh tế học": "economics",
326 "kiến trúc": "architecture",
327 "kiểu cách": "manner",
328 "kế toán": "accounting",
329 "kỹ thuật": "technology",
330 "luật pháp": "law",
331 "lâm nghiệp": "forestry",
332 "lôgic": "logic",
333 "lập trình": "programming",
334 "nghệ thuật": "arts",
335 "ngoại giao": "diplomacy",
336 "ngành mỏ": "mining",
337 "nhân khẩu học": "demographics",
338 "nhãn khoa": "ophthalmology",
339 "nấu nướng": "cooking",
340 "sinh thái học": "ecology",
341 "sinh vật học": "biology",
342 "sân khấu": "theater",
343 "săn bắn": "hunting",
344 "thương nghiệp": "commerce",
345 "thần học": "theology",
346 "thần thoại": "mythology",
347 "thể dục": "exercise",
348 "thể thao": "sports",
349 "tin học": "computer-sciences",
350 "tài chính": "finance",
351 "tôn giáo": "religion",
352 "văn học": "literature",
353 "vật lý học": "physics",
354 "xã hội học": "sociology",
355 "y học": "medicine",
356 "đạo giáo": "Taoism",
357 "điện học": "electricity",
358 "điện tử học": "electronics",
359 "điện ảnh": "film",
360 "đánh bài": "gambling",
361 "đường sắt": "railways",
362 "đại số": "algebra",
363 "động vật học": "zoology",
364 "nông nghiệp": "agriculture",
365 "phi cơ": "airplane",
366 "đại số học": "algebra",
367 "bóng đá mỹ": "American-football",
368 "lưỡng cư": "amphibian",
369 "bài tập": "exercise",
370 "đấu kiếm": "fencing",
371 "âm học": "acoustics",
372 "diễn xuất": "acting",
373 "quảng cáo": "advertising",
374 "hàng không học": "aeronautics",
375 "hàng không vũ trụ": "aerospace",
376 "tình cảm": "affection",
377 "khí cụ bay": "aircraft",
378 "giả kim thuật": "alchemy",
379 "thức uống có cồn": ["alcohol", "beverages"],
380 "lạm dụng rượu bia": "alcoholism",
381 "hình học đại số": "algebraic-geometry",
382 "tô pô đại số": "algebraic-topology",
383 "y học thay thế": "alternative-medicine",
384 "phát thanh nghiệp dư": "radio",
385 "bóng bầu dục Mỹ": ["US", "football"],
386 "hình học giải tích": "geometry",
387 "hóa phân tích": "chemistry",
388 "chủ nghĩa vô trị": "anarchism",
389 "anh giáo": "Anglicanism",
390 "nhân loại học": "anthropology",
391 "toán học ứng dụng": "applied-mathematics",
392 "số học": "arithmetic",
393 "trí tuệ nhân tạo": "artificial-intelligence",
394 "chiêm tinh học": "astrology",
395 "thiên văn học": "astronomy",
396 "vật lý thiên văn": "astrophysics",
397 "điền kinh": "athletics",
398 "ô tô": "automotive",
399 "trò chơi với bóng": "ball-games",
400 "ngân hàng": "banking",
401 "bdsm": "BDSM",
402 "kinh thánh": "biblical",
403 "hóa sinh": "biochemistry",
404 "sinh học": "biology",
405 "trò chơi với bàn cờ": "board-games",
406 "quyền anh": "boxing",
407 "phát sóng": "broadcasting",
408 "rêu học": "bryology",
409 "phật giáo": "Buddhism",
410 "vi tích phân": "calculus",
411 "họ lạc đà": "camelids",
412 "trò chơi bài": "card-games",
413 "bệnh học tim": "cardiology",
414 "công giáo": "Catholicism",
415 "kỹ thuật hóa học": "chemical-engineering",
416 "cờ vua": "chess",
417 "thần thoại trung hoa": "Chinese-philosophy",
418 "kitô giáo": "Christianity",
419 "trang phục": "clothing",
420 "truyện tranh": "comics",
421 "giao tiếp": "communications",
422 "chủ nghĩa cộng sản": "communism",
423 "giải tích phức": "complex-analysis",
424 "đồ hoạ máy tính": "computer-graphics",
425 "phần cứng": "computer-hardware",
426 "khoa học máy tính": "computer-sciences",
427 "bảo mật máy tính": "computer-security",
428 "máy tính": "computing",
429 "nho giáo": "Confucianism",
430 "nấu ăn": "cooking",
431 "phân thứ bộ cua": "crabs",
432 "tội phạm": "crime",
433 "phân ngành giáp xác": "Crustaceans",
434 "điều khiển học": "cybernetics",
435 "đạp xe": "cycling",
436 "sinh học tế bào": "cytology",
437 "chế phẩm sữa": "dairy-products",
438 "nha khoa": "dentistry",
439 "món tráng miệng": "desserts",
440 "chó": "dogs",
441 "giáo dục": "education",
442 "thần thoại ai cập": "Egyptian-mythology",
443 "ai cập học": "Egyptology",
444 "kỹ thuật điện": "electrical-engineering",
445 "điện": "electricity",
446 "điện từ học": "electromagnetism",
447 "kĩ thuật": "engineering",
448 "tri thức luận": "epistemology",
449 "văn học khiêu dâm": "erotic-literature",
450 "thuyết tiến hoá": "evolutionary-theory",
451 "kì ảo": "fantasy",
452 "hư cấu": "fiction",
453 "phim": "film",
454 "súng cầm tay": "firearms",
455 "hoa": "flowery",
456 "cơ học chất lưu": "fluid-dynamics",
457 "văn hóa dân gian": "folklore",
458 "hàm toán học": "functions",
459 "giải tích hàm": "functional-analysis",
460 "đồ nội thất": "furniture",
461 "trò chơi": "games",
462 "di truyền học": "genetics",
463 "địa lí học": "geography",
464 "địa chất học": "geology",
465 "hình học": "geometry",
466 "địa mạo học": "geomorphology",
467 "chính phủ": "government",
468 "ngữ pháp": "grammar",
469 "giao diện đồ họa người dùng": "graphical-user-interface",
470 "thần thoại hy lạp": "Greek-mythology",
471 "thể dục dụng cụ": "gymnastics",
472 "huyết học": "hematology",
473 "ấn độ giáo": "Hinduism",
474 "lịch sử thời đại": "history",
475 "lịch sử": "history",
476 "vi lượng đồng căn": "homeopathy",
477 "họ người": "hominids",
478 "làm vườn": "horticulture",
479 "săn": "hunting",
480 "thủy văn học": "hydrology",
481 "khúc côn cầu trên băng": "ice-hockey",
482 "ngư học": "ichthyology",
483 "ý thức hệ": "ideology",
484 "miễn dịch học": "immunology",
485 "luật quốc tế": "law",
486 "quan hệ quốc tế": "international-relations",
487 "hồi giáo": "Islam",
488 "kỳ na giáo": "Jainism",
489 "tác phẩm giả tưởng nhật bản": "Japanese-fiction",
490 "do thái giáo": "Judaism",
491 "luật pháp hoa kỳ": "law",
492 "luật pháp việt nam": "law",
493 "từ điển học": "lexicography",
494 "lgbt": "LGBT",
495 "nguồn ánh sáng": "light-sources",
496 "đại số tuyến tính": "linear-algebra",
497 "ngôn ngữ học": "linguistics",
498 "sản xuất": "manufacturing",
499 "chủ nghĩa marx": "Marxism",
500 "giải tích toán học": "mathematical-analysis",
501 "toán học": "mathematics",
502 "cơ học": "mechanics",
503 "thần thoại lưỡng hà": "Mesopotamian-mythology",
504 "luyện kim": "metallurgy",
505 "siêu hình học": "metaphysics",
506 "khí tượng học": "meteorology",
507 "đo lường học": "metrology",
508 "vi sinh vật học": "microbiology",
509 "quân sự": "military",
510 "tiền": "money",
511 "đua xe có động cơ": "motor-racing",
512 "âm nhạc": "music",
513 "nấm học": "mycology",
514 "giải phẫu thần kinh": "neuroanatomy",
515 "thần kinh học": "neurology",
516 "khoa học thần kinh": "neuroscience",
517 "họ cà": "nightshades",
518 "hóa tệ học": "numismatics",
519 "thần bí học": "occult",
520 "hải dương học": "oceanography",
521 "hệ điều hành": "operating-systems",
522 "quang học": "optics",
523 "họ lan": "Orchids",
524 "hóa hữu cơ": "organic-chemistry",
525 "điểu học": "ornithology",
526 "chính tả": "orthography",
527 "pagan giáo": "paganism",
528 "cổ sinh vật học": "paleontology",
529 "bệnh lí học": "pathology",
530 "thổ nhưỡng học": "pedology",
531 "hóa dầu": "petrochemistry",
532 "thạch luận": "petrology",
533 "dược lý học": "pharmacology",
534 "triết học": "philosophy",
535 "ngữ âm": "phonetics",
536 "âm vị học": "phonology",
537 "nhiếp ảnh": "photography",
538 "não tướng học": "physiognomy",
539 "sinh lí học": "physiology",
540 "bộ hồ tiêu": "piperales",
541 "khoa học hành tinh": "planetology",
542 "thơ": "poetry",
543 "khoa học chính trị": "political-science",
544 "chính trị úc": "politics",
545 "chính trị philippines": "politics",
546 "khiêu dâm": "pornography",
547 "tâm thần học": "psychiatry",
548 "tâm lý học": "psychology",
549 "vận tải đường sắt": "rail-transport",
550 "tài liệu tham khảo": "reference-works",
551 "giáo hội công giáo": "Roman-Catholicism",
552 "thần thoại la mã": "Roman-mythology",
553 "xoay tròn": "rotation",
554 "khoa học viễn tưởng": "science-fiction",
555 "khoa học": "sciences",
556 "chứng khoán": "securities",
557 "ngữ nghĩa học": "semantics",
558 "lí thuyết tập hợp": "set-theory",
559 "tình dục": "sex",
560 "tình dục học": "sexology",
561 "tính dục": "sexuality",
562 "ca hát": "singing",
563 "bóng đá": "soccer",
564 "khoa học xã hội": "social-sciences",
565 "chủ nghĩa xã hội": "socialism",
566 "phương tiện truyền thông mạng xã hội": "social-media",
567 "ngôn ngữ học xã hội": "sociolinguistics",
568 "phổ học": "spectroscopy",
569 "bơi lội": "swimming",
570 "hệ thống": "systems",
571 "lý thuyết hệ thống": "systems-theory",
572 "phân loại học": "taxonomy",
573 "công nghệ": "technology",
574 "quái thai học": "teratology",
575 "dệt may": "textiles",
576 "nhiệt động học": "thermodynamics",
577 "du lịch": "tourism",
578 "đông y": "traditional-Chinese-medicine",
579 "người chuyển giới": "transgender",
580 "giao thông": "transport",
581 "lượng giác": "trigonometry",
582 "hàm lượng giác": "trigonometric-function",
583 "đơn vị đo": "units-of-measure",
584 "rau": "vegetable",
585 "phương tiện giao thông": "vehicles",
586 "thú y": "veterinary-medicine",
587 "nén video": "video-compression",
588 "núi lửa học": "volcanology",
589 "thời tiết": "weather",
590 "môn thể thao mùa đông": "winter-sports",
591 "nhân vật kinh thánh": "biblical",
592 "chòm sao": "constellation",
593 "bệnh": "disease",
594 "acid béo": "fatty-acid",
595 "tu từ học": "figure-of-speech",
596 "vị thần hy lạp": "Greek-god",
597 "huy hiệu học": "heraldic-charge",
598 "thần thánh ấn độ": "Hindu-god",
599 "hợp chất vô cơ": "inorganic-compound",
600 "địa mạo": "landforms",
601 "khoáng vật": "mineralogy",
602 "điện thoại di động": "mobile-phones",
603 "nhạc cụ": "musical-instruments",
604 "hóa học hữu cơ": "organic-compound",
605 "thực vật": "plant",
606 "bộ xương": "skeleton",
607 "tàu chiến": "warships",
608 "nước": "water",
609}
612def translate_raw_tags(data: WordEntry) -> None:
613 raw_tags = []
614 for raw_tag in data.raw_tags:
615 found_tag = False
616 if raw_tag.lower() in TAGS and hasattr(data, "tags"):
617 found_tag = True
618 tr_tag = TAGS[raw_tag.lower()]
619 if isinstance(tr_tag, str):
620 data.tags.append(tr_tag)
621 elif isinstance(tr_tag, list): 621 ↛ 623line 621 didn't jump to line 623 because the condition on line 621 was always true
622 data.tags.extend(tr_tag)
623 if raw_tag.lower() in TOPICS and hasattr(data, "topics"):
624 found_tag = True
625 topic = TOPICS[raw_tag.lower()]
626 if isinstance(topic, str): 626 ↛ 628line 626 didn't jump to line 628 because the condition on line 626 was always true
627 data.topics.append(topic)
628 elif isinstance(topic, list):
629 data.topics.extend(topic)
630 if not found_tag:
631 raw_tags.append(raw_tag)
632 data.raw_tags = raw_tags