Coverage for src/wiktextract/extractor/vi/tags.py: 88%

1from .models import WordEntry

3# https://vi.wiktionary.org/wiki/Mô_đun:labels/data

4LABEL_TAGS = {

5 "viết tắt": "abbreviation",

6 "trừu tượng": "abstract-noun",

7 "acronym": "acronym",

8 "ngoại động từ, nội động từ": "ambitransitive",

9 "archaic": "archaic",

10 "thuộc ngữ": "attributive",

11 "attributively": "attributively",

12 "trợ động từ": "auxiliary",

13 "giống chung": "common",

14 "đếm được": "countable",

15 "ngoại động từ kép": "ditransitive",

16 "khiển cách": "ergative",

17 "nghĩa mở rộng": "broadly",

18 "thành ngữ tính": "idiomatic",

19 "ở dạng số nhiều": "plural",

20 "viết tắt từ chữ đầu với cách đọc ghép âm": "initialism",

21 "nội động từ": "intransitive",

22 "không so sánh được": "not-comparable",

23 "tượng thanh": "onomatopoeic",

24 "chỉ có số nhiều": "plural-only",

25 "tính từ quan hệ": "relational",

26 "động từ tĩnh": "stative",

27 "ngoại động từ": "transitive",

28 "từ láy": "reduplication",

29 "không đếm được": "uncountable",

30 "cổ xưa": "archaic",

31 "ngôn ngữ trẻ con": "childish",

32 "vietnamese chữ Nôm": "Chữ-Nôm",

33 "từ lóng có vần điệu của người Luân Đôn": ["Cockney", "slang"],

34 "thông tục": "colloquial",

35 "lỗi thời": "dated",

36 "nghĩa xấu": "derogatory",

37 "phương ngữ": "dialectal",

38 "thuộc phương ngữ": "dialectal",

39 "xúc phạm dân tộc": ["ethnic", "slang"],

40 "uyển ngữ": "euphemistic",

41 "thân mật": "familiar",

42 "nghĩa bóng": "figuratively",

43 "trang trọng": "formal",

44 "từ lóng người đồng tính": "slang",

45 "từ ngữ lịch sử": "historical",

46 "kính ngữ": "honorific",

47 "hài hước": "humorous",

48 "không trang trọng": "informal",

49 "từ lóng internet": ["Internet", "slang"],

50 "trớ trêu": "ironic",

51 "nghĩa đen": "literally",

52 "ăn chương": "literary",

53 "hoán dụ": "metonymically",

54 "từ lóng quân sự": "slang",

55 "từ mới": "neologism",

56 "không còn phát sinh từ mới": "idiomatic",

57 "từ tạo ra cho trường hợp cụ thể": "nonce-word",

58 "không tiêu chuẩn": "nonstandard",

59 "không còn dùng": "obsolete",

60 "thuật ngữ không còn dùng": "obsolete",

61 "xúc phạm": "offensive",

62 "thơ ca": "poetic",

63 "lịch sự": "polite",

64 "hiếm": "rare",

65 "từ lóng": "slang",

66 "nhắn tin": "Internet",

67 "không phổ biến": "uncommon",

68 "thô tục": "vulgar",

69 "anh": "UK",

70 "biệt ngữ": "jargon",

71 "cũ": "obsolete",

72 "cổ": "archaic",

73 "không dịch": "not-translated",

74 "khẩu ngữ": "colloquial",

75 "lóng": "slang",

76 "mỉa mai": "ironic",

77 "nghĩa rộng": "broadly",

78 "số nhiều": "plural",

79 "nói trại": "euphemistic",

80 "tục tĩu": "vulgar",

81 "ít dùng": "rare",

82 "địa phương": "regional",

83 "định ngữ": "attributive",

84 "ấn độ": "India",

85 "động từ và ngoại động từ": "ambitransitive",

86 "châu mỹ": "US",

87 "hoa kỳ": "US",

88 "phát âm mỹ": "US",

89 "hoạt hình": "animate",

90 "phương ngữ mắt": "pronunciation-spelling",

91 "hy lạp cổ đại": "Ancient-Greek",

92 "la mã cổ đại": "Ancient-Rome",

93 "luật pháp hoa kỳ": "US",

94 "luật pháp việt nam": "Vietnam",

95 "chính trị úc": "Australian",

96 "chính trị philippines": "Philippine",

97 "tu từ học": "rhetoric",

98 # Template:zh-forms

99 "phồn.": "Traditional-Chinese",

100 "giản.": "Simplified-Chinese",

101 "alternative forms": "alternative",

102 "dated abbreviation": ["dated", "abbreviation"],

103 "triều châu": "Teochew",

104 "tiếng mân": "Min",

105 # Template:ja-verb-suru

106 # Module:Jpan-headword

107 "ngoại hoặc nội động từ": ["transitive", "intransitive"],

108 "suru": "suru",

109 "stem": "stem",

110 "past": "past",

111 # Template:ko-noun

112 "hanja": "hanja",

113 "hangeul": "hangeul",

114 # Template:ja-kanjitab

115 "kyūjitai": "kyūjitai",

116 # Template:sa-noun

117 "thân từ": "stem",

118 # Template:hi-noun

119 "chính tả urdu": "Urdu",

120}

121

122# https://vi.wiktionary.org/wiki/Mô_đun:gender_and_number/data

123GENDER_NUMBER_TAGS = {

124 "giống đực": "masculine",

125 "giống cái": "feminine",

126 "giống trung": "neuter",

127 "giống chung": "common-gender",

128 "gender-neutral": "neuter",

129 "động vật": "animate",

130 "bất động vật": "inanimate",

131 "chỉ loài vật": "animal-not-person",

132 "từ chỉ cá nhân": "person",

133 "nonpersonal": "impersonal",

134 "virile (= masculine personal)": "virile",

135 "nonvirile (= other than masculine personal)": "nonvirile",

136 "số ít": "singular",

137 "số kép": "dual",

138 "số nhiều": "plural",

139 "thể chưa hoàn thành": "imperfective",

140 "thể hoàn thành": "perfective",

141 "không đổi": "invariable",

142}

143

144LOCATIONS = {

145 "hà nội": "Hà-Nội",

146 "huế": "Huế",

147 "sài gòn": "Saigon",

148 "vinh": "Vinh",

149 "thanh chương": "Thanh-Chương",

150 "hà tĩnh": "Hà-Tĩnh",

151}

152

153SOUND_TAGS = {

154 "phát âm giọng anh chuẩn": "Received-Pronunciation",

155 "anh mỹ thông dụng": "General-American",

156 # Template:sa-ipa

157 "vệ đà": "Vedic",

158 "tiếng phạn cổ điển": "Classical-Sanskrit",

159 # Template:ko-ipa

160 "romaja quốc ngữ": ["revised", "romanization"],

161 "romaja quốc ngữ (chuyển tự)": [

162 "revised",

163 "romanization",

164 "transliteration",

165 ],

166 "mccune–reischauer": "McCune-Reischauer",

167 "latinh hóa yale": ["Yale", "romanization"],

168 "hq tiêu chuẩn": "SK-Standard",

169 "seoul": "Seoul",

170}

171

172ZH_X_TAGS = {

173 "tiêu chuẩn hiện đại": "Standard-Chinese",

174 "bính âm": "Pinyin",

175 "cantonese": "Cantonese",

176 "mandarin": "Mandarin",

177}

178

179ZH_PRON_TAGS = {

180 "quan thoại": "Mandarin",

181 "tiêu chuẩn": "Standard",

182 "bính âm hán ngữ": "Pinyin",

183 "chú âm phù hiệu": "Bopomofo",

184 "xi'an": "Xi'an",

185 "guanzhong pinyin": ["Guanzhong", "Pinyin"],

186 "đông can": "Dungan",

187 "chữ kirin": "Cyrillic",

188 "wiktionary": "Wiktionary",

189 "quảng đông": "Guanzhong",

190 "việt bính": "Jyutping",

191 "khách gia": "Hakka",

192 "sixian": "Sixian",

193 "pfs": "Phak-fa-su",

194 "mai huyện": "Meixian",

195 "mân bắc": "Min-Bei",

196 "kcr": "Kienning-Colloquial-Romanized",

197 "mân đông": "Min-Dong",

198 "buc": "Foochow-Romanized",

199 "mân nam": "Min-Nan",

200 "mân tuyền chương": "Hokkien",

201 "poj": "POJ",

202 "triều châu": "Teochew",

203 "peng'im": "Peng'im",

204 "hán ngữ tiêu chuẩn": "Standard-Chinese",

205 "bính âm thông dụng": "Tongyong-Pinyin",

206 "wade–giles": "Wade-Giles",

207 "yale": "Yale",

208 "quốc ngữ la mã tự": "Gwoyeu-Romatsyh",

209 "palladius": "Palladius",

210 "ipa hán học": "Sinological-IPA",

211 "quảng đông tiêu chuẩn": "Standard-Cantonese",

212 "quảng châu–hồng kông": ["Guangzhou", "Hong Kong"],

213 "bính âm tiếng quảng đông": ["Cantonese", "Pinyin"],

214 "latinh hóa tiếng quảng đông": "Guangdong-Romanization",

215 "miền bắc sixian": ["Northern", "Sixian"],

216 "miêu lật": "Miaoli",

217 "pha̍k-fa-sṳ": "Phak-fa-su",

218 "hệ thống la mã hóa tiếng khách gia": "Hakka-Romanization-System",

219 "bính âm tiếng khách gia": "Hagfa-Pinyim",

220 "miền nam sixian": ["Southern", "Sixian"],

221 "mỹ nùng": "Neipu",

222 "kiến âu": "Jian'ou",

223 "la mã hóa phương ngữ kiến ninh": "Kienning-Colloquial-Romanized",

224 "phúc châu": "Fuzhou",

225 "bàng-uâ-cê": "Foochow-Romanized",

226 "hạ môn": "Xiamen",

227 "chương châu": "Zhangzhou",

228 "cao hùng": "Kaohsiung",

229 "phiên âm bạch thoại": "POJ",

230 "tâi-lô": "Tai-lo",

231 "phofsit daibuun": "Phofsit-Daibuun",

232 "jinjiang": "Jinjiang",

233 "philippines": "Philippines",

234 "tuyền châu": "Quanzhou",

235 "đài bắc": "Taipei",

236 "phiên âm bạch thoại-like": "POJ",

237 "phonetic": "Phonetic",

238 "ipa": "IPA",

239 "ngô": "Wu",

240 "northern": "Northern",

241 "shanghai": "Shanghai",

242}

243

244ZH_DIAL_TAGS = {

245 "chính thức": "formal",

246 "bạch thoại": "Written-vernacular-Chinese",

247 "quan thoại giao-liêu": "Jiaoliao-Mandarin",

248 "yên đài": "Yantai",

249 "mưu bình": "Muping",

250 "quan thoại trung nguyên": "Central-Plains-Mandarin",

251 "lạc dươn": "Luoyang",

252 "vạn vinh": "Wanrong",

253 "tây ninh": "Xining",

254 "quan thoại lan-ngân": "Lanyin-Mandarin",

255 "ngân xuyên": "Yinchuan",

256 "quan thoại tây nam": "Southwestern-Mandarin",

257 "liễu châu": "Liuzhou",

258 "quan thoại giang hoài": "Jianghuai-Mandarin",

259 "nam kinh": "Nanjing",

260 "dương châu": "Yangzhou",

261 "quảng châu": "Guangzhou",

262 "đông hoản": "Dongguan",

263 "huy châu": "Huizhou",

264 "tích khê": "Jixi",

265 "tấn": "Jin",

266 "thái nguyên": "Taiyuan",

267 "đài nam": "Tainan",

268 "lôi châu": "Leizhou",

269 "mân phủ tiên": "Puxian-Min",

270 "bình nam": "Southern-Pinghua",

271 "nam ninh": "Nanning",

272 "đình tử": "Tingzi",

273 "thượng hải": "Shanghai",

274 "tô châu": "Suzhou",

275 "đan dương": "Danyang",

276 "hàng châu": "Hangzhou",

277 "ninh ba": "Ningbo",

278 "ôn châu": "Wenzhou",

279 "kim hoa": "Jinhua",

280 "tương": "Xiang",

281 "trường sa": "Changsha",

282 "quan thoại đông bắc": "Northeastern-Mandarin",

283 "quan thoại ký-lỗ": "Jilu-Mandarin",

284 "cám": "Cantonese",

285 "mân trung sơn": "Zhongshan-Min",

286 "trung sơn": "Zhongshan",

287 "long đô": "Longdu",

288 "sa khê": "Shaxi",

289}

290

291TH_PRON_TAGS = {

292 "chính tả": "orthographic",

293 "âm vị": "phoneme",

294 "chính tả/âm vị": ["orthographic", "phonemic"],

295 "chuyển tự": "romanization",

296 "paiboon": "Paiboon",

297 "viện hoàng gia": "Royal-Institute",

298}

299

300

301TAGS = {

302 **LABEL_TAGS,

303 **GENDER_NUMBER_TAGS,

304 **LOCATIONS,

305 **SOUND_TAGS,

306 **ZH_X_TAGS,

307 **ZH_PRON_TAGS,

308 **ZH_DIAL_TAGS,

309 **TH_PRON_TAGS,

310}

311

312# https://vi.wiktionary.org/wiki/Mô_đun:labels/data/topical

313TOPICS = {

314 "địa chấn học": "seismology",

315 "thực vật học": "botany",

316 "hóa học": "chemistry",

317 "từ lóng người đồng tính": "LGBT",

318 "từ lóng quân sự": "military",

319 "bóng chày": "baseball",

320 "bóng rổ": "basketball",

321 "băng cầu": "ice-hockey",

322 "bắn cung": "archery",

323 "chính trị": "politics",

324 "cơ khí": "mechanical",

325 "cử tạ": "weightlifting",

326 "dược học": "pharmaceuticals",

327 "giải phẫu học": "anatomy",

328 "hàng hải": "shipping",

329 "hàng không": "aviation",

330 "in ấn": "printing",

331 "khoa đo lường": "metrology",

332 "khoáng vật học": "mineralogy",

333 "khúc côn cầu": "hockey",

334 "khảo cổ học": "archeology",

335 "kinh doanh": "business",

336 "kinh tế học": "economics",

337 "kiến trúc": "architecture",

338 "kiểu cách": "manner",

339 "kế toán": "accounting",

340 "kỹ thuật": "technology",

341 "luật pháp": "law",

342 "lâm nghiệp": "forestry",

343 "lôgic": "logic",

344 "lập trình": "programming",

345 "nghệ thuật": "arts",

346 "ngoại giao": "diplomacy",

347 "ngành mỏ": "mining",

348 "nhân khẩu học": "demographics",

349 "nhãn khoa": "ophthalmology",

350 "nấu nướng": "cooking",

351 "sinh thái học": "ecology",

352 "sinh vật học": "biology",

353 "sân khấu": "theater",

354 "săn bắn": "hunting",

355 "thương nghiệp": "commerce",

356 "thần học": "theology",

357 "thần thoại": "mythology",

358 "thể dục": "exercise",

359 "thể thao": "sports",

360 "tin học": "computer-sciences",

361 "tài chính": "finance",

362 "tôn giáo": "religion",

363 "văn học": "literature",

364 "vật lý học": "physics",

365 "xã hội học": "sociology",

366 "y học": "medicine",

367 "đạo giáo": "Taoism",

368 "điện học": "electricity",

369 "điện tử học": "electronics",

370 "điện ảnh": "film",

371 "đánh bài": "gambling",

372 "đường sắt": "railways",

373 "đại số": "algebra",

374 "động vật học": "zoology",

375 "nông nghiệp": "agriculture",

376 "phi cơ": "airplane",

377 "đại số học": "algebra",

378 "bóng đá mỹ": "American-football",

379 "lưỡng cư": "amphibian",

380 "bài tập": "exercise",

381 "đấu kiếm": "fencing",

382 "âm học": "acoustics",

383 "diễn xuất": "acting",

384 "quảng cáo": "advertising",

385 "hàng không học": "aeronautics",

386 "hàng không vũ trụ": "aerospace",

387 "tình cảm": "affection",

388 "khí cụ bay": "aircraft",

389 "giả kim thuật": "alchemy",

390 "thức uống có cồn": ["alcohol", "beverages"],

391 "lạm dụng rượu bia": "alcoholism",

392 "hình học đại số": "algebraic-geometry",

393 "tô pô đại số": "algebraic-topology",

394 "y học thay thế": "alternative-medicine",

395 "phát thanh nghiệp dư": "radio",

396 "bóng bầu dục Mỹ": ["US", "football"],

397 "hình học giải tích": "geometry",

398 "hóa phân tích": "chemistry",

399 "chủ nghĩa vô trị": "anarchism",

400 "anh giáo": "Anglicanism",

401 "nhân loại học": "anthropology",

402 "toán học ứng dụng": "applied-mathematics",

403 "số học": "arithmetic",

404 "trí tuệ nhân tạo": "artificial-intelligence",

405 "chiêm tinh học": "astrology",

406 "thiên văn học": "astronomy",

407 "vật lý thiên văn": "astrophysics",

408 "điền kinh": "athletics",

409 "ô tô": "automotive",

410 "trò chơi với bóng": "ball-games",

411 "ngân hàng": "banking",

412 "bdsm": "BDSM",

413 "kinh thánh": "biblical",

414 "hóa sinh": "biochemistry",

415 "sinh học": "biology",

416 "trò chơi với bàn cờ": "board-games",

417 "quyền anh": "boxing",

418 "phát sóng": "broadcasting",

419 "rêu học": "bryology",

420 "phật giáo": "Buddhism",

421 "vi tích phân": "calculus",

422 "họ lạc đà": "camelids",

423 "trò chơi bài": "card-games",

424 "bệnh học tim": "cardiology",

425 "công giáo": "Catholicism",

426 "kỹ thuật hóa học": "chemical-engineering",

427 "cờ vua": "chess",

428 "thần thoại trung hoa": "Chinese-philosophy",

429 "kitô giáo": "Christianity",

430 "trang phục": "clothing",

431 "truyện tranh": "comics",

432 "giao tiếp": "communications",

433 "chủ nghĩa cộng sản": "communism",

434 "giải tích phức": "complex-analysis",

435 "đồ hoạ máy tính": "computer-graphics",

436 "phần cứng": "computer-hardware",

437 "khoa học máy tính": "computer-sciences",

438 "bảo mật máy tính": "computer-security",

439 "máy tính": "computing",

440 "nho giáo": "Confucianism",

441 "nấu ăn": "cooking",

442 "phân thứ bộ cua": "crabs",

443 "tội phạm": "crime",

444 "phân ngành giáp xác": "Crustaceans",

445 "điều khiển học": "cybernetics",

446 "đạp xe": "cycling",

447 "sinh học tế bào": "cytology",

448 "chế phẩm sữa": "dairy-products",

449 "nha khoa": "dentistry",

450 "món tráng miệng": "desserts",

451 "chó": "dogs",

452 "giáo dục": "education",

453 "thần thoại ai cập": "Egyptian-mythology",

454 "ai cập học": "Egyptology",

455 "kỹ thuật điện": "electrical-engineering",

456 "điện": "electricity",

457 "điện từ học": "electromagnetism",

458 "kĩ thuật": "engineering",

459 "tri thức luận": "epistemology",

460 "văn học khiêu dâm": "erotic-literature",

461 "thuyết tiến hoá": "evolutionary-theory",

462 "kì ảo": "fantasy",

463 "hư cấu": "fiction",

464 "phim": "film",

465 "súng cầm tay": "firearms",

466 "hoa": "flowery",

467 "cơ học chất lưu": "fluid-dynamics",

468 "văn hóa dân gian": "folklore",

469 "hàm toán học": "functions",

470 "giải tích hàm": "functional-analysis",

471 "đồ nội thất": "furniture",

472 "trò chơi": "games",

473 "di truyền học": "genetics",

474 "địa lí học": "geography",

475 "địa chất học": "geology",

476 "hình học": "geometry",

477 "địa mạo học": "geomorphology",

478 "chính phủ": "government",

479 "ngữ pháp": "grammar",

480 "giao diện đồ họa người dùng": "graphical-user-interface",

481 "thần thoại hy lạp": "Greek-mythology",

482 "thể dục dụng cụ": "gymnastics",

483 "huyết học": "hematology",

484 "ấn độ giáo": "Hinduism",

485 "lịch sử thời đại": "history",

486 "lịch sử": "history",

487 "vi lượng đồng căn": "homeopathy",

488 "họ người": "hominids",

489 "làm vườn": "horticulture",

490 "săn": "hunting",

491 "thủy văn học": "hydrology",

492 "khúc côn cầu trên băng": "ice-hockey",

493 "ngư học": "ichthyology",

494 "ý thức hệ": "ideology",

495 "miễn dịch học": "immunology",

496 "luật quốc tế": "law",

497 "quan hệ quốc tế": "international-relations",

498 "hồi giáo": "Islam",

499 "kỳ na giáo": "Jainism",

500 "tác phẩm giả tưởng nhật bản": "Japanese-fiction",

501 "do thái giáo": "Judaism",

502 "luật pháp hoa kỳ": "law",

503 "luật pháp việt nam": "law",

504 "từ điển học": "lexicography",

505 "lgbt": "LGBT",

506 "nguồn ánh sáng": "light-sources",

507 "đại số tuyến tính": "linear-algebra",

508 "ngôn ngữ học": "linguistics",

509 "sản xuất": "manufacturing",

510 "chủ nghĩa marx": "Marxism",

511 "giải tích toán học": "mathematical-analysis",

512 "toán học": "mathematics",

513 "cơ học": "mechanics",

514 "thần thoại lưỡng hà": "Mesopotamian-mythology",

515 "luyện kim": "metallurgy",

516 "siêu hình học": "metaphysics",

517 "khí tượng học": "meteorology",

518 "đo lường học": "metrology",

519 "vi sinh vật học": "microbiology",

520 "quân sự": "military",

521 "tiền": "money",

522 "đua xe có động cơ": "motor-racing",

523 "âm nhạc": "music",

524 "nấm học": "mycology",

525 "giải phẫu thần kinh": "neuroanatomy",

526 "thần kinh học": "neurology",

527 "khoa học thần kinh": "neuroscience",

528 "họ cà": "nightshades",

529 "hóa tệ học": "numismatics",

530 "thần bí học": "occult",

531 "hải dương học": "oceanography",

532 "hệ điều hành": "operating-systems",

533 "quang học": "optics",

534 "họ lan": "Orchids",

535 "hóa hữu cơ": "organic-chemistry",

536 "điểu học": "ornithology",

537 "chính tả": "orthography",

538 "pagan giáo": "paganism",

539 "cổ sinh vật học": "paleontology",

540 "bệnh lí học": "pathology",

541 "thổ nhưỡng học": "pedology",

542 "hóa dầu": "petrochemistry",

543 "thạch luận": "petrology",

544 "dược lý học": "pharmacology",

545 "triết học": "philosophy",

546 "ngữ âm": "phonetics",

547 "âm vị học": "phonology",

548 "nhiếp ảnh": "photography",

549 "não tướng học": "physiognomy",

550 "sinh lí học": "physiology",

551 "bộ hồ tiêu": "piperales",

552 "khoa học hành tinh": "planetology",

553 "thơ": "poetry",

554 "khoa học chính trị": "political-science",

555 "chính trị úc": "politics",

556 "chính trị philippines": "politics",

557 "khiêu dâm": "pornography",

558 "tâm thần học": "psychiatry",

559 "tâm lý học": "psychology",

560 "vận tải đường sắt": "rail-transport",

561 "tài liệu tham khảo": "reference-works",

562 "giáo hội công giáo": "Roman-Catholicism",

563 "thần thoại la mã": "Roman-mythology",

564 "xoay tròn": "rotation",

565 "khoa học viễn tưởng": "science-fiction",

566 "khoa học": "sciences",

567 "chứng khoán": "securities",

568 "ngữ nghĩa học": "semantics",

569 "lí thuyết tập hợp": "set-theory",

570 "tình dục": "sex",

571 "tình dục học": "sexology",

572 "tính dục": "sexuality",

573 "ca hát": "singing",

574 "bóng đá": "soccer",

575 "khoa học xã hội": "social-sciences",

576 "chủ nghĩa xã hội": "socialism",

577 "phương tiện truyền thông mạng xã hội": "social-media",

578 "ngôn ngữ học xã hội": "sociolinguistics",

579 "phổ học": "spectroscopy",

580 "bơi lội": "swimming",

581 "hệ thống": "systems",

582 "lý thuyết hệ thống": "systems-theory",

583 "phân loại học": "taxonomy",

584 "công nghệ": "technology",

585 "quái thai học": "teratology",

586 "dệt may": "textiles",

587 "nhiệt động học": "thermodynamics",

588 "du lịch": "tourism",

589 "đông y": "traditional-Chinese-medicine",

590 "người chuyển giới": "transgender",

591 "giao thông": "transport",

592 "lượng giác": "trigonometry",

593 "hàm lượng giác": "trigonometric-function",

594 "đơn vị đo": "units-of-measure",

595 "rau": "vegetable",

596 "phương tiện giao thông": "vehicles",

597 "thú y": "veterinary-medicine",

598 "nén video": "video-compression",

599 "núi lửa học": "volcanology",

600 "thời tiết": "weather",

601 "môn thể thao mùa đông": "winter-sports",

602 "nhân vật kinh thánh": "biblical",

603 "chòm sao": "constellation",

604 "bệnh": "disease",

605 "acid béo": "fatty-acid",

606 "tu từ học": "figure-of-speech",

607 "vị thần hy lạp": "Greek-god",

608 "huy hiệu học": "heraldic-charge",

609 "thần thánh ấn độ": "Hindu-god",

610 "hợp chất vô cơ": "inorganic-compound",

611 "địa mạo": "landforms",

612 "khoáng vật": "mineralogy",

613 "điện thoại di động": "mobile-phones",

614 "nhạc cụ": "musical-instruments",

615 "hóa học hữu cơ": "organic-compound",

616 "thực vật": "plant",

617 "bộ xương": "skeleton",

618 "tàu chiến": "warships",

619 "nước": "water",

620}

621

622

623def translate_raw_tags(data: WordEntry) -> None:

624 raw_tags = []

625 for raw_tag in data.raw_tags:

626 found_tag = False

627 if raw_tag.lower() in TAGS and hasattr(data, "tags"):

628 found_tag = True

629 tr_tag = TAGS[raw_tag.lower()]

630 if isinstance(tr_tag, str):

631 data.tags.append(tr_tag)

632 elif isinstance(tr_tag, list): 632 ↛ 634line 632 didn't jump to line 634 because the condition on line 632 was always true

633 data.tags.extend(tr_tag)

634 if raw_tag.lower() in TOPICS and hasattr(data, "topics"):

635 found_tag = True

636 topic = TOPICS[raw_tag.lower()]

637 if isinstance(topic, str): 637 ↛ 639line 637 didn't jump to line 639 because the condition on line 637 was always true

638 data.topics.append(topic)

639 elif isinstance(topic, list):

640 data.topics.extend(topic)

641 if not found_tag:

642 raw_tags.append(raw_tag)

643 data.raw_tags = raw_tags

Coverage for src / wiktextract / extractor / vi / tags.py: 88%

32 statements