Coverage for src / wiktextract / extractor / vi / tags.py: 88%

32 statements  

« prev     ^ index     » next       coverage.py v7.12.0, created at 2025-12-05 07:46 +0000

1from .models import WordEntry 

2 

3# https://vi.wiktionary.org/wiki/Mô_đun:labels/data 

4LABEL_TAGS = { 

5 "viết tắt": "abbreviation", 

6 "trừu tượng": "abstract-noun", 

7 "acronym": "acronym", 

8 "ngoại động từ, nội động từ": "ambitransitive", 

9 "archaic": "archaic", 

10 "thuộc ngữ": "attributive", 

11 "attributively": "attributively", 

12 "trợ động từ": "auxiliary", 

13 "giống chung": "common", 

14 "đếm được": "countable", 

15 "ngoại động từ kép": "ditransitive", 

16 "khiển cách": "ergative", 

17 "nghĩa mở rộng": "broadly", 

18 "thành ngữ tính": "idiomatic", 

19 "ở dạng số nhiều": "plural", 

20 "viết tắt từ chữ đầu với cách đọc ghép âm": "initialism", 

21 "nội động từ": "intransitive", 

22 "không so sánh được": "not-comparable", 

23 "tượng thanh": "onomatopoeic", 

24 "chỉ có số nhiều": "plural-only", 

25 "tính từ quan hệ": "relational", 

26 "động từ tĩnh": "stative", 

27 "ngoại động từ": "transitive", 

28 "từ láy": "reduplication", 

29 "không đếm được": "uncountable", 

30 "cổ xưa": "archaic", 

31 "ngôn ngữ trẻ con": "childish", 

32 "vietnamese chữ Nôm": "Chữ-Nôm", 

33 "từ lóng có vần điệu của người Luân Đôn": ["Cockney", "slang"], 

34 "thông tục": "colloquial", 

35 "lỗi thời": "dated", 

36 "nghĩa xấu": "derogatory", 

37 "phương ngữ": "dialectal", 

38 "thuộc phương ngữ": "dialectal", 

39 "xúc phạm dân tộc": ["ethnic", "slang"], 

40 "uyển ngữ": "euphemistic", 

41 "thân mật": "familiar", 

42 "nghĩa bóng": "figuratively", 

43 "trang trọng": "formal", 

44 "từ lóng người đồng tính": "slang", 

45 "từ ngữ lịch sử": "historical", 

46 "kính ngữ": "honorific", 

47 "hài hước": "humorous", 

48 "không trang trọng": "informal", 

49 "từ lóng internet": ["Internet", "slang"], 

50 "trớ trêu": "ironic", 

51 "nghĩa đen": "literally", 

52 "ăn chương": "literary", 

53 "hoán dụ": "metonymically", 

54 "từ lóng quân sự": "slang", 

55 "từ mới": "neologism", 

56 "không còn phát sinh từ mới": "idiomatic", 

57 "từ tạo ra cho trường hợp cụ thể": "nonce-word", 

58 "không tiêu chuẩn": "nonstandard", 

59 "không còn dùng": "obsolete", 

60 "thuật ngữ không còn dùng": "obsolete", 

61 "xúc phạm": "offensive", 

62 "thơ ca": "poetic", 

63 "lịch sự": "polite", 

64 "hiếm": "rare", 

65 "từ lóng": "slang", 

66 "nhắn tin": "Internet", 

67 "không phổ biến": "uncommon", 

68 "thô tục": "vulgar", 

69 "anh": "UK", 

70 "biệt ngữ": "jargon", 

71 "cũ": "obsolete", 

72 "cổ": "archaic", 

73 "không dịch": "not-translated", 

74 "khẩu ngữ": "colloquial", 

75 "lóng": "slang", 

76 "mỉa mai": "ironic", 

77 "nghĩa rộng": "broadly", 

78 "số nhiều": "plural", 

79 "nói trại": "euphemistic", 

80 "tục tĩu": "vulgar", 

81 "ít dùng": "rare", 

82 "địa phương": "regional", 

83 "định ngữ": "attributive", 

84 "ấn độ": "India", 

85 "động từ và ngoại động từ": "ambitransitive", 

86 "châu mỹ": "US", 

87 "hoa kỳ": "US", 

88 "phát âm mỹ": "US", 

89 "hoạt hình": "animate", 

90 "phương ngữ mắt": "pronunciation-spelling", 

91 "hy lạp cổ đại": "Ancient-Greek", 

92 "la mã cổ đại": "Ancient-Rome", 

93 "luật pháp hoa kỳ": "US", 

94 "luật pháp việt nam": "Vietnam", 

95 "chính trị úc": "Australian", 

96 "chính trị philippines": "Philippine", 

97 "tu từ học": "rhetoric", 

98 # Template:zh-forms 

99 "phồn.": "Traditional-Chinese", 

100 "giản.": "Simplified-Chinese", 

101 "alternative forms": "alternative", 

102 "dated abbreviation": ["dated", "abbreviation"], 

103 "triều châu": "Teochew", 

104 "tiếng mân": "Min", 

105 # Template:ja-verb-suru 

106 # Module:Jpan-headword 

107 "ngoại hoặc nội động từ": ["transitive", "intransitive"], 

108 "suru": "suru", 

109 "stem": "stem", 

110 "past": "past", 

111 # Template:ko-noun 

112 "hanja": "hanja", 

113 "hangeul": "hangeul", 

114 # Template:ja-kanjitab 

115 "kyūjitai": "kyūjitai", 

116 # Template:sa-noun 

117 "thân từ": "stem", 

118 # Template:hi-noun 

119 "chính tả urdu": "Urdu", 

120} 

121 

122# https://vi.wiktionary.org/wiki/Mô_đun:gender_and_number/data 

123GENDER_NUMBER_TAGS = { 

124 "giống đực": "masculine", 

125 "giống cái": "feminine", 

126 "giống trung": "neuter", 

127 "giống chung": "common-gender", 

128 "gender-neutral": "neuter", 

129 "động vật": "animate", 

130 "bất động vật": "inanimate", 

131 "chỉ loài vật": "animal-not-person", 

132 "từ chỉ cá nhân": "person", 

133 "nonpersonal": "impersonal", 

134 "virile (= masculine personal)": "virile", 

135 "nonvirile (= other than masculine personal)": "nonvirile", 

136 "số ít": "singular", 

137 "số kép": "dual", 

138 "số nhiều": "plural", 

139 "thể chưa hoàn thành": "imperfective", 

140 "thể hoàn thành": "perfective", 

141 "không đổi": "invariable", 

142} 

143 

144LOCATIONS = { 

145 "hà nội": "Hà-Nội", 

146 "huế": "Huế", 

147 "sài gòn": "Saigon", 

148 "vinh": "Vinh", 

149 "thanh chương": "Thanh-Chương", 

150 "hà tĩnh": "Hà-Tĩnh", 

151} 

152 

153SOUND_TAGS = { 

154 "phát âm giọng anh chuẩn": "Received-Pronunciation", 

155 "anh mỹ thông dụng": "General-American", 

156 # Template:sa-ipa 

157 "vệ đà": "Vedic", 

158 "tiếng phạn cổ điển": "Classical-Sanskrit", 

159} 

160 

161ZH_X_TAGS = { 

162 "tiêu chuẩn hiện đại": "Standard-Chinese", 

163 "bính âm": "Pinyin", 

164 "cantonese": "Cantonese", 

165 "mandarin": "Mandarin", 

166} 

167 

168ZH_PRON_TAGS = { 

169 "quan thoại": "Mandarin", 

170 "tiêu chuẩn": "Standard", 

171 "bính âm hán ngữ": "Pinyin", 

172 "chú âm phù hiệu": "Bopomofo", 

173 "xi'an": "Xi'an", 

174 "guanzhong pinyin": ["Guanzhong", "Pinyin"], 

175 "đông can": "Dungan", 

176 "chữ kirin": "Cyrillic", 

177 "wiktionary": "Wiktionary", 

178 "quảng đông": "Guanzhong", 

179 "việt bính": "Jyutping", 

180 "khách gia": "Hakka", 

181 "sixian": "Sixian", 

182 "pfs": "Phak-fa-su", 

183 "mai huyện": "Meixian", 

184 "mân bắc": "Min-Bei", 

185 "kcr": "Kienning-Colloquial-Romanized", 

186 "mân đông": "Min-Dong", 

187 "buc": "Foochow-Romanized", 

188 "mân nam": "Min-Nan", 

189 "mân tuyền chương": "Hokkien", 

190 "poj": "POJ", 

191 "triều châu": "Teochew", 

192 "peng'im": "Peng'im", 

193 "hán ngữ tiêu chuẩn": "Standard-Chinese", 

194 "bính âm thông dụng": "Tongyong-Pinyin", 

195 "wade–giles": "Wade-Giles", 

196 "yale": "Yale", 

197 "quốc ngữ la mã tự": "Gwoyeu-Romatsyh", 

198 "palladius": "Palladius", 

199 "ipa hán học": "Sinological-IPA", 

200 "quảng đông tiêu chuẩn": "Standard-Cantonese", 

201 "quảng châu–hồng kông": ["Guangzhou", "Hong Kong"], 

202 "bính âm tiếng quảng đông": ["Cantonese", "Pinyin"], 

203 "latinh hóa tiếng quảng đông": "Guangdong-Romanization", 

204 "miền bắc sixian": ["Northern", "Sixian"], 

205 "miêu lật": "Miaoli", 

206 "pha̍k-fa-sṳ": "Phak-fa-su", 

207 "hệ thống la mã hóa tiếng khách gia": "Hakka-Romanization-System", 

208 "bính âm tiếng khách gia": "Hagfa-Pinyim", 

209 "miền nam sixian": ["Southern", "Sixian"], 

210 "mỹ nùng": "Neipu", 

211 "kiến âu": "Jian'ou", 

212 "la mã hóa phương ngữ kiến ninh": "Kienning-Colloquial-Romanized", 

213 "phúc châu": "Fuzhou", 

214 "bàng-uâ-cê": "Foochow-Romanized", 

215 "hạ môn": "Xiamen", 

216 "chương châu": "Zhangzhou", 

217 "cao hùng": "Kaohsiung", 

218 "phiên âm bạch thoại": "POJ", 

219 "tâi-lô": "Tai-lo", 

220 "phofsit daibuun": "Phofsit-Daibuun", 

221 "jinjiang": "Jinjiang", 

222 "philippines": "Philippines", 

223 "tuyền châu": "Quanzhou", 

224 "đài bắc": "Taipei", 

225 "phiên âm bạch thoại-like": "POJ", 

226 "phonetic": "Phonetic", 

227 "ipa": "IPA", 

228 "ngô": "Wu", 

229 "northern": "Northern", 

230 "shanghai": "Shanghai", 

231} 

232 

233ZH_DIAL_TAGS = { 

234 "chính thức": "formal", 

235 "bạch thoại": "Written-vernacular-Chinese", 

236 "quan thoại giao-liêu": "Jiaoliao-Mandarin", 

237 "yên đài": "Yantai", 

238 "mưu bình": "Muping", 

239 "quan thoại trung nguyên": "Central-Plains-Mandarin", 

240 "lạc dươn": "Luoyang", 

241 "vạn vinh": "Wanrong", 

242 "tây ninh": "Xining", 

243 "quan thoại lan-ngân": "Lanyin-Mandarin", 

244 "ngân xuyên": "Yinchuan", 

245 "quan thoại tây nam": "Southwestern-Mandarin", 

246 "liễu châu": "Liuzhou", 

247 "quan thoại giang hoài": "Jianghuai-Mandarin", 

248 "nam kinh": "Nanjing", 

249 "dương châu": "Yangzhou", 

250 "quảng châu": "Guangzhou", 

251 "đông hoản": "Dongguan", 

252 "huy châu": "Huizhou", 

253 "tích khê": "Jixi", 

254 "tấn": "Jin", 

255 "thái nguyên": "Taiyuan", 

256 "đài nam": "Tainan", 

257 "lôi châu": "Leizhou", 

258 "mân phủ tiên": "Puxian-Min", 

259 "bình nam": "Southern-Pinghua", 

260 "nam ninh": "Nanning", 

261 "đình tử": "Tingzi", 

262 "thượng hải": "Shanghai", 

263 "tô châu": "Suzhou", 

264 "đan dương": "Danyang", 

265 "hàng châu": "Hangzhou", 

266 "ninh ba": "Ningbo", 

267 "ôn châu": "Wenzhou", 

268 "kim hoa": "Jinhua", 

269 "tương": "Xiang", 

270 "trường sa": "Changsha", 

271 "quan thoại đông bắc": "Northeastern-Mandarin", 

272 "quan thoại ký-lỗ": "Jilu-Mandarin", 

273 "cám": "Cantonese", 

274 "mân trung sơn": "Zhongshan-Min", 

275 "trung sơn": "Zhongshan", 

276 "long đô": "Longdu", 

277 "sa khê": "Shaxi", 

278} 

279 

280TH_PRON_TAGS = { 

281 "chính tả": "orthographic", 

282 "âm vị": "phoneme", 

283 "chính tả/âm vị": ["orthographic", "phonemic"], 

284 "chuyển tự": "romanization", 

285 "paiboon": "Paiboon", 

286 "viện hoàng gia": "Royal-Institute", 

287} 

288 

289 

290TAGS = { 

291 **LABEL_TAGS, 

292 **GENDER_NUMBER_TAGS, 

293 **LOCATIONS, 

294 **SOUND_TAGS, 

295 **ZH_X_TAGS, 

296 **ZH_PRON_TAGS, 

297 **ZH_DIAL_TAGS, 

298 **TH_PRON_TAGS, 

299} 

300 

301# https://vi.wiktionary.org/wiki/Mô_đun:labels/data/topical 

302TOPICS = { 

303 "địa chấn học": "seismology", 

304 "thực vật học": "botany", 

305 "hóa học": "chemistry", 

306 "từ lóng người đồng tính": "LGBT", 

307 "từ lóng quân sự": "military", 

308 "bóng chày": "baseball", 

309 "bóng rổ": "basketball", 

310 "băng cầu": "ice-hockey", 

311 "bắn cung": "archery", 

312 "chính trị": "politics", 

313 "cơ khí": "mechanical", 

314 "cử tạ": "weightlifting", 

315 "dược học": "pharmaceuticals", 

316 "giải phẫu học": "anatomy", 

317 "hàng hải": "shipping", 

318 "hàng không": "aviation", 

319 "in ấn": "printing", 

320 "khoa đo lường": "metrology", 

321 "khoáng vật học": "mineralogy", 

322 "khúc côn cầu": "hockey", 

323 "khảo cổ học": "archeology", 

324 "kinh doanh": "business", 

325 "kinh tế học": "economics", 

326 "kiến trúc": "architecture", 

327 "kiểu cách": "manner", 

328 "kế toán": "accounting", 

329 "kỹ thuật": "technology", 

330 "luật pháp": "law", 

331 "lâm nghiệp": "forestry", 

332 "lôgic": "logic", 

333 "lập trình": "programming", 

334 "nghệ thuật": "arts", 

335 "ngoại giao": "diplomacy", 

336 "ngành mỏ": "mining", 

337 "nhân khẩu học": "demographics", 

338 "nhãn khoa": "ophthalmology", 

339 "nấu nướng": "cooking", 

340 "sinh thái học": "ecology", 

341 "sinh vật học": "biology", 

342 "sân khấu": "theater", 

343 "săn bắn": "hunting", 

344 "thương nghiệp": "commerce", 

345 "thần học": "theology", 

346 "thần thoại": "mythology", 

347 "thể dục": "exercise", 

348 "thể thao": "sports", 

349 "tin học": "computer-sciences", 

350 "tài chính": "finance", 

351 "tôn giáo": "religion", 

352 "văn học": "literature", 

353 "vật lý học": "physics", 

354 "xã hội học": "sociology", 

355 "y học": "medicine", 

356 "đạo giáo": "Taoism", 

357 "điện học": "electricity", 

358 "điện tử học": "electronics", 

359 "điện ảnh": "film", 

360 "đánh bài": "gambling", 

361 "đường sắt": "railways", 

362 "đại số": "algebra", 

363 "động vật học": "zoology", 

364 "nông nghiệp": "agriculture", 

365 "phi cơ": "airplane", 

366 "đại số học": "algebra", 

367 "bóng đá mỹ": "American-football", 

368 "lưỡng cư": "amphibian", 

369 "bài tập": "exercise", 

370 "đấu kiếm": "fencing", 

371 "âm học": "acoustics", 

372 "diễn xuất": "acting", 

373 "quảng cáo": "advertising", 

374 "hàng không học": "aeronautics", 

375 "hàng không vũ trụ": "aerospace", 

376 "tình cảm": "affection", 

377 "khí cụ bay": "aircraft", 

378 "giả kim thuật": "alchemy", 

379 "thức uống có cồn": ["alcohol", "beverages"], 

380 "lạm dụng rượu bia": "alcoholism", 

381 "hình học đại số": "algebraic-geometry", 

382 "tô pô đại số": "algebraic-topology", 

383 "y học thay thế": "alternative-medicine", 

384 "phát thanh nghiệp dư": "radio", 

385 "bóng bầu dục Mỹ": ["US", "football"], 

386 "hình học giải tích": "geometry", 

387 "hóa phân tích": "chemistry", 

388 "chủ nghĩa vô trị": "anarchism", 

389 "anh giáo": "Anglicanism", 

390 "nhân loại học": "anthropology", 

391 "toán học ứng dụng": "applied-mathematics", 

392 "số học": "arithmetic", 

393 "trí tuệ nhân tạo": "artificial-intelligence", 

394 "chiêm tinh học": "astrology", 

395 "thiên văn học": "astronomy", 

396 "vật lý thiên văn": "astrophysics", 

397 "điền kinh": "athletics", 

398 "ô tô": "automotive", 

399 "trò chơi với bóng": "ball-games", 

400 "ngân hàng": "banking", 

401 "bdsm": "BDSM", 

402 "kinh thánh": "biblical", 

403 "hóa sinh": "biochemistry", 

404 "sinh học": "biology", 

405 "trò chơi với bàn cờ": "board-games", 

406 "quyền anh": "boxing", 

407 "phát sóng": "broadcasting", 

408 "rêu học": "bryology", 

409 "phật giáo": "Buddhism", 

410 "vi tích phân": "calculus", 

411 "họ lạc đà": "camelids", 

412 "trò chơi bài": "card-games", 

413 "bệnh học tim": "cardiology", 

414 "công giáo": "Catholicism", 

415 "kỹ thuật hóa học": "chemical-engineering", 

416 "cờ vua": "chess", 

417 "thần thoại trung hoa": "Chinese-philosophy", 

418 "kitô giáo": "Christianity", 

419 "trang phục": "clothing", 

420 "truyện tranh": "comics", 

421 "giao tiếp": "communications", 

422 "chủ nghĩa cộng sản": "communism", 

423 "giải tích phức": "complex-analysis", 

424 "đồ hoạ máy tính": "computer-graphics", 

425 "phần cứng": "computer-hardware", 

426 "khoa học máy tính": "computer-sciences", 

427 "bảo mật máy tính": "computer-security", 

428 "máy tính": "computing", 

429 "nho giáo": "Confucianism", 

430 "nấu ăn": "cooking", 

431 "phân thứ bộ cua": "crabs", 

432 "tội phạm": "crime", 

433 "phân ngành giáp xác": "Crustaceans", 

434 "điều khiển học": "cybernetics", 

435 "đạp xe": "cycling", 

436 "sinh học tế bào": "cytology", 

437 "chế phẩm sữa": "dairy-products", 

438 "nha khoa": "dentistry", 

439 "món tráng miệng": "desserts", 

440 "chó": "dogs", 

441 "giáo dục": "education", 

442 "thần thoại ai cập": "Egyptian-mythology", 

443 "ai cập học": "Egyptology", 

444 "kỹ thuật điện": "electrical-engineering", 

445 "điện": "electricity", 

446 "điện từ học": "electromagnetism", 

447 "kĩ thuật": "engineering", 

448 "tri thức luận": "epistemology", 

449 "văn học khiêu dâm": "erotic-literature", 

450 "thuyết tiến hoá": "evolutionary-theory", 

451 "kì ảo": "fantasy", 

452 "hư cấu": "fiction", 

453 "phim": "film", 

454 "súng cầm tay": "firearms", 

455 "hoa": "flowery", 

456 "cơ học chất lưu": "fluid-dynamics", 

457 "văn hóa dân gian": "folklore", 

458 "hàm toán học": "functions", 

459 "giải tích hàm": "functional-analysis", 

460 "đồ nội thất": "furniture", 

461 "trò chơi": "games", 

462 "di truyền học": "genetics", 

463 "địa lí học": "geography", 

464 "địa chất học": "geology", 

465 "hình học": "geometry", 

466 "địa mạo học": "geomorphology", 

467 "chính phủ": "government", 

468 "ngữ pháp": "grammar", 

469 "giao diện đồ họa người dùng": "graphical-user-interface", 

470 "thần thoại hy lạp": "Greek-mythology", 

471 "thể dục dụng cụ": "gymnastics", 

472 "huyết học": "hematology", 

473 "ấn độ giáo": "Hinduism", 

474 "lịch sử thời đại": "history", 

475 "lịch sử": "history", 

476 "vi lượng đồng căn": "homeopathy", 

477 "họ người": "hominids", 

478 "làm vườn": "horticulture", 

479 "săn": "hunting", 

480 "thủy văn học": "hydrology", 

481 "khúc côn cầu trên băng": "ice-hockey", 

482 "ngư học": "ichthyology", 

483 "ý thức hệ": "ideology", 

484 "miễn dịch học": "immunology", 

485 "luật quốc tế": "law", 

486 "quan hệ quốc tế": "international-relations", 

487 "hồi giáo": "Islam", 

488 "kỳ na giáo": "Jainism", 

489 "tác phẩm giả tưởng nhật bản": "Japanese-fiction", 

490 "do thái giáo": "Judaism", 

491 "luật pháp hoa kỳ": "law", 

492 "luật pháp việt nam": "law", 

493 "từ điển học": "lexicography", 

494 "lgbt": "LGBT", 

495 "nguồn ánh sáng": "light-sources", 

496 "đại số tuyến tính": "linear-algebra", 

497 "ngôn ngữ học": "linguistics", 

498 "sản xuất": "manufacturing", 

499 "chủ nghĩa marx": "Marxism", 

500 "giải tích toán học": "mathematical-analysis", 

501 "toán học": "mathematics", 

502 "cơ học": "mechanics", 

503 "thần thoại lưỡng hà": "Mesopotamian-mythology", 

504 "luyện kim": "metallurgy", 

505 "siêu hình học": "metaphysics", 

506 "khí tượng học": "meteorology", 

507 "đo lường học": "metrology", 

508 "vi sinh vật học": "microbiology", 

509 "quân sự": "military", 

510 "tiền": "money", 

511 "đua xe có động cơ": "motor-racing", 

512 "âm nhạc": "music", 

513 "nấm học": "mycology", 

514 "giải phẫu thần kinh": "neuroanatomy", 

515 "thần kinh học": "neurology", 

516 "khoa học thần kinh": "neuroscience", 

517 "họ cà": "nightshades", 

518 "hóa tệ học": "numismatics", 

519 "thần bí học": "occult", 

520 "hải dương học": "oceanography", 

521 "hệ điều hành": "operating-systems", 

522 "quang học": "optics", 

523 "họ lan": "Orchids", 

524 "hóa hữu cơ": "organic-chemistry", 

525 "điểu học": "ornithology", 

526 "chính tả": "orthography", 

527 "pagan giáo": "paganism", 

528 "cổ sinh vật học": "paleontology", 

529 "bệnh lí học": "pathology", 

530 "thổ nhưỡng học": "pedology", 

531 "hóa dầu": "petrochemistry", 

532 "thạch luận": "petrology", 

533 "dược lý học": "pharmacology", 

534 "triết học": "philosophy", 

535 "ngữ âm": "phonetics", 

536 "âm vị học": "phonology", 

537 "nhiếp ảnh": "photography", 

538 "não tướng học": "physiognomy", 

539 "sinh lí học": "physiology", 

540 "bộ hồ tiêu": "piperales", 

541 "khoa học hành tinh": "planetology", 

542 "thơ": "poetry", 

543 "khoa học chính trị": "political-science", 

544 "chính trị úc": "politics", 

545 "chính trị philippines": "politics", 

546 "khiêu dâm": "pornography", 

547 "tâm thần học": "psychiatry", 

548 "tâm lý học": "psychology", 

549 "vận tải đường sắt": "rail-transport", 

550 "tài liệu tham khảo": "reference-works", 

551 "giáo hội công giáo": "Roman-Catholicism", 

552 "thần thoại la mã": "Roman-mythology", 

553 "xoay tròn": "rotation", 

554 "khoa học viễn tưởng": "science-fiction", 

555 "khoa học": "sciences", 

556 "chứng khoán": "securities", 

557 "ngữ nghĩa học": "semantics", 

558 "lí thuyết tập hợp": "set-theory", 

559 "tình dục": "sex", 

560 "tình dục học": "sexology", 

561 "tính dục": "sexuality", 

562 "ca hát": "singing", 

563 "bóng đá": "soccer", 

564 "khoa học xã hội": "social-sciences", 

565 "chủ nghĩa xã hội": "socialism", 

566 "phương tiện truyền thông mạng xã hội": "social-media", 

567 "ngôn ngữ học xã hội": "sociolinguistics", 

568 "phổ học": "spectroscopy", 

569 "bơi lội": "swimming", 

570 "hệ thống": "systems", 

571 "lý thuyết hệ thống": "systems-theory", 

572 "phân loại học": "taxonomy", 

573 "công nghệ": "technology", 

574 "quái thai học": "teratology", 

575 "dệt may": "textiles", 

576 "nhiệt động học": "thermodynamics", 

577 "du lịch": "tourism", 

578 "đông y": "traditional-Chinese-medicine", 

579 "người chuyển giới": "transgender", 

580 "giao thông": "transport", 

581 "lượng giác": "trigonometry", 

582 "hàm lượng giác": "trigonometric-function", 

583 "đơn vị đo": "units-of-measure", 

584 "rau": "vegetable", 

585 "phương tiện giao thông": "vehicles", 

586 "thú y": "veterinary-medicine", 

587 "nén video": "video-compression", 

588 "núi lửa học": "volcanology", 

589 "thời tiết": "weather", 

590 "môn thể thao mùa đông": "winter-sports", 

591 "nhân vật kinh thánh": "biblical", 

592 "chòm sao": "constellation", 

593 "bệnh": "disease", 

594 "acid béo": "fatty-acid", 

595 "tu từ học": "figure-of-speech", 

596 "vị thần hy lạp": "Greek-god", 

597 "huy hiệu học": "heraldic-charge", 

598 "thần thánh ấn độ": "Hindu-god", 

599 "hợp chất vô cơ": "inorganic-compound", 

600 "địa mạo": "landforms", 

601 "khoáng vật": "mineralogy", 

602 "điện thoại di động": "mobile-phones", 

603 "nhạc cụ": "musical-instruments", 

604 "hóa học hữu cơ": "organic-compound", 

605 "thực vật": "plant", 

606 "bộ xương": "skeleton", 

607 "tàu chiến": "warships", 

608 "nước": "water", 

609} 

610 

611 

612def translate_raw_tags(data: WordEntry) -> None: 

613 raw_tags = [] 

614 for raw_tag in data.raw_tags: 

615 found_tag = False 

616 if raw_tag.lower() in TAGS and hasattr(data, "tags"): 

617 found_tag = True 

618 tr_tag = TAGS[raw_tag.lower()] 

619 if isinstance(tr_tag, str): 

620 data.tags.append(tr_tag) 

621 elif isinstance(tr_tag, list): 621 ↛ 623line 621 didn't jump to line 623 because the condition on line 621 was always true

622 data.tags.extend(tr_tag) 

623 if raw_tag.lower() in TOPICS and hasattr(data, "topics"): 

624 found_tag = True 

625 topic = TOPICS[raw_tag.lower()] 

626 if isinstance(topic, str): 626 ↛ 628line 626 didn't jump to line 628 because the condition on line 626 was always true

627 data.topics.append(topic) 

628 elif isinstance(topic, list): 

629 data.topics.extend(topic) 

630 if not found_tag: 

631 raw_tags.append(raw_tag) 

632 data.raw_tags = raw_tags