Coverage for src/wiktextract/extractor/cs/tags.py: 66%

1from .models import WordEntry

3# https://cs.wiktionary.org/wiki/Modul:Priznaky/seznam

4LABEL_TAGS = {

5 "v Americe": "US",

6 "argot": "slang",

7 "archaicky": "archaic",

8 "básnicky": "poetic",

9 "bavorský výraz": "Bavarian",

10 "biblický výraz": "Biblical",

11 "cirkusový slang": "slang",

12 "častěji": "often",

13 # "částečně": "partially",

14 "v Čechách": "Bohemia",

15 "dětsky": "childish",

16 "divadelní slang": "slang",

17 "dokonavé": "perfective",

18 # "domácky": "",

19 "dopravní slang": "slang",

20 "doslovně": "literary",

21 "drogový slang": "slang",

22 # "dříve": "formerly",

23 "eufemisticky": "euphemistic",

24 "expresivně": "expressively",

25 "familiárně": "familiar",

26 "formálně": "formally",

27 "hanlivě": "derogatory",

28 # "brněnský hantec": "",

29 "historicky": "historical",

30 "hornický slang": "slang",

31 "horolezecký slang": "slang",

32 "hovorově": "colloquially",

33 "muzikantský slang": "slang",

34 "hyperonymum": "hypernym",

35 "hyponymum": "hyponym",

36 "internetový slang": "slang",

37 "intranzitivní": "intransitive",

38 "ironicky": "ironic",

39 "karetní slang": "slang",

40 "knižně": "literary",

41 "kriminální slang": ["criminal-slang", "slang"],

42 "křesťanský slang": ["Christian", "slang"],

43 "latinsky": "Latin",

44 "slang mládeže": "slang",

45 "v plurálu": "plural",

46 "v moderním kontextu": "modern",

47 "na Moravě": "Moravia",

48 "motoristický slang": "slang",

49 "myslivecký slang": "slang",

50 "slang námořníků": "slang",

51 "nářečně": "dialectal",

52 "nedokonavé": "imperfect",

53 "neformálně": "informal",

54 "neologismus": "neologism",

55 "jen neosobní": "impersonal",

56 "nepočitatelné": "uncountable",

57 # "nepřesně": "",

58 "nesprávně": "incorrectly",

59 "neutrálně": "neutral",

60 # "nezvratné": "",

61 # "v obecném jazyce": "",

62 "oblastně": "regional",

63 "obrazně": "figuratively",

64 # "odborně": "",

65 # "okazionalismus": "",

66 "pejorativně": "pejorative",

67 "počitatelné": "countable",

68 "policejní slang": "slang",

69 "pomnožné": "multiplicative",

70 "poněkud zastarale": "outdated",

71 "pražský výraz": "Prague",

72 "přechýleně": "oblique",

73 "přeneseně": "figuratively",

74 # "přibližně": "",

75 "v Rakousku": "Austria",

76 "řemeslnický slang": "slang",

77 "v širším slova smyslu": "broadly",

78 "v užším slova smyslu": "narrowly",

79 "slangově": "slang",

80 "v současnosti": "present",

81 "současným pravopisem": "contemporary",

82 "spisovné skloňování": "literary",

83 "sportovní slang": "slang",

84 "starým pravopisem": "archaic",

85 "staročesky": "Old-Cezch",

86 "studentský slang": "slang",

87 "technický slang": "slang",

88 "televizní slang": "slang",

89 "trampský slang": "slang",

90 "tranzitivní": "transitive",

91 "vězeňský slang": "slang",

92 "vodácký slang": "slang",

93 "vojenský slang": "slang",

94 "vulgárně": "vulgar",

95 # "vznešeně": "noble",

96 # "xenofobní výraz": "",

97 "z angličtiny": "English",

98 "zastarale": "obsolete",

99 "zdravotnický slang": "slang",

100 "zdrobněle": "diminutive",

101 "zkráceně": "abbreviation",

102 "zkratkou": "abbreviation",

103 "zřídka": "rare",

104 "zveličele": "exaggerated",

105 "zvratné": "reflexive",

106 "železničářský slang": "slang",

107 "žertovně": "humorous",

108 "židovský slang": ["Jewish", "slang"],

109 "ambitranzitivní": "ambitransitive",

110}

111

112GENDER_TAGS = {

113 "mužský": "masculine",

114 "životný": "animate",

115 "neživotný": "inanimate",

116 "femininum (ženský rod)": "feminine",

117 "ženský": "feminine",

118 "ženský rod": "feminine",

119 "neutrum (střední rod)": "neuter",

120 "střední": "neuter",

121 "střední rod": "neuter",

122 "maskulinum (mužský rod)": "masculine",

123 "mužský rod": "masculine",

124 # "všechny rody": "",

125}

126

127TABLE_TAGS = {

128 # Šablona:Substantivum_(cs)

129 "jednotné": "singular",

130 "množné": "plural",

131 "nominativ": "nominative",

132 "genitiv": "genitive",

133 "dativ": "dative",

134 "akuzativ": "accusative",

135 "vokativ": "vocative",

136 "lokál": "locative",

137 "instrumentál": "instrumental",

138 # Šablona:Adjektivum_(cs)

139 "mužský\nživotný": ["masculine", "animate"],

140 "mužský\nneživotný": ["masculine", "inanimate"],

141 # Šablona:Stupňování_(cs)

142 "pozitiv": "positive",

143 "komparativ": "comparative",

144 "superlativ": "superlative",

145 # Šablona:Sloveso_(cs)

146 "Oznamovací způsob": "indicative",

147 "číslo jednotné": "singular",

148 "číslo množné": "plural",

149 "1.": "first-person",

150 "2.": "second-person",

151 "3.": "third-person",

152 "přítomný čas": "present",

153 "Rozkazovací způsob": "imperative",

154 "číslo\njednotné": "singular",

155 "Příčestí": "participle",

156 "mužský životný\ni neživotný": ["masculine", "animate", "inanimate"],

157 "mužský neživotný\na ženský": ["masculine", "animate", "feminine"],

158 "činné": "active",

159 "Přechodníky": "transgressive",

160 "ženský\nstřední": ["feminine", "neuter"],

161 "mužský\nženský\nstřední": ["masculine", "feminine", "neuter"],

162 "přítomný": "present",

163 # Šablona:Sloveso_(de)

164 "Indikativ": "indicative",

165 "aktivum": "active",

166 "singulár": "singular",

167 "plurál": "plural",

168 "prézens": "present",

169 "préteritum": "preterite",

170 "perfektum": ["present", "perfect"],

171 "plusquamperfektum": ["past", "perfect"],

172 "futurum 1": "future-i",

173 "futurum 2": "future-ii",

174 "konjunktiv I": "conjunctive-i",

175 "konjunktiv II": "conjunctive-ii",

176 "Imperativ": "imperative",

177 "Infinitiv": "infinitive",

178 "Příčestí činné (přítomné)": ["active", "participle", "present"],

179 "silná": "strong",

180 "slabá": "weak",

181 "smíšená": "mixed",

182 # Template:Adjektivum (nl) skloňování

183 "společný": "common",

184 "střední": "neuter",

185 # Template:Adjektivum (nl) stupňování

186 "neurčitý": "indefinite",

187 "určitý": "definite",

188 "Komparativ": "comparative",

189 "Superlativ": "superlative",

190 # Template:Sloveso (en)

191 "infinitiv": "infinitive",

192 "3. osoba": "third-person",

193 "vid průběhový": ["present", "progressive"],

194 # Template:Sloveso (fr)

195 "Číslo jednotné": "singular",

196 "Číslo množné": "plural",

197 "1. je (j')": "first-person",

198 "2. tu": "second-person",

199 "3. il / elle": "third-person",

200 "1. nous": "first-person",

201 "2. vous": "second-person",

202 "3. ils / elles": "third-person",

203 "Jednoduché\nčasy": "simple",

204 "Prézens": "present",

205 "Imperfektum": "imperfect",

206 "Passé simple": "past",

207 "Futurum I": "future-i",

208 "Složené\nčasy": "compound",

209 "Passé composé": ["past", "compound"],

210 "Plusquamperfektum": ["past", "perfect"],

211 "Passé antérieur": ["past", "anterior"],

212 "Futurum II": "future-ii",

213 "Spojovací způsob": "subjunctive",

214 "1. que je (j')": "first-person",

215 "2. que tu": "second-person",

216 "3. qu'il / elle": "third-person",

217 "1. que nous": "first-person",

218 "2. que vous": "second-person",

219 "3. qu'ils / elles": "third-person",

220 "Passé": "past",

221 "Podmiňovací způsob": "conditional",

222 "Číslo\n jednotné": "singular",

223 "Přechodník": "transgressive",

224 # Template:Sloveso (es)

225 "způsob oznamovací": "indicative",

226 "souminulý čas": "past",

227 "minulý čas dokonavý": ["past", "perfective"],

228 "budoucí čas": "future",

229 "podmiňovací": "conditional",

230 "způsob spojovací": "connective",

231 "souminulý čas (ra)": "past",

232 "souminulý čas (se)": "past",

233 "způsob rozkazovací": "imperative",

234 "kladný": "affirmative",

235 "záporný": "negative",

236 "neosobní tvary": "impersonal",

237 "gerundium": "gerund",

238 "příčestí": "participle",

239 "příčestí minulé": ["past", "participle"],

240 # Template:Sloveso (sv)

241 "pasivum": "passive",

242 "přítomnost": "present",

243 "supinum": "supine",

244 "rozkazovací zp.": "imperative",

245 "přítomné": "present",

246 "trpné": "passive",

247 "plurál/\nurč. tvar": "plural",

248}

249

250SOUND_TAGS = {

251 "Pinyin": "Pinyin",

252 "Bopomofo": "Bopomofo",

253 "bopomofo": "Bopomofo",

254 "hiragana": "hiragana",

255 "romaji": "Rōmaji",

256 "Jyutping": "Jyutping",

257}

258

259

260TAGS = {**LABEL_TAGS, **GENDER_TAGS, **TABLE_TAGS, **SOUND_TAGS}

261

262TOPICS = {

263 "v alchymii": "alchemy",

264 "v anatomii": "anatomy",

265 "v antropologii": "anthropology",

266 "v archeologii": "archaeology",

267 "v architektuře": "architecture",

268 "v astrologii": "astrology",

269 "v bankovnictví": "banking",

270 "v basketbalu": "basketball",

271 "v biochemii": "biochemistry",

272 "v biologii": "biology",

273 "v botanice": "botany",

274 "v buddhizmu": "Buddhism",

275 "církevní": "ecclesiastical",

276 "cirkusový slang": "circus",

277 "v cukrovarnictví": "sugar-making",

278 "v diplomacii": "diplomacy",

279 "v dopravě": "transport",

280 "dopravní slang": "transport",

281 "drogový slang": "drugs",

282 "v ekologii": "ecology",

283 "v ekonomii": "economics",

284 "v elektrotechnice": "electrical-engineering",

285 "v energetice": "energy",

286 "v entomologii": "entomology",

287 "v epidemiologii": "epidemiology",

288 # "v estetice": "",

289 "v etnografii": "ethnography",

290 "v lékárenství": "pharmacy",

291 "ve filmu": "film",

292 "ve filosofii": "philosophy",

293 "ve finančnictví": "finance",

294 "ve folklóru": "folklore",

295 "ve fotografii": "photography",

296 "ve fyzice": "physics",

297 "ve fyziologii": "physiology",

298 "v gastronomii": "gastronomy",

299 "v genetice": "genetics",

300 "v geodézii": "geodesy",

301 "v geologii": "geology",

302 "v geometrii": "geometry",

303 "v historii": "history",

304 "v ledním hokeji": "ice-hockey",

305 "v hornictví": "mining",

306 "hornický slang": "mining",

307 "horolezecký slang": "mountaineering",

308 "v hudbě": "music",

309 "muzikantský slang": "music",

310 "v hutnictví": "metallurgy",

311 # "chatovací zkratka": "",

312 "v chemii": "chemistry",

313 # "v chodském nářečí": "",

314 "v ichtyologii": "ichthyology",

315 "v informatice": "computer-science",

316 "internetový slang": "Internet",

317 "v islámu": "Islam",

318 "v jazykovědě": "linguistics",

319 "v jaderné fyzice": "nuclear-physics",

320 # "v kartářství": "",

321 "v karetních hrách": "card-games",

322 "karetní slang": "card-games",

323 "keramika": "ceramics",

324 "v knihovnictví": "librarianship",

325 "v komunikaci": "communications",

326 "v konspiračních teoriích": "conspiracy",

327 # "v koželužství": "",

328 "v krejčovství": "tailor",

329 "v křesťanství": "Christianity",

330 # "v kvalitářství": "",

331 # "v kybernetice": "",

332 "v lesnictví": "forestry",

333 "v letectví": "aviation",

334 "v lexikologii": "lexicology",

335 "v literatuře": "literature",

336 "v logice": "logic",

337 "v loďařství": "shipbuilding",

338 "v matematice": "mathematics",

339 "v lékařství": "medicine",

340 "v meteorologii": "meteorology",

341 "v mezinárodním právu": "law",

342 "v mineralogii": "mineralogy",

343 "v mykologii": "mycology",

344 "myslivecký slang": "hunting",

345 "v mytologii": "mythology",

346 "v náboženství": "religion",

347 "v obchodním styku": "business",

348 "v obuvnictví": "shoemaking",

349 "v optice": "optics",

350 "v pedagogice": "education",

351 "v pivovarnictví": "brewing",

352 "v plavbě": "sailing",

353 "v pojišťovnictví": "insurance",

354 "v politice": "politics",

355 "policejní slang": "police",

356 "v polygrafii": "printing",

357 "v poštovnictví": "mail",

358 "v potravinářství": "food",

359 "v právu": "law",

360 "v psychologii": "psychology",

361 "v publicistice": "journalism",

362 "v prostředí obchodu s nemovitostmi": "real-estate",

363 "v rybářství": "fishing",

364 "v římském právu": "law",

365 "sexualita": "sexuality",

366 "v sklářství": "glassmaking",

367 "v sociologii": "sociology",

368 "současným pravopisem": "orthography",

369 "ve sportu": "sports",

370 "sportovní slang": "sports",

371 "ve statistice": "statistics",

372 "ve stavebnictví": "construction",

373 "ve stylistice": "stylistics",

374 "v šermu": "fencing",

375 "v technice": "technology",

376 "technický slang": "technical",

377 "televizní slang": "television",

378 "v teologii": "theology",

379 "v textilnictví": "textiles",

380 "v truhlářství": "carpentry",

381 "v typografii": "typography",

382 "v umění": "arts",

383 "v urbanismu": "urbanism",

384 "ve včelařství": "beekeeping",

385 "ve veterinářství": ["veterinary", "medicine"],

386 "vězeňský slang": "prison",

387 "vodácký slang": "boating",

388 "v vodním stavitelství": ["hydraulics", "engineering"],

389 "ve vojenství": "military",

390 "vojenský slang": "military",

391 "ve výpočetní technice": "computer-sciences",

392 "ve vulkanologii": "volcanology",

393 "ve výtvarnictví": "arts",

394 "v zahradnictví": "horticulture",

395 "zdravotní": "health",

396 "zdravotnický slang": "medicine",

397 "v zemědělství": "agriculture",

398 "v geografii": "geography",

399 "v zoologii": "zoology",

400 "ve zvukařství": "sound-engineering",

401 "železničářský slang": "railways",

402 "žurnalisticky": "journalism",

403}

404

405

406def translate_raw_tags(data: WordEntry) -> None:

407 raw_tags = []

408 for raw_tag in data.raw_tags:

409 found_tag = False

410 if raw_tag in TAGS and hasattr(data, "tags"):

411 found_tag = True

412 tr_tag = TAGS[raw_tag]

413 if isinstance(tr_tag, str) and tr_tag not in data.tags:

414 data.tags.append(tr_tag)

415 elif isinstance(tr_tag, list): 415 ↛ 419line 415 didn't jump to line 419 because the condition on line 415 was always true

416 for tag in tr_tag:

417 if tag not in data.tags: 417 ↛ 416line 417 didn't jump to line 416 because the condition on line 417 was always true

418 data.tags.append(tag)

419 if raw_tag in TOPICS and hasattr(data, "topics"): 419 ↛ 420line 419 didn't jump to line 420 because the condition on line 419 was never true

420 found_tag = True

421 topic = TOPICS[raw_tag]

422 if isinstance(topic, str) and topic not in data.topics:

423 data.topics.append(topic)

424 elif isinstance(topic, list):

425 for t in topic:

426 if t not in data.topics:

427 data.topics.append(t)

428 if not found_tag:

429 raw_tags.append(raw_tag)

430 data.raw_tags = raw_tags

Coverage for src / wiktextract / extractor / cs / tags.py: 66%

32 statements