Skip to content

just-ai/multilingual-text-parser

Repository files navigation

multilingual-text-parser

Multilingual frontend for TTS systems

Features Landuages
sentence splitting and tokenization RU and other
normalization RU, EN
morphological RU and other
syntax features RU and other
stress RU
homograph ambiguity resolution RU, EN
phonemization RU, EN and other
SSML support RU, EN

Examples:

utterance_ru = """
Сфера услуг традиционно занимала незначительное место в российской экономике (включая советский период), однако с 1990-х годов началось её интенсивное развитие.
К 2015 г. доля сферы услуг в ВВП составила 59,7%, она обеспечивала занятость более половины (63%) трудоспособного населения
"""

tp = TextParser(lang="RU", device="cpu")
doc = tp.process(Doc(utterance))

print(doc.capitalize)
# Сфера услуг традиционно занимала незначительное место в российской экономике (включая советский период), однако с тысяча девятьсот девяностых годов началось её интенсивное развитие.
# К две тысячи пятнадцатому году доля сферы услуг в Вэвэпэ составила пятьдесят девять целых и семь десятых процента, она обеспечивала занятость более половины (шестьдесят три процента) трудоспособного населения.

print(doc.stress)
# сфе+ра услу+г традицио+нно занима+ла незначи+тельное ме+сто в росси+йской эконо+мике (включа+я сове+тский пери+од), одна+ко с ты+сяча девятьсо+т девяно+стых годо+в начало+сь её+ интенси+вное разви+тие.
# к две+ ты+сячи пятна+дцатому го+ду до+ля сфе+ры услу+г в вэвэпэ+ соста+вила пятьдеся+т де+вять це+лых и се+мь деся+тых проце+нта, она+ обеспе+чивала за+нятость бо+лее полови+ны (шезьдэся+т три+ проце+нта) трудоспосо+бнова населе+ния.

for sent in doc.sents:
    print(f"'{sent.capitalize}'")
    for tk in sent.tokens:
        print(
            f"\t'{tk.text}' -> "
            f"{tk.text_orig}|{tk.stress}|{tk.pos}|{tk.rel}|"
            f"{tk.is_capitalize}|{tk.is_punctuation}|{tk.is_abbreviation}|"
            f"{tk.phonemes}"
        )

# 'Сфера услуг традиционно занимала незначительное место в российской экономике (включая советский период), однако с тысяча девятьсот девяностых годов началось её интенсивное развитие.'
# 	'сфера' -> Сфера|['сфе+ра']|NOUN|nsubj|True|False|False|('S', 'F0', 'E0', 'R', 'A')
# 	'услуг' -> услуг|['услу+г']|NOUN|nmod|False|False|False|('U', 'S', 'L', 'U0', 'K')
# 	'традиционно' -> традиционно|['традицио+нно']|ADV|advmod|False|False|False|('T', 'R', 'A', 'D0', 'I', 'TS', 'Y', 'O0', 'N', 'A')
# 	'занимала' -> занимала|['занима+ла']|VERB|root|False|False|False|('Z', 'A', 'N0', 'I', 'M', 'A0', 'L', 'A')
# 	'незначительное' -> незначительное|['незначи+тельное']|ADJ|amod|False|False|False|('N0', 'I', 'Z', 'N', 'A', 'TSH0', 'I0', 'T0', 'I', 'L0', 'N', 'A', 'J0', 'I')
# 	'место' -> место|['ме+сто']|NOUN|obj|False|False|False|('M0', 'E0', 'S', 'T', 'A')
# 	'в' -> в|['в']|ADP|case|False|False|False|('F',)
# 	'российской' -> российской|['росси+йской']|ADJ|amod|False|False|False|('R', 'A', 'S0', 'I0', 'J0', 'S', 'K', 'A', 'J0')
# 	'экономике' -> экономике|['эконо+мике']|NOUN|nmod|False|False|False|('Y', 'K', 'A', 'N', 'O0', 'M0', 'I', 'K0', 'I')
# 	'(' -> (|None|PUNCT|None|False|True|False|None
# 	'включая' -> включая|['включа+я']|ADV|parataxis|False|False|False|('F', 'K', 'L0', 'U', 'TSH0', 'A0', 'J0', 'A')
# 	'советский' -> советский|['сове+тский']|ADJ|amod|False|False|False|('S', 'A', 'V0', 'E0', 'TS', 'K0', 'I', 'J0')
# 	'период' -> период|['пери+од']|NOUN|obj|False|False|False|('P0', 'I', 'R0', 'I0', 'A', 'T')
# 	')' -> )|None|PUNCT|None|False|True|False|None
# 	',' -> ,|None|PUNCT|None|False|True|False|None
# 	'однако' -> однако|['одна+ко']|ADV|advmod|False|False|False|('A', 'D', 'N', 'A0', 'K', 'A')
# 	'с' -> с|['с']|ADP|case|False|False|False|('S',)
# 	'тысяча' -> |['ты+сяча']|ADJ|amod|False|False|False|('T', 'Y0', 'S0', 'I', 'TSH0', 'A')
# 	'девятьсот' -> |['девятьсо+т']|ADJ|amod|False|False|False|('D0', 'I', 'V0', 'I', 'T0', 'S', 'O0', 'D')
# 	'девяностых' -> |['девяно+стых']|ADJ|amod|False|False|False|('D0', 'I', 'V0', 'I', 'N', 'O0', 'S', 'T', 'Y', 'GH')
# 	'годов' -> годов|['годо+в']|NOUN|obl|False|False|False|('G', 'A', 'D', 'O0', 'F')
# 	'началось' -> началось|['начало+сь']|VERB|root|False|False|False|('N', 'A', 'TSH0', 'I', 'L', 'O0', 'S0')
# 	'её' -> её|['её+']|PRON|det|False|False|False|('J0', 'I', 'J0', 'O0')
# 	'интенсивное' -> интенсивное|['интенси+вное']|ADJ|amod|False|False|False|('I', 'N0', 'T0', 'I', 'N0', 'S0', 'I0', 'V', 'N', 'A', 'J0', 'I')
# 	'развитие' -> развитие|['разви+тие']|NOUN|nsubj|False|False|False|('R', 'A', 'Z', 'V0', 'I0', 'T0', 'I', 'J0', 'I')
# 	'.' -> .|None|PUNCT|None|False|True|False|None

About

No description, website, or topics provided.

Resources

License

Stars

Watchers

Forks

Releases

No releases published

Packages

No packages published

Languages