100000-Groups-Chinese-Uighur-Parallel-Corpus-Data

Description

100,000 sets of Chinese and Uighur language parallel translation corpus, data storage format is txt document, data fluency and loyalty is above 80%. Data cleaning, desensitization and quality inspection have been carried out, which can be used as a basic corpus for text data analysis and in fields such as machine translation. For more details, please refer to the link: https://www.nexdata.ai/datasets/nlu/149?source=Github

Specifications

Storage format

TXT

Data content

Chinese-Uighur Parallel Corpus Data

Data size

0.1 million pairs of Chinese-Uighur Parallel Corpus Data

Language

Chinese, Uighur

Application scenario

machine translation

Licensing Information

Commercial License

Provide feedback

Saved searches

Use saved searches to filter your results more quickly

README.md

README.md

100000-Groups-Chinese-Uighur-Parallel-Corpus-Data

Description

Specifications

Storage format

Data content

Data size

Language

Application scenario

Licensing Information

Files

README.md

Latest commit

History

README.md

File metadata and controls

100000-Groups-Chinese-Uighur-Parallel-Corpus-Data

Description

Specifications

Storage format

Data content

Data size

Language

Application scenario

Licensing Information