无监督神经机器翻译——UnsupervisedMT

基本信息

源码名称：无监督神经机器翻译——UnsupervisedMT

源码大小：0.80M

文件格式：.rar

开发语言：Python

更新时间：2020-07-20

友情提示：（无需注册或充值，赞助后即可获取资源下载链接）

嘿，亲！知识可是无价之宝呢，但咱这精心整理的资料也耗费了不少心血呀。小小地破费一下，绝对物超所值哦！如有下载和支付问题，请联系我们QQ(微信同号)：813200300

本次赞助数额为： 10 元　

源码介绍

本实例是基于Facebook开源的UMT模型编写的无监督神经网络翻译，可以用于不同语言的实时互译，本实例提供了英法数据集。对于中英的实时互译，这里暂不提供，需要用户自己建立相应的中文数据集。
无，见附件

【运行命令】

1.下载/预处理数据集

./get-data-nmt.sh --src en --tgt fr --reload_codes codes_enfr --reload_vocab vocab_enfr

该脚本命令会依次执行：
①下载Moses脚本，下载并编译fastBPE
②提取、标记BPE代码，并将BPE应用于单语语料库和平行语料库
③二值化所有数据集
④下载预训练模型

2.训练翻译模型
export NGPU=2; python -m torch.distributed.launch --nproc_per_node=$NGPU train.py --exp_name unsupMT_enfr --dump_path ./dumped/ --reload_model 'mlm_enfr_1024.pth,mlm_enfr_1024.pth' --data_path ./data/processed/en-fr/ --lgs 'en-fr' --ae_steps 'en,fr' --bt_steps 'en-fr-en,fr-en-fr' --word_shuffle 3 --word_dropout 0.1 --word_dropout 0.1 --word_blank 0.1 --lambda_ae '0:1,100000:0.1,300000:0' --encoder_only false --emb_dim 1024 --n_layers 6 --n_heads 8 --dropout 0.1 --attention_dropout 0.1 --gelu_activation true --tokens_per_batch 2000 --batch_size 16 --bptt 256 --optimizer adam_inverse_sqrt,beta1=0.9,beta2=0.98,lr=0.0001 --epoch_size 200000 --eval_bleu true --stopping_criterion 'valid_en-fr_mt_bleu,10' --validation_metrics 'valid_en-fr_mt_bleu'