基本信息
源码名称:无监督神经机器翻译——UnsupervisedMT
源码大小:0.80M
文件格式:.rar
开发语言:Python
更新时间:2020-07-20
友情提示:(无需注册或充值,赞助后即可获取资源下载链接)
嘿,亲!知识可是无价之宝呢,但咱这精心整理的资料也耗费了不少心血呀。小小地破费一下,绝对物超所值哦!如有下载和支付问题,请联系我们QQ(微信同号):813200300
本次赞助数额为: 10 元×
微信扫码支付:10 元
×
请留下您的邮箱,我们将在2小时内将文件发到您的邮箱
源码介绍
本实例是基于Facebook开源的UMT模型编写的无监督神经网络翻译,可以用于不同语言的实时互译,本实例提供了英法数据集。对于中英的实时互译,这里暂不提供,需要用户自己建立相应的中文数据集。
无,见附件
该脚本命令会依次执行:
①下载Moses脚本,下载并编译fastBPE
②提取、标记BPE代码,并将BPE应用于单语语料库和平行语料库
③二值化所有数据集
④下载预训练模型
2.训练翻译模型
export NGPU=2; python -m torch.distributed.launch --nproc_per_node=$NGPU train.py --exp_name unsupMT_enfr --dump_path ./dumped/ --reload_model 'mlm_enfr_1024.pth,mlm_enfr_1024.pth' --data_path ./data/processed/en-fr/ --lgs 'en-fr' --ae_steps 'en,fr' --bt_steps 'en-fr-en,fr-en-fr' --word_shuffle 3 --word_dropout 0.1 --word_dropout 0.1 --word_blank 0.1 --lambda_ae '0:1,100000:0.1,300000:0' --encoder_only false --emb_dim 1024 --n_layers 6 --n_heads 8 --dropout 0.1 --attention_dropout 0.1 --gelu_activation true --tokens_per_batch 2000 --batch_size 16 --bptt 256 --optimizer adam_inverse_sqrt,beta1=0.9,beta2=0.98,lr=0.0001 --epoch_size 200000 --eval_bleu true --stopping_criterion 'valid_en-fr_mt_bleu,10' --validation_metrics 'valid_en-fr_mt_bleu'
本实例是基于Facebook开源的UMT模型编写的无监督神经网络翻译,可以用于不同语言的实时互译,本实例提供了英法数据集。对于中英的实时互译,这里暂不提供,需要用户自己建立相应的中文数据集。
无,见附件
【运行命令】
1.下载/预处理数据集
./get-data-nmt.sh --src en --tgt fr --reload_codes codes_enfr --reload_vocab vocab_enfr该脚本命令会依次执行:
①下载Moses脚本,下载并编译fastBPE
②提取、标记BPE代码,并将BPE应用于单语语料库和平行语料库
③二值化所有数据集
④下载预训练模型
2.训练翻译模型
export NGPU=2; python -m torch.distributed.launch --nproc_per_node=$NGPU train.py --exp_name unsupMT_enfr --dump_path ./dumped/ --reload_model 'mlm_enfr_1024.pth,mlm_enfr_1024.pth' --data_path ./data/processed/en-fr/ --lgs 'en-fr' --ae_steps 'en,fr' --bt_steps 'en-fr-en,fr-en-fr' --word_shuffle 3 --word_dropout 0.1 --word_dropout 0.1 --word_blank 0.1 --lambda_ae '0:1,100000:0.1,300000:0' --encoder_only false --emb_dim 1024 --n_layers 6 --n_heads 8 --dropout 0.1 --attention_dropout 0.1 --gelu_activation true --tokens_per_batch 2000 --batch_size 16 --bptt 256 --optimizer adam_inverse_sqrt,beta1=0.9,beta2=0.98,lr=0.0001 --epoch_size 200000 --eval_bleu true --stopping_criterion 'valid_en-fr_mt_bleu,10' --validation_metrics 'valid_en-fr_mt_bleu'