面向神经机器翻译的篇章级单语修正模型
在指代、词汇选择和名词形态省略问题中,DocRepair具有明显优势,而在动词省略问题中,DocRepair模型对比CADec低了5百分点。可能的原因是DocRepair模型仅仅依赖于目标端单语,而采用round-trip方式构造的训练集中很少包含动词缺失的样本,使得模型很难做出正确预测。 为了验证单语数据的局限性,作者在DocRepair模型上进行了不同数据构造方式的对比实验,结果如表4。one-way表示拿双语数据中的源语替换round-trip的第一步反向过程。可以看出,one-way的方式要整体高于round-trip方式,而其中对于round-trip方式最难的问题就是动词省略。 4、总结这篇工作提出了完全基于目标端单语的DocRepair模型,用来修正机器翻译结果,解决篇章级不一致性。同时对DcoRepair在具体篇章级问题中的性能进行了分析,指出了仅仅依赖于单语数据和round-trip的构造方式的局限性。 以往的工作大多关注于在解码过程中如何融合上下文信息,但是性能往往受限于篇章级双语数据的稀缺。这篇工作为我们提供了一个新思路,可以避免双语数据稀缺的问题,但是也引出了一个新的问题。篇章级翻译的目标是解决传统句子级翻译中丢失句子间上下文信息的问题,而在这种后编辑的方法中,仅仅使用了目标端的一组没有上下文一致性的翻译结果就可以通过单语修正模型获得一致性的结果,缺乏对源语的关注。笔者认为,在双语稀缺的情况下,如何更好的引入源语上下文信息也是一个有趣的问题。 参考文献 [1] Voita, Elena, Rico Sennrich, and Ivan Titov. "Context-Aware Monolingual Repair for Neural Machine Translation." arXiv preprint arXiv:1909.01383 (2019). [2] Vaswani, Ashish, et al. "Attention is all you need." Advances in neural information processing systems. 2017. [3] Hassan, Hany, et al. "Achieving human parity on automatic chinese to english news translation." arXiv preprint arXiv:1803.05567 (2018). [4] Voita, E., Serdyukov, P., Sennrich, R., & Titov, I. (2018). Context-aware neural machine translation learns anaphora resolution. arXiv preprint arXiv:1805.10163. [5] Zhang, J., Luan, H., Sun, M., Zhai, F., Xu, J., Zhang, M., & Liu, Y. (2018). Improving the transformer translation model with document-level context. arXiv preprint arXiv:1810.03581. [6] Xiong, H., He, Z., Wu, H., & Wang, H. (2019, July). Modeling coherence for discourse neural machine translation. In Proceedings of the AAAI Conference on Artificial Intelligence (Vol. 33, pp. 7338-7345). [7] Voita, E., Sennrich, R., & Titov, I. (2019). When a Good Translation is Wrong in Context: Context-Aware Machine Translation Improves on Deixis, Ellipsis, and Lexical Cohesion. arXiv preprint arXiv:1905.05979. 【编辑推荐】
点赞 0 (编辑:晋中站长网) 【声明】本站内容均来自网络,其相关言论仅代表作者个人观点,不代表本站立场。若无意侵犯到您的权利,请及时与联系站长删除相关内容! |