xxxxxxxxxx

xxxxxxxxxx

xxxxxxxxxx

xxxxxxxxxx

xxxxxxxxxx

English (to translate) sentence:

No matter how much you try to convince people that chocolate is vanilla, it'll still be chocolate, even though you may manage to convince yourself and a few others that it's vanilla.

Portuguese (translation) sentence:

Não importa o quanto você tenta convencer os outros de que chocolate é baunilha, ele ainda será chocolate, mesmo que você possa convencer a si mesmo e poucos outros de que é baunilha.

xxxxxxxxxx

xxxxxxxxxx

xxxxxxxxxx

xxxxxxxxxx

xxxxxxxxxx

First 10 words of the english vocabulary:

['', '[UNK]', '[SOS]', '[EOS]', '.', 'tom', 'i', 'to', 'you', 'the']

First 10 words of the portuguese vocabulary:

['', '[UNK]', '[SOS]', '[EOS]', '.', 'tom', 'que', 'o', 'nao', 'eu']

xxxxxxxxxx

xxxxxxxxxx

Portuguese vocabulary is made up of 12000 words
English vocabulary is made up of 12000 words

xxxxxxxxxx

xxxxxxxxxx

xxxxxxxxxx

xxxxxxxxxx

The id for the [UNK] token is 1
The id for the [SOS] token is 2
The id for the [EOS] token is 3
The id for baunilha (vanilla) is 7079

xxxxxxxxxx

xxxxxxxxxx

Tokenized english sentence:
[   2  210    9  146  123   38    9 1672    4    3    0    0    0    0]


Tokenized portuguese sentence (shifted to the right):
[   2 1085    7  128   11  389   37 2038    4    0    0    0    0    0
    0]


Tokenized portuguese sentence:
[1085    7  128   11  389   37 2038    4    3    0    0    0    0    0
    0]

xxxxxxxxxx

xxxxxxxxxx

xxxxxxxxxx

xxxxxxxxxx

xxxxxxxxxx

xxxxxxxxxx

xxxxxxxxxx

Tensor of sentences in english has shape: (64, 14)

Encoder output has shape: (64, 14, 256)

xxxxxxxxxx

xxxxxxxxxx

 All tests passed!

xxxxxxxxxx

xxxxxxxxxx

xxxxxxxxxx

Tensor of contexts has shape: (64, 14, 256)
Tensor of translations has shape: (64, 15, 256)
Tensor of attention scores has shape: (64, 15, 256)

xxxxxxxxxx

xxxxxxxxxx

 All tests passed!

xxxxxxxxxx

xxxxxxxxxx

xxxxxxxxxx

Tensor of contexts has shape: (64, 14, 256)
Tensor of right-shifted translations has shape: (64, 15)
Tensor of logits has shape: (64, 15, 12000)

xxxxxxxxxx

xxxxxxxxxx

 All tests passed!

xxxxxxxxxx

xxxxxxxxxx

xxxxxxxxxx

Tensor of sentences to translate has shape: (64, 14)
Tensor of right-shifted translations has shape: (64, 15)
Tensor of logits has shape: (64, 15, 12000)

xxxxxxxxxx

xxxxxxxxxx

 All tests passed!

xxxxxxxxxx

xxxxxxxxxx

xxxxxxxxxx

Epoch 1/20
500/500 [==============================] - 48s 68ms/step - loss: 5.2038 - masked_acc: 0.2093 - masked_loss: 5.2063 - val_loss: 4.4142 - val_masked_acc: 0.3094 - val_masked_loss: 4.4152
Epoch 2/20
500/500 [==============================] - 17s 33ms/step - loss: 3.8010 - masked_acc: 0.4067 - masked_loss: 3.8018 - val_loss: 3.0992 - val_masked_acc: 0.4933 - val_masked_loss: 3.1011
Epoch 3/20
500/500 [==============================] - 16s 32ms/step - loss: 2.7784 - masked_acc: 0.5399 - masked_loss: 2.7800 - val_loss: 2.4111 - val_masked_acc: 0.5808 - val_masked_loss: 2.4116
Epoch 4/20
500/500 [==============================] - 16s 32ms/step - loss: 2.2514 - masked_acc: 0.6121 - masked_loss: 2.2523 - val_loss: 2.0073 - val_masked_acc: 0.6421 - val_masked_loss: 2.0079
Epoch 5/20
500/500 [==============================] - 16s 31ms/step - loss: 1.8990 - masked_acc: 0.6619 - masked_loss: 1.9002 - val_loss: 1.7441 - val_masked_acc: 0.6780 - val_masked_loss: 1.7447
Epoch 6/20
500/500 [==============================] - 15s 30ms/step - loss: 1.6374 - masked_acc: 0.6953 - masked_loss: 1.6385 - val_loss: 1.6194 - val_masked_acc: 0.6999 - val_masked_loss: 1.6188
Epoch 7/20
500/500 [==============================] - 16s 31ms/step - loss: 1.5277 - masked_acc: 0.7111 - masked_loss: 1.5284 - val_loss: 1.4901 - val_masked_acc: 0.7121 - val_masked_loss: 1.4905
Epoch 8/20
500/500 [==============================] - 16s 32ms/step - loss: 1.4201 - masked_acc: 0.7261 - masked_loss: 1.4210 - val_loss: 1.4071 - val_masked_acc: 0.7223 - val_masked_loss: 1.4089
Epoch 9/20
500/500 [==============================] - 16s 32ms/step - loss: 1.3407 - masked_acc: 0.7349 - masked_loss: 1.3420 - val_loss: 1.3195 - val_masked_acc: 0.7343 - val_masked_loss: 1.3197
Epoch 10/20
500/500 [==============================] - 16s 31ms/step - loss: 1.2085 - masked_acc: 0.7522 - masked_loss: 1.2099 - val_loss: 1.2466 - val_masked_acc: 0.7483 - val_masked_loss: 1.2474
Epoch 11/20
500/500 [==============================] - 15s 30ms/step - loss: 1.1073 - masked_acc: 0.7633 - masked_loss: 1.1083 - val_loss: 1.1922 - val_masked_acc: 0.7572 - val_masked_loss: 1.1922
Epoch 12/20
500/500 [==============================] - 15s 30ms/step - loss: 1.0821 - masked_acc: 0.7690 - masked_loss: 1.0830 - val_loss: 1.1611 - val_masked_acc: 0.7551 - val_masked_loss: 1.1616
Epoch 13/20
500/500 [==============================] - 15s 31ms/step - loss: 1.0565 - masked_acc: 0.7714 - masked_loss: 1.0578 - val_loss: 1.1525 - val_masked_acc: 0.7580 - val_masked_loss: 1.1535
Epoch 14/20
500/500 [==============================] - 15s 31ms/step - loss: 1.0323 - masked_acc: 0.7750 - masked_loss: 1.0335 - val_loss: 1.1071 - val_masked_acc: 0.7685 - val_masked_loss: 1.1077
Epoch 15/20
500/500 [==============================] - 16s 31ms/step - loss: 0.9251 - masked_acc: 0.7887 - masked_loss: 0.9261 - val_loss: 1.0880 - val_masked_acc: 0.7670 - val_masked_loss: 1.0891
Epoch 16/20
500/500 [==============================] - 15s 31ms/step - loss: 0.8788 - masked_acc: 0.7955 - masked_loss: 0.8795 - val_loss: 1.0804 - val_masked_acc: 0.7698 - val_masked_loss: 1.0821
Epoch 17/20
500/500 [==============================] - 15s 30ms/step - loss: 0.8874 - masked_acc: 0.7942 - masked_loss: 0.8882 - val_loss: 1.0304 - val_masked_acc: 0.7752 - val_masked_loss: 1.0317
Epoch 18/20
500/500 [==============================] - 16s 31ms/step - loss: 0.8860 - masked_acc: 0.7938 - masked_loss: 0.8868 - val_loss: 1.0171 - val_masked_acc: 0.7780 - val_masked_loss: 1.0183
Epoch 19/20
500/500 [==============================] - 15s 31ms/step - loss: 0.8653 - masked_acc: 0.7976 - masked_loss: 0.8660 - val_loss: 1.0110 - val_masked_acc: 0.7812 - val_masked_loss: 1.0107
Epoch 20/20
500/500 [==============================] - 16s 31ms/step - loss: 0.7568 - masked_acc: 0.8148 - masked_loss: 0.7575 - val_loss: 1.0016 - val_masked_acc: 0.7820 - val_masked_loss: 1.0026

xxxxxxxxxx

xxxxxxxxxx

xxxxxxxxxx

xxxxxxxxxx

Next token: [[6188]]
Logit: -18.7806
Done? False

xxxxxxxxxx

xxxxxxxxxx

xxxxxxxxxx

xxxxxxxxxx

Temperature: 0.0

Original sentence: I love languages
Translation: eu amo idiomas as vezes .
Translation tokens:[[  9 522 850  38 231   4]]
Logit: -1.639

xxxxxxxxxx

xxxxxxxxxx

Temperature: 0.7

Original sentence: I love languages
Translation: eu adorei idiomas as quatro moveis .
Translation tokens:[[   9 3998  850   38  852 2469    4]]
Logit: -0.254

xxxxxxxxxx

 All tests passed!

xxxxxxxxxx

xxxxxxxxxx

xxxxxxxxxx

Translated tensor: [9, 564, 850, 13, 11, 845, 20, 847, 4] has logit: -0.134
Translated tensor: [9, 3998, 850, 20, 503, 11, 604, 4] has logit: -0.445
Translated tensor: [9, 564, 850, 12, 279, 22, 130, 4] has logit: -0.084
Translated tensor: [9, 522, 850, 38, 2936, 4] has logit: -2.447

xxxxxxxxxx

xxxxxxxxxx

xxxxxxxxxx

jaccard similarity between lists: [1, 2, 3] and [1, 2, 3, 4] is 0.750

xxxxxxxxxx

xxxxxxxxxx

xxxxxxxxxx

xxxxxxxxxx

rouge 1 similarity between lists: [1, 2, 3] and [1, 2, 3, 4] is 0.857

xxxxxxxxxx

xxxxxxxxxx

 All tests passed!

xxxxxxxxxx

xxxxxxxxxx

xxxxxxxxxx

average overlap between lists: [1, 2, 3], [1, 2, 4] and [1, 2, 4, 5] using Jaccard similarity is:

{0: 0.45, 1: 0.625, 2: 0.575}

xxxxxxxxxx

xxxxxxxxxx

average overlap between lists: [1, 2, 3], [1, 4], [1, 2, 4, 5] and [5, 6] using Rouge1 similarity is:

{0: 0.324, 1: 0.356, 2: 0.524, 3: 0.111}

xxxxxxxxxx

xxxxxxxxxx

 All tests passed!

xxxxxxxxxx

xxxxxxxxxx

xxxxxxxxxx

weighted average overlap using Jaccard similarity is:

{0: 0.443, 1: 0.631, 2: 0.558}

xxxxxxxxxx

xxxxxxxxxx

xxxxxxxxxx

Translation candidates:
eu eu amo idiomas a senhora .
eu adoro idiomas tem de saudade de acaso a regiao .
eu adorei idiomas a pe de pe .
eu adoro idiomas sempre .
eu adoro idiomas por conta de cima de casa .
eu adoro idiomas as dez vezes .
eu amo idiomas as vezes ?
eu eu amo idiomas por favor
eu eu amo idiomas por acaso .
eu amo idiomas a sorte do mundo .

Selected translation: eu eu amo idiomas a senhora .

xxxxxxxxxx

xxxxxxxxxx

Assignment 1: Neural Machine Translation¶

目录 ¶

1. Data Preparation¶

2. 带注意力的 NMT 模型 ¶

Exercise 1 - Encoder¶

预期输出 ¶

练习 2 - 交叉注意力 ¶

预期输出 ¶

练习 3 - 解码器 ¶

预期输出 ¶

Exercise 4 - Translator¶

预期输出 ¶

3. Training¶

4. 使用模型进行推理 ¶

Exercise 5 - translate¶

5. Minimum Bayes-Risk Decoding¶

Comparing overlaps¶

预期输出 ¶

Exercise 6 - rouge1_similarity¶

预期输出 ¶

计算总分 ¶

Exercise 7 - average_overlap¶

预期输出 ¶

预期输出 ¶

mbr_decode¶