(注:pdf格式文献复制粘贴翻译时,会有换行的问题,推荐一款名为’copytranslator’的软件,下载在)

如何评价词向量可参考词向量:如何评价词向量的好坏

1. 中文相似词表

希望找到类似英文中WordSim-353和SimLex-999的数据集对中文词向量模型的准确度和相关性进行测试,参考此文章,其中引用此数据集,相关内容:

Wordsim-240 (original name: words-240) is from 汪祥, 贾焰, 周斌, 丁兆云, 梁政. 基于中文维基百科链接结构与分类体系的语义相关度计算. 小型微型计算机系统. 2011, 32(11):2237-2242. (pdf) and Wang Xiang, Jia Yan, Zhou Bin, et al. Computing Semantic Relatedness using Chinese Wikipedia Links and Taxonomy. Journal of Chinese Computer Systems, 2011, 32(11): 2237-2242. (pdf)

Wordsim-296 is from SemEval-2012 task 4: evaluating Chinese word similarity. (Abstract) (pdf)

数据集有了,现在需要计算相关性,注意到官方文档里的evaluate_word_pairs函数:
evaluate_word_pairs(pairs, delimiter=’\t’, restrict_vocab=300000, case_insensitive=True, dummy4unknown=False)

为了不每次都重新加载模型或者KeyedVectors,先不用pycharm,使用jupyter notebook,在当前文件夹打开命令行输入:

jupyter notebook

发现import gensim时报错,没有这个库,说明pycharm和jupyter的路径不一样,为了在jupyter notebook中也能使用Anaconda库,解决办法:先运行Anaconda,再运行jupyter notebook,其实jupyter用起来也挺卡的……不如就pycharm

代码如下:

from gensim.models import KeyedVectors

word_vectors = KeyedVectors.load('...your path/vectors.kv')

path_240 = '...your path/240.txt'
word_vectors.evaluate_word_pairs(path_240, delimiter='\t')

path_297 = '...your path/297.txt'
word_vectors.evaluate_word_pairs(path_297, delimiter='\t')
((0.5573094124539955, 6.6585185422281714e-21),
 SpearmanrResult(correlation=0.5351966771826752, pvalue=4.102215430141137e-19),
 0.4166666666666667)
((0.6244316804607433, 3.9023736502432133e-31),
 SpearmanrResult(correlation=0.6127510089567546, pvalue=9.709639918435581e-30),
 7.4074074074074066)

可以发现Sun et. al. (2019) (VCWE: Visual Character-Enhanced Word Embeddings)和Yu et. al. (2017) (Joint Embeddings of Chinese Words, Characters, and Fine-grained Subcharacter Components)两篇论文

  • 对wordsim-240的Spearman correlation分别为57.81、51.92,本模型对wordsim-240的⍴为53.52
  • 对wordsim-296的相关性分别为61.29、59.84,本模型对wordsim-296的⍴为61.28

所以训练的word2vec效果还是很好的

2. 中文类比词表

Chen et. al. (2015) manually constructed 1,225 analogies in 3 domains,数据还是在这篇github上,包括国家首都、州/省市、家庭关系,共953组数据

数据集有了,现在需要计算相关性,又注意到官方文档里的evaluate_word_analogies函数:
evaluate_word_analogies(analogies, restrict_vocab=300000, case_insensitive=True, dummy4unknown=False)

path = '...your path/analogy.txt'
word_vectors.evaluate_word_analogies(path)
(0.8824763903462749, [{'section': 'capital-common-countries', 'correct': [('雅典', '希腊', '巴格达', '伊拉克'), ('雅典', '希腊', '曼谷', '泰国'), ('雅典', '希腊', '柏林', '德国'), ('雅典', '希腊', '开罗', '埃及'), ('雅典', '希腊', '河内', '越南'), ('雅典', '希腊', '哈瓦那', '古巴'), ('雅典', '希腊', '赫尔辛基', '芬兰'), ('雅典', '希腊', '伊斯兰堡', '巴基斯坦'), ('雅典', '希腊', '喀布尔', '阿富汗'), ('雅典', '希腊', '伦敦', '英国'), ('雅典', '希腊', '马德里', '西班牙'), ('雅典', '希腊', '莫斯科', '俄罗斯'), ('雅典', '希腊', '奥斯陆', '挪威'), ('雅典', '希腊', '渥太华', '加拿大'), ('雅典', '希腊', '巴黎', '法国'), ('雅典', '希腊', '罗马', '意大利'), ('雅典', '希腊', '斯德哥尔摩', '瑞典'), ('雅典', '希腊', '德黑兰', '伊朗'), ('雅典', '希腊', '东京', '日本'), ('巴格达', '伊拉克', '曼谷', '泰国'), ('巴格达', '伊拉克', '北京', '中国'), ('巴格达', '伊拉克', '柏林', '德国'), ('巴格达', '伊拉克', '开罗', '埃及'), ('巴格达', '伊拉克', '堪培拉', '澳大利亚'), ('巴格达', '伊拉克', '河内', '越南'), ('巴格达', '伊拉克', '哈瓦那', '古巴'), ('巴格达', '伊拉克', '赫尔辛基', '芬兰'), ('巴格达', '伊拉克', '伊斯兰堡', '巴基斯坦'), ('巴格达', '伊拉克', '喀布尔', '阿富汗'), ('巴格达', '伊拉克', '伦敦', '英国'), ('巴格达', '伊拉克', '马德里', '西班牙'), ('巴格达', '伊拉克', '莫斯科', '俄罗斯'), ('巴格达', '伊拉克', '奥斯陆', '挪威'), ('巴格达', '伊拉克', '渥太华', '加拿大'), ('巴格达', '伊拉克', '巴黎', '法国'), ('巴格达', '伊拉克', '罗马', '意大利'), ('巴格达', '伊拉克', '斯德哥尔摩', '瑞典'), ('巴格达', '伊拉克', '德黑兰', '伊朗'), ('巴格达', '伊拉克', '东京', '日本'), ('巴格达', '伊拉克', '雅典', '希腊'), ('曼谷', '泰国', '北京', '中国'), ('曼谷', '泰国', '柏林', '德国'), ('曼谷', '泰国', '伯尔尼', '瑞士'), ('曼谷', '泰国', '开罗', '埃及'), ('曼谷', '泰国', '堪培拉', '澳大利亚'), ('曼谷', '泰国', '河内', '越南'), ('曼谷', '泰国', '哈瓦那', '古巴'), ('曼谷', '泰国', '赫尔辛基', '芬兰'), ('曼谷', '泰国', '伊斯兰堡', '巴基斯坦'), ('曼谷', '泰国', '伦敦', '英国'), ('曼谷', '泰国', '马德里', '西班牙'), ('曼谷', '泰国', '莫斯科', '俄罗斯'), ('曼谷', '泰国', '奥斯陆', '挪威'), ('曼谷', '泰国', '渥太华', '加拿大'), ('曼谷', '泰国', '巴黎', '法国'), ('曼谷', '泰国', '罗马', '意大利'), ('曼谷', '泰国', '斯德哥尔摩', '瑞典'), ('曼谷', '泰国', '德黑兰', '伊朗'), ('曼谷', '泰国', '东京', '日本'), ('曼谷', '泰国', '巴格达', '伊拉克'), ('北京', '中国', '柏林', '德国'), ('北京', '中国', '开罗', '埃及'), ('北京', '中国', '河内', '越南'), ('北京', '中国', '哈瓦那', '古巴'), ('北京', '中国', '赫尔辛基', '芬兰'), ('北京', '中国', '伊斯兰堡', '巴基斯坦'), ('北京', '中国', '喀布尔', '阿富汗'), ('北京', '中国', '伦敦', '英国'), ('北京', '中国', '马德里', '西班牙'), ('北京', '中国', '莫斯科', '俄罗斯'), ('北京', '中国', '奥斯陆', '挪威'), ('北京', '中国', '巴黎', '法国'), ('北京', '中国', '罗马', '意大利'), ('北京', '中国', '斯德哥尔摩', '瑞典'), ('北京', '中国', '德黑兰', '伊朗'), ('北京', '中国', '东京', '日本'), ('北京', '中国', '雅典', '希腊'), ('北京', '中国', '曼谷', '泰国'), ('柏林', '德国', '伯尔尼', '瑞士'), ('柏林', '德国', '开罗', '埃及'), ('柏林', '德国', '堪培拉', '澳大利亚'), ('柏林', '德国', '河内', '越南'), ('柏林', '德国', '哈瓦那', '古巴'), ('柏林', '德国', '赫尔辛基', '芬兰'), ('柏林', '德国', '伊斯兰堡', '巴基斯坦'), ('柏林', '德国', '喀布尔', '阿富汗'), ('柏林', '德国', '伦敦', '英国'), ('柏林', '德国', '马德里', '西班牙'), ('柏林', '德国', '莫斯科', '俄罗斯'), ('柏林', '德国', '渥太华', '加拿大'), ('柏林', '德国', '巴黎', '法国'), ('柏林', '德国', '罗马', '意大利'), ('柏林', '德国', '斯德哥尔摩', '瑞典'), ('柏林', '德国', '德黑兰', '伊朗'), ('柏林', '德国', '东京', '日本'), ('柏林', '德国', '雅典', '希腊'), ('柏林', '德国', '巴格达', '伊拉克'), ('柏林', '德国', '曼谷', '泰国'), ('柏林', '德国', '北京', '中国'), ('伯尔尼', '瑞士', '开罗', '埃及'), ('伯尔尼', '瑞士', '堪培拉', '澳大利亚'), ('伯尔尼', '瑞士', '河内', '越南'), ('伯尔尼', '瑞士', '哈瓦那', '古巴'), ('伯尔尼', '瑞士', '赫尔辛基', '芬兰'), ('伯尔尼', '瑞士', '伊斯兰堡', '巴基斯坦'), ('伯尔尼', '瑞士', '莫斯科', '俄罗斯'), ('伯尔尼', '瑞士', '奥斯陆', '挪威'), ('伯尔尼', '瑞士', '渥太华', '加拿大'), ('伯尔尼', '瑞士', '罗马', '意大利'), ('伯尔尼', '瑞士', '斯德哥尔摩', '瑞典'), ('伯尔尼', '瑞士', '德黑兰', '伊朗'), ('伯尔尼', '瑞士', '东京', '日本'), ('伯尔尼', '瑞士', '曼谷', '泰国'), ('伯尔尼', '瑞士', '柏林', '德国'), ('开罗', '埃及', '堪培拉', '澳大利亚'), ('开罗', '埃及', '河内', '越南'), ('开罗', '埃及', '哈瓦那', '古巴'), ('开罗', '埃及', '赫尔辛基', '芬兰'), ('开罗', '埃及', '伊斯兰堡', '巴基斯坦'), ('开罗', '埃及', '喀布尔', '阿富汗'), ('开罗', '埃及', '伦敦', '英国'), ('开罗', '埃及', '马德里', '西班牙'), ('开罗', '埃及', '莫斯科', '俄罗斯'), ('开罗', '埃及', '奥斯陆', '挪威'), ('开罗', '埃及', '渥太华', '加拿大'), ('开罗', '埃及', '巴黎', '法国'), ('开罗', '埃及', '罗马', '意大利'), ('开罗', '埃及', '斯德哥尔摩', '瑞典'), ('开罗', '埃及', '德黑兰', '伊朗'), ('开罗', '埃及', '东京', '日本'), ('开罗', '埃及', '雅典', '希腊'), ('开罗', '埃及', '巴格达', '伊拉克'), ('开罗', '埃及', '曼谷', '泰国'), ('开罗', '埃及', '北京', '中国'), ('开罗', '埃及', '柏林', '德国'), ('堪培拉', '澳大利亚', '河内', '越南'), ('堪培拉', '澳大利亚', '哈瓦那', '古巴'), ('堪培拉', '澳大利亚', '赫尔辛基', '芬兰'), ('堪培拉', '澳大利亚', '伊斯兰堡', '巴基斯坦'), ('堪培拉', '澳大利亚', '喀布尔', '阿富汗'), ('堪培拉', '澳大利亚', '伦敦', '英国'), ('堪培拉', '澳大利亚', '马德里', '西班牙'), ('堪培拉', '澳大利亚', '莫斯科', '俄罗斯'), ('堪培拉', '澳大利亚', '奥斯陆', '挪威'), ('堪培拉', '澳大利亚', '渥太华', '加拿大'), ('堪培拉', '澳大利亚', '巴黎', '法国'), ('堪培拉', '澳大利亚', '罗马', '意大利'), ('堪培拉', '澳大利亚', '斯德哥尔摩', '瑞典'), ('堪培拉', '澳大利亚', '德黑兰', '伊朗'), ('堪培拉', '澳大利亚', '东京', '日本'), ('堪培拉', '澳大利亚', '巴格达', '伊拉克'), ('堪培拉', '澳大利亚', '曼谷', '泰国'), ('堪培拉', '澳大利亚', '柏林', '德国'), ('堪培拉', '澳大利亚', '伯尔尼', '瑞士'), ('堪培拉', '澳大利亚', '开罗', '埃及'), ('河内', '越南', '哈瓦那', '古巴'), ('河内', '越南', '赫尔辛基', '芬兰'), ('河内', '越南', '伊斯兰堡', '巴基斯坦'), ('河内', '越南', '喀布尔', '阿富汗'), ('河内', '越南', '伦敦', '英国'), ('河内', '越南', '马德里', '西班牙'), ('河内', '越南', '莫斯科', '俄罗斯'), ('河内', '越南', '奥斯陆', '挪威'), ('河内', '越南', '渥太华', '加拿大'), ('河内', '越南', '巴黎', '法国'), ('河内', '越南', '罗马', '意大利'), ('河内', '越南', '斯德哥尔摩', '瑞典'), ('河内', '越南', '德黑兰', '伊朗'), ('河内', '越南', '东京', '日本'), ('河内', '越南', '雅典', '希腊'), ('河内', '越南', '巴格达', '伊拉克'), ('河内', '越南', '曼谷', '泰国'), ('河内', '越南', '北京', '中国'), ('河内', '越南', '柏林', '德国'), ('河内', '越南', '开罗', '埃及'), ('河内', '越南', '堪培拉', '澳大利亚'), ('哈瓦那', '古巴', '赫尔辛基', '芬兰'), ('哈瓦那', '古巴', '伊斯兰堡', '巴基斯坦'), ('哈瓦那', '古巴', '喀布尔', '阿富汗'), ('哈瓦那', '古巴', '伦敦', '英国'), ('哈瓦那', '古巴', '马德里', '西班牙'), ('哈瓦那', '古巴', '莫斯科', '俄罗斯'), ('哈瓦那', '古巴', '奥斯陆', '挪威'), ('哈瓦那', '古巴', '渥太华', '加拿大'), ('哈瓦那', '古巴', '巴黎', '法国'), ('哈瓦那', '古巴', '罗马', '意大利'), ('哈瓦那', '古巴', '斯德哥尔摩', '瑞典'), ('哈瓦那', '古巴', '德黑兰', '伊朗'), ('哈瓦那', '古巴', '东京', '日本'), ('哈瓦那', '古巴', '雅典', '希腊'), ('哈瓦那', '古巴', '巴格达', '伊拉克'), ('哈瓦那', '古巴', '曼谷', '泰国'), ('哈瓦那', '古巴', '北京', '中国'), ('哈瓦那', '古巴', '柏林', '德国'), ('哈瓦那', '古巴', '开罗', '埃及'), ('哈瓦那', '古巴', '堪培拉', '澳大利亚'), ('哈瓦那', '古巴', '河内', '越南'), ('赫尔辛基', '芬兰', '伊斯兰堡', '巴基斯坦'), ('赫尔辛基', '芬兰', '喀布尔', '阿富汗'), ('赫尔辛基', '芬兰', '伦敦', '英国'), ('赫尔辛基', '芬兰', '马德里', '西班牙'), ('赫尔辛基', '芬兰', '莫斯科', '俄罗斯'), ('赫尔辛基', '芬兰', '奥斯陆', '挪威'), ('赫尔辛基', '芬兰', '渥太华', '加拿大'), ('赫尔辛基', '芬兰', '巴黎', '法国'), ('赫尔辛基', '芬兰', '罗马', '意大利'), ('赫尔辛基', '芬兰', '斯德哥尔摩', '瑞典'), ('赫尔辛基', '芬兰', '德黑兰', '伊朗'), ('赫尔辛基', '芬兰', '东京', '日本'), ('赫尔辛基', '芬兰', '雅典', '希腊'), ('赫尔辛基', '芬兰', '巴格达', '伊拉克'), ('赫尔辛基', '芬兰', '曼谷', '泰国'), ('赫尔辛基', '芬兰', '北京', '中国'), ('赫尔辛基', '芬兰', '柏林', '德国'), ('赫尔辛基', '芬兰', '伯尔尼', '瑞士'), ('赫尔辛基', '芬兰', '开罗', '埃及'), ('赫尔辛基', '芬兰', '堪培拉', '澳大利亚'), ('赫尔辛基', '芬兰', '河内', '越南'), ('赫尔辛基', '芬兰', '哈瓦那', '古巴'), ('伊斯兰堡', '巴基斯坦', '喀布尔', '阿富汗'), ('伊斯兰堡', '巴基斯坦', '伦敦', '英国'), ('伊斯兰堡', '巴基斯坦', '马德里', '西班牙'), ('伊斯兰堡', '巴基斯坦', '莫斯科', '俄罗斯'), ('伊斯兰堡', '巴基斯坦', '奥斯陆', '挪威'), ('伊斯兰堡', '巴基斯坦', '渥太华', '加拿大'), ('伊斯兰堡', '巴基斯坦', '巴黎', '法国'), ('伊斯兰堡', '巴基斯坦', '罗马', '意大利'), ('伊斯兰堡', '巴基斯坦', '斯德哥尔摩', '瑞典'), ('伊斯兰堡', '巴基斯坦', '德黑兰', '伊朗'), ('伊斯兰堡', '巴基斯坦', '东京', '日本'), ('伊斯兰堡', '巴基斯坦', '巴格达', '伊拉克'), ('伊斯兰堡', '巴基斯坦', '曼谷', '泰国'), ('伊斯兰堡', '巴基斯坦', '柏林', '德国'), ('伊斯兰堡', '巴基斯坦', '开罗', '埃及'), ('伊斯兰堡', '巴基斯坦', '堪培拉', '澳大利亚'), ('伊斯兰堡', '巴基斯坦', '河内', '越南'), ('伊斯兰堡', '巴基斯坦', '哈瓦那', '古巴'), ('伊斯兰堡', '巴基斯坦', '赫尔辛基', '芬兰'), ('喀布尔', '阿富汗', '伦敦', '英国'), ('喀布尔', '阿富汗', '马德里', '西班牙'), ('喀布尔', '阿富汗', '莫斯科', '俄罗斯'), ('喀布尔', '阿富汗', '奥斯陆', '挪威'), ('喀布尔', '阿富汗', '渥太华', '加拿大'), ('喀布尔', '阿富汗', '巴黎', '法国'), ('喀布尔', '阿富汗', '罗马', '意大利'), ('喀布尔', '阿富汗', '斯德哥尔摩', '瑞典'), ('喀布尔', '阿富汗', '德黑兰', '伊朗'), ('喀布尔', '阿富汗', '东京', '日本'), ('喀布尔', '阿富汗', '雅典', '希腊'), ('喀布尔', '阿富汗', '巴格达', '伊拉克'), ('喀布尔', '阿富汗', '曼谷', '泰国'), ('喀布尔', '阿富汗', '北京', '中国'), ('喀布尔', '阿富汗', '柏林', '德国'), ('喀布尔', '阿富汗', '开罗', '埃及'), ('喀布尔', '阿富汗', '堪培拉', '澳大利亚'), ('喀布尔', '阿富汗', '河内', '越南'), ('喀布尔', '阿富汗', '哈瓦那', '古巴'), ('喀布尔', '阿富汗', '赫尔辛基', '芬兰'), ('喀布尔', '阿富汗', '伊斯兰堡', '巴基斯坦'), ('伦敦', '英国', '马德里', '西班牙'), ('伦敦', '英国', '莫斯科', '俄罗斯'), ('伦敦', '英国', '奥斯陆', '挪威'), ('伦敦', '英国', '渥太华', '加拿大'), ('伦敦', '英国', '巴黎', '法国'), ('伦敦', '英国', '罗马', '意大利'), ('伦敦', '英国', '斯德哥尔摩', '瑞典'), ('伦敦', '英国', '德黑兰', '伊朗'), ('伦敦', '英国', '东京', '日本'), ('伦敦', '英国', '巴格达', '伊拉克'), ('伦敦', '英国', '曼谷', '泰国'), ('伦敦', '英国', '北京', '中国'), ('伦敦', '英国', '柏林', '德国'), ('伦敦', '英国', '伯尔尼', '瑞士'), ('伦敦', '英国', '开罗', '埃及'), ('伦敦', '英国', '堪培拉', '澳大利亚'), ('伦敦', '英国', '河内', '越南'), ('伦敦', '英国', '哈瓦那', '古巴'), ('伦敦', '英国', '赫尔辛基', '芬兰'), ('伦敦', '英国', '伊斯兰堡', '巴基斯坦'), ('伦敦', '英国', '喀布尔', '阿富汗'), ('马德里', '西班牙', '莫斯科', '俄罗斯'), ('马德里', '西班牙', '奥斯陆', '挪威'), ('马德里', '西班牙', '渥太华', '加拿大'), ('马德里', '西班牙', '巴黎', '法国'), ('马德里', '西班牙', '罗马', '意大利'), ('马德里', '西班牙', '斯德哥尔摩', '瑞典'), ('马德里', '西班牙', '德黑兰', '伊朗'), ('马德里', '西班牙', '东京', '日本'), ('马德里', '西班牙', '雅典', '希腊'), ('马德里', '西班牙', '巴格达', '伊拉克'), ('马德里', '西班牙', '曼谷', '泰国'), ('马德里', '西班牙', '北京', '中国'), ('马德里', '西班牙', '柏林', '德国'), ('马德里', '西班牙', '开罗', '埃及'), ('马德里', '西班牙', '堪培拉', '澳大利亚'), ('马德里', '西班牙', '河内', '越南'), ('马德里', '西班牙', '哈瓦那', '古巴'), ('马德里', '西班牙', '赫尔辛基', '芬兰'), ('马德里', '西班牙', '伊斯兰堡', '巴基斯坦'), ('马德里', '西班牙', '喀布尔', '阿富汗'), ('马德里', '西班牙', '伦敦', '英国'), ('莫斯科', '俄罗斯', '奥斯陆', '挪威'), ('莫斯科', '俄罗斯', '渥太华', '加拿大'), ('莫斯科', '俄罗斯', '巴黎', '法国'), ('莫斯科', '俄罗斯', '罗马', '意大利'), ('莫斯科', '俄罗斯', '斯德哥尔摩', '瑞典'), ('莫斯科', '俄罗斯', '德黑兰', '伊朗'), ('莫斯科', '俄罗斯', '东京', '日本'), ('莫斯科', '俄罗斯', '雅典', '希腊'), ('莫斯科', '俄罗斯', '巴格达', '伊拉克'), ('莫斯科', '俄罗斯', '曼谷', '泰国'), ('莫斯科', '俄罗斯', '北京', '中国'), ('莫斯科', '俄罗斯', '柏林', '德国'), ('莫斯科', '俄罗斯', '开罗', '埃及'), ('莫斯科', '俄罗斯', '堪培拉', '澳大利亚'), ('莫斯科', '俄罗斯', '河内', '越南'), ('莫斯科', '俄罗斯', '哈瓦那', '古巴'), ('莫斯科', '俄罗斯', '赫尔辛基', '芬兰'), ('莫斯科', '俄罗斯', '伊斯兰堡', '巴基斯坦'), ('莫斯科', '俄罗斯', '伦敦', '英国'), ('莫斯科', '俄罗斯', '马德里', '西班牙'), ('奥斯陆', '挪威', '渥太华', '加拿大'), ('奥斯陆', '挪威', '巴黎', '法国'), ('奥斯陆', '挪威', '罗马', '意大利'), ('奥斯陆', '挪威', '斯德哥尔摩', '瑞典'), ('奥斯陆', '挪威', '德黑兰', '伊朗'), ('奥斯陆', '挪威', '东京', '日本'), ('奥斯陆', '挪威', '雅典', '希腊'), ('奥斯陆', '挪威', '巴格达', '伊拉克'), ('奥斯陆', '挪威', '曼谷', '泰国'), ('奥斯陆', '挪威', '北京', '中国'), ('奥斯陆', '挪威', '柏林', '德国'), ('奥斯陆', '挪威', '伯尔尼', '瑞士'), ('奥斯陆', '挪威', '开罗', '埃及'), ('奥斯陆', '挪威', '堪培拉', '澳大利亚'), ('奥斯陆', '挪威', '河内', '越南'), ('奥斯陆', '挪威', '哈瓦那', '古巴'), ('奥斯陆', '挪威', '赫尔辛基', '芬兰'), ('奥斯陆', '挪威', '伊斯兰堡', '巴基斯坦'), ('奥斯陆', '挪威', '喀布尔', '阿富汗'), ('奥斯陆', '挪威', '伦敦', '英国'), ('奥斯陆', '挪威', '马德里', '西班牙'), ('奥斯陆', '挪威', '莫斯科', '俄罗斯'), ('渥太华', '加拿大', '巴黎', '法国'), ('渥太华', '加拿大', '罗马', '意大利'), ('渥太华', '加拿大', '斯德哥尔摩', '瑞典'), ('渥太华', '加拿大', '德黑兰', '伊朗'), ('渥太华', '加拿大', '东京', '日本'), ('渥太华', '加拿大', '巴格达', '伊拉克'), ('渥太华', '加拿大', '曼谷', '泰国'), ('渥太华', '加拿大', '柏林', '德国'), ('渥太华', '加拿大', '伯尔尼', '瑞士'), ('渥太华', '加拿大', '开罗', '埃及'), ('渥太华', '加拿大', '堪培拉', '澳大利亚'), ('渥太华', '加拿大', '河内', '越南'), ('渥太华', '加拿大', '哈瓦那', '古巴'), ('渥太华', '加拿大', '赫尔辛基', '芬兰'), ('渥太华', '加拿大', '伊斯兰堡', '巴基斯坦'), ('渥太华', '加拿大', '喀布尔', '阿富汗'), ('渥太华', '加拿大', '伦敦', '英国'), ('渥太华', '加拿大', '莫斯科', '俄罗斯'), ('渥太华', '加拿大', '奥斯陆', '挪威'), ('巴黎', '法国', '罗马', '意大利'), ('巴黎', '法国', '斯德哥尔摩', '瑞典'), ('巴黎', '法国', '德黑兰', '伊朗'), ('巴黎', '法国', '东京', '日本'), ('巴黎', '法国', '雅典', '希腊'), ('巴黎', '法国', '巴格达', '伊拉克'), ('巴黎', '法国', '曼谷', '泰国'), ('巴黎', '法国', '北京', '中国'), ('巴黎', '法国', '柏林', '德国'), ('巴黎', '法国', '开罗', '埃及'), ('巴黎', '法国', '堪培拉', '澳大利亚'), ('巴黎', '法国', '河内', '越南'), ('巴黎', '法国', '哈瓦那', '古巴'), ('巴黎', '法国', '赫尔辛基', '芬兰'), ('巴黎', '法国', '伊斯兰堡', '巴基斯坦'), ('巴黎', '法国', '喀布尔', '阿富汗'), ('巴黎', '法国', '伦敦', '英国'), ('巴黎', '法国', '马德里', '西班牙'), ('巴黎', '法国', '莫斯科', '俄罗斯'), ('巴黎', '法国', '奥斯陆', '挪威'), ('巴黎', '法国', '渥太华', '加拿大'), ('罗马', '意大利', '斯德哥尔摩', '瑞典'), ('罗马', '意大利', '德黑兰', '伊朗'), ('罗马', '意大利', '东京', '日本'), ('罗马', '意大利', '巴格达', '伊拉克'), ('罗马', '意大利', '曼谷', '泰国'), ('罗马', '意大利', '柏林', '德国'), ('罗马', '意大利', '伯尔尼', '瑞士'), ('罗马', '意大利', '堪培拉', '澳大利亚'), ('罗马', '意大利', '河内', '越南'), ('罗马', '意大利', '哈瓦那', '古巴'), ('罗马', '意大利', '赫尔辛基', '芬兰'), ('罗马', '意大利', '伊斯兰堡', '巴基斯坦'), ('罗马', '意大利', '伦敦', '英国'), ('罗马', '意大利', '马德里', '西班牙'), ('罗马', '意大利', '莫斯科', '俄罗斯'), ('罗马', '意大利', '奥斯陆', '挪威'), ('罗马', '意大利', '渥太华', '加拿大'), ('罗马', '意大利', '巴黎', '法国'), ('斯德哥尔摩', '瑞典', '德黑兰', '伊朗'), ('斯德哥尔摩', '瑞典', '东京', '日本'), ('斯德哥尔摩', '瑞典', '雅典', '希腊'), ('斯德哥尔摩', '瑞典', '巴格达', '伊拉克'), ('斯德哥尔摩', '瑞典', '曼谷', '泰国'), ('斯德哥尔摩', '瑞典', '柏林', '德国'), ('斯德哥尔摩', '瑞典', '开罗', '埃及'), ('斯德哥尔摩', '瑞典', '堪培拉', '澳大利亚'), ('斯德哥尔摩', '瑞典', '河内', '越南'), ('斯德哥尔摩', '瑞典', '哈瓦那', '古巴'), ('斯德哥尔摩', '瑞典', '赫尔辛基', '芬兰'), ('斯德哥尔摩', '瑞典', '伊斯兰堡', '巴基斯坦'), ('斯德哥尔摩', '瑞典', '伦敦', '英国'), ('斯德哥尔摩', '瑞典', '马德里', '西班牙'), ('斯德哥尔摩', '瑞典', '莫斯科', '俄罗斯'), ('斯德哥尔摩', '瑞典', '奥斯陆', '挪威'), ('斯德哥尔摩', '瑞典', '渥太华', '加拿大'), ('斯德哥尔摩', '瑞典', '巴黎', '法国'), ('斯德哥尔摩', '瑞典', '罗马', '意大利'), ('德黑兰', '伊朗', '东京', '日本'), ('德黑兰', '伊朗', '雅典', '希腊'), ('德黑兰', '伊朗', '巴格达', '伊拉克'), ('德黑兰', '伊朗', '曼谷', '泰国'), ('德黑兰', '伊朗', '北京', '中国'), ('德黑兰', '伊朗', '柏林', '德国'), ('德黑兰', '伊朗', '开罗', '埃及'), ('德黑兰', '伊朗', '堪培拉', '澳大利亚'), ('德黑兰', '伊朗', '河内', '越南'), ('德黑兰', '伊朗', '哈瓦那', '古巴'), ('德黑兰', '伊朗', '赫尔辛基', '芬兰'), ('德黑兰', '伊朗', '伊斯兰堡', '巴基斯坦'), ('德黑兰', '伊朗', '喀布尔', '阿富汗'), ('德黑兰', '伊朗', '伦敦', '英国'), ('德黑兰', '伊朗', '马德里', '西班牙'), ('德黑兰', '伊朗', '莫斯科', '俄罗斯'), ('德黑兰', '伊朗', '奥斯陆', '挪威'), ('德黑兰', '伊朗', '渥太华', '加拿大'), ('德黑兰', '伊朗', '巴黎', '法国'), ('德黑兰', '伊朗', '罗马', '意大利'), ('德黑兰', '伊朗', '斯德哥尔摩', '瑞典'), ('东京', '日本', '雅典', '希腊'), ('东京', '日本', '巴格达', '伊拉克'), ('东京', '日本', '曼谷', '泰国'), ('东京', '日本', '北京', '中国'), ('东京', '日本', '柏林', '德国'), ('东京', '日本', '开罗', '埃及'), ('东京', '日本', '堪培拉', '澳大利亚'), ('东京', '日本', '河内', '越南'), ('东京', '日本', '哈瓦那', '古巴'), ('东京', '日本', '赫尔辛基', '芬兰'), ('东京', '日本', '伊斯兰堡', '巴基斯坦'), ('东京', '日本', '喀布尔', '阿富汗'), ('东京', '日本', '伦敦', '英国'), ('东京', '日本', '马德里', '西班牙'), ('东京', '日本', '莫斯科', '俄罗斯'), ('东京', '日本', '奥斯陆', '挪威'), ('东京', '日本', '渥太华', '加拿大'), ('东京', '日本', '巴黎', '法国'), ('东京', '日本', '罗马', '意大利'), ('东京', '日本', '斯德哥尔摩', '瑞典'), ('东京', '日本', '德黑兰', '伊朗')], 'incorrect': [('雅典', '希腊', '北京', '中国'), ('雅典', '希腊', '伯尔尼', '瑞士'), ('雅典', '希腊', '堪培拉', '澳大利亚'), ('巴格达', '伊拉克', '伯尔尼', '瑞士'), ('曼谷', '泰国', '喀布尔', '阿富汗'), ('曼谷', '泰国', '雅典', '希腊'), ('北京', '中国', '伯尔尼', '瑞士'), ('北京', '中国', '堪培拉', '澳大利亚'), ('北京', '中国', '渥太华', '加拿大'), ('北京', '中国', '巴格达', '伊拉克'), ('柏林', '德国', '奥斯陆', '挪威'), ('伯尔尼', '瑞士', '喀布尔', '阿富汗'), ('伯尔尼', '瑞士', '伦敦', '英国'), ('伯尔尼', '瑞士', '马德里', '西班牙'), ('伯尔尼', '瑞士', '巴黎', '法国'), ('伯尔尼', '瑞士', '雅典', '希腊'), ('伯尔尼', '瑞士', '巴格达', '伊拉克'), ('伯尔尼', '瑞士', '北京', '中国'), ('开罗', '埃及', '伯尔尼', '瑞士'), ('堪培拉', '澳大利亚', '雅典', '希腊'), ('堪培拉', '澳大利亚', '北京', '中国'), ('河内', '越南', '伯尔尼', '瑞士'), ('哈瓦那', '古巴', '伯尔尼', '瑞士'), ('伊斯兰堡', '巴基斯坦', '雅典', '希腊'), ('伊斯兰堡', '巴基斯坦', '北京', '中国'), ('伊斯兰堡', '巴基斯坦', '伯尔尼', '瑞士'), ('喀布尔', '阿富汗', '伯尔尼', '瑞士'), ('伦敦', '英国', '雅典', '希腊'), ('马德里', '西班牙', '伯尔尼', '瑞士'), ('莫斯科', '俄罗斯', '伯尔尼', '瑞士'), ('莫斯科', '俄罗斯', '喀布尔', '阿富汗'), ('渥太华', '加拿大', '雅典', '希腊'), ('渥太华', '加拿大', '北京', '中国'), ('渥太华', '加拿大', '马德里', '西班牙'), ('巴黎', '法国', '伯尔尼', '瑞士'), ('罗马', '意大利', '雅典', '希腊'), ('罗马', '意大利', '北京', '中国'), ('罗马', '意大利', '开罗', '埃及'), ('罗马', '意大利', '喀布尔', '阿富汗'), ('斯德哥尔摩', '瑞典', '北京', '中国'), ('斯德哥尔摩', '瑞典', '伯尔尼', '瑞士'), ('斯德哥尔摩', '瑞典', '喀布尔', '阿富汗'), ('德黑兰', '伊朗', '伯尔尼', '瑞士'), ('东京', '日本', '伯尔尼', '瑞士')]}, {'section': 'city-in-state', 'correct': [('石家庄', '河北', '南昌', '江西'), ('石家庄', '河北', '海口', '海南'), ('石家庄', '河北', '兰州', '甘肃'), ('石家庄', '河北', '西宁', '青海'), ('太原', '山西', '南昌', '江西'), ('太原', '山西', '广州', '广东'), ('太原', '山西', '西宁', '青海'), ('沈阳', '辽宁', '哈尔滨', '黑龙江'), ('沈阳', '辽宁', '杭州', '浙江'), ('沈阳', '辽宁', '南昌', '江西'), ('沈阳', '辽宁', '贵阳', '贵州'), ('沈阳', '辽宁', '兰州', '甘肃'), ('沈阳', '辽宁', '南宁', '广西'), ('沈阳', '辽宁', '银川', '宁夏'), ('长春', '吉林', '石家庄', '河北'), ('长春', '吉林', '哈尔滨', '黑龙江'), ('长春', '吉林', '南京', '江苏'), ('长春', '吉林', '杭州', '浙江'), ('长春', '吉林', '合肥', '安徽'), ('长春', '吉林', '南昌', '江西'), ('长春', '吉林', '广州', '广东'), ('长春', '吉林', '贵阳', '贵州'), ('长春', '吉林', '西安', '陕西'), ('长春', '吉林', '呼和浩特', '内蒙古'), ('哈尔滨', '黑龙江', '南京', '江苏'), ('哈尔滨', '黑龙江', '南昌', '江西'), ('哈尔滨', '黑龙江', '贵阳', '贵州'), ('哈尔滨', '黑龙江', '昆明', '云南'), ('哈尔滨', '黑龙江', '南宁', '广西'), ('南京', '江苏', '杭州', '浙江'), ('南京', '江苏', '合肥', '安徽'), ('南京', '江苏', '福州', '福建'), ('南京', '江苏', '郑州', '河南'), ('南京', '江苏', '广州', '广东'), ('南京', '江苏', '成都', '四川'), ('南京', '江苏', '贵阳', '贵州'), ('南京', '江苏', '西安', '陕西'), ('杭州', '浙江', '广州', '广东'), ('杭州', '浙江', '海口', '海南'), ('杭州', '浙江', '西宁', '青海'), ('杭州', '浙江', '南宁', '广西'), ('合肥', '安徽', '太原', '山西'), ('合肥', '安徽', '沈阳', '辽宁'), ('合肥', '安徽', '长春', '吉林'), ('合肥', '安徽', '杭州', '浙江'), ('合肥', '安徽', '成都', '四川'), ('合肥', '安徽', '兰州', '甘肃'), ('福州', '福建', '石家庄', '河北'), ('福州', '福建', '南昌', '江西'), ('福州', '福建', '郑州', '河南'), ('福州', '福建', '贵阳', '贵州'), ('福州', '福建', '昆明', '云南'), ('福州', '福建', '乌鲁木齐', '新疆'), ('南昌', '江西', '长春', '吉林'), ('南昌', '江西', '福州', '福建'), ('南昌', '江西', '海口', '海南'), ('南昌', '江西', '银川', '宁夏'), ('济南', '山东', '太原', '山西'), ('济南', '山东', '杭州', '浙江'), ('济南', '山东', '合肥', '安徽'), ('济南', '山东', '长沙', '湖南'), ('济南', '山东', '海口', '海南'), ('济南', '山东', '贵阳', '贵州'), ('济南', '山东', '西安', '陕西'), ('郑州', '河南', '长春', '吉林'), ('郑州', '河南', '福州', '福建'), ('郑州', '河南', '武汉', '湖北'), ('郑州', '河南', '长沙', '湖南'), ('郑州', '河南', '成都', '四川'), ('郑州', '河南', '昆明', '云南'), ('郑州', '河南', '兰州', '甘肃'), ('郑州', '河南', '银川', '宁夏'), ('武汉', '湖北', '沈阳', '辽宁'), ('武汉', '湖北', '杭州', '浙江'), ('武汉', '湖北', '西安', '陕西'), ('武汉', '湖北', '兰州', '甘肃'), ('武汉', '湖北', '西宁', '青海'), ('武汉', '湖北', '银川', '宁夏'), ('长沙', '湖南', '合肥', '安徽'), ('长沙', '湖南', '济南', '山东'), ('长沙', '湖南', '广州', '广东'), ('长沙', '湖南', '拉萨', '西藏'), ('广州', '广东', '石家庄', '河北'), ('广州', '广东', '沈阳', '辽宁'), ('广州', '广东', '南京', '江苏'), ('广州', '广东', '杭州', '浙江'), ('广州', '广东', '福州', '福建'), ('广州', '广东', '南昌', '江西'), ('广州', '广东', '济南', '山东'), ('广州', '广东', '拉萨', '西藏'), ('广州', '广东', '呼和浩特', '内蒙古'), ('海口', '海南', '济南', '山东'), ('海口', '海南', '武汉', '湖北'), ('海口', '海南', '长沙', '湖南'), ('海口', '海南', '西安', '陕西'), ('成都', '四川', '太原', '山西'), ('成都', '四川', '哈尔滨', '黑龙江'), ('成都', '四川', '南京', '江苏'), ('成都', '四川', '杭州', '浙江'), ('成都', '四川', '长沙', '湖南'), ('成都', '四川', '兰州', '甘肃'), ('成都', '四川', '南宁', '广西'), ('成都', '四川', '呼和浩特', '内蒙古'), ('成都', '四川', '银川', '宁夏'), ('贵阳', '贵州', '石家庄', '河北'), ('贵阳', '贵州', '太原', '山西'), ('贵阳', '贵州', '哈尔滨', '黑龙江'), ('贵阳', '贵州', '南昌', '江西'), ('贵阳', '贵州', '济南', '山东'), ('贵阳', '贵州', '广州', '广东'), ('贵阳', '贵州', '西安', '陕西'), ('贵阳', '贵州', '拉萨', '西藏'), ('昆明', '云南', '长春', '吉林'), ('昆明', '云南', '杭州', '浙江'), ('昆明', '云南', '合肥', '安徽'), ('昆明', '云南', '济南', '山东'), ('昆明', '云南', '武汉', '湖北'), ('昆明', '云南', '广州', '广东'), ('昆明', '云南', '兰州', '甘肃'), ('昆明', '云南', '西宁', '青海'), ('昆明', '云南', '呼和浩特', '内蒙古'), ('昆明', '云南', '乌鲁木齐', '新疆'), ('西安', '陕西', '石家庄', '河北'), ('西安', '陕西', '哈尔滨', '黑龙江'), ('西安', '陕西', '南京', '江苏'), ('西安', '陕西', '武汉', '湖北'), ('西安', '陕西', '海口', '海南'), ('西安', '陕西', '贵阳', '贵州'), ('西安', '陕西', '呼和浩特', '内蒙古'), ('兰州', '甘肃', '武汉', '湖北'), ('兰州', '甘肃', '海口', '海南'), ('兰州', '甘肃', '西宁', '青海'), ('兰州', '甘肃', '拉萨', '西藏'), ('兰州', '甘肃', '南宁', '广西'), ('兰州', '甘肃', '呼和浩特', '内蒙古'), ('兰州', '甘肃', '银川', '宁夏'), ('西宁', '青海', '哈尔滨', '黑龙江'), ('西宁', '青海', '南京', '江苏'), ('西宁', '青海', '杭州', '浙江'), ('西宁', '青海', '济南', '山东'), ('西宁', '青海', '成都', '四川'), ('西宁', '青海', '贵阳', '贵州'), ('西宁', '青海', '南宁', '广西'), ('西宁', '青海', '银川', '宁夏'), ('拉萨', '西藏', '石家庄', '河北'), ('拉萨', '西藏', '哈尔滨', '黑龙江'), ('拉萨', '西藏', '福州', '福建'), ('拉萨', '西藏', '长沙', '湖南'), ('拉萨', '西藏', '贵阳', '贵州'), ('拉萨', '西藏', '西宁', '青海'), ('南宁', '广西', '杭州', '浙江'), ('南宁', '广西', '福州', '福建'), ('南宁', '广西', '南昌', '江西'), ('南宁', '广西', '成都', '四川'), ('南宁', '广西', '昆明', '云南'), ('呼和浩特', '内蒙古', '太原', '山西'), ('呼和浩特', '内蒙古', '昆明', '云南'), ('呼和浩特', '内蒙古', '西安', '陕西'), ('呼和浩特', '内蒙古', '兰州', '甘肃'), ('呼和浩特', '内蒙古', '拉萨', '西藏'), ('银川', '宁夏', '福州', '福建'), ('银川', '宁夏', '拉萨', '西藏'), ('乌鲁木齐', '新疆', '石家庄', '河北'), ('乌鲁木齐', '新疆', '沈阳', '辽宁'), ('乌鲁木齐', '新疆', '哈尔滨', '黑龙江'), ('乌鲁木齐', '新疆', '合肥', '安徽'), ('乌鲁木齐', '新疆', '广州', '广东'), ('乌鲁木齐', '新疆', '成都', '四川'), ('乌鲁木齐', '新疆', '西安', '陕西'), ('乌鲁木齐', '新疆', '兰州', '甘肃'), ('乌鲁木齐', '新疆', '南宁', '广西')], 'incorrect': [('南京', '江苏', '呼和浩特', '内蒙古'), ('武汉', '湖北', '拉萨', '西藏'), ('海口', '海南', '南京', '江苏'), ('拉萨', '西藏', '郑州', '河南')]}, {'section': 'family', 'correct': [('男孩', '女孩', '兄弟', '姐妹'), ('男孩', '女孩', '爸爸', '妈妈'), ('男孩', '女孩', '父亲', '母亲'), ('男孩', '女孩', '爷爷', '奶奶'), ('男孩', '女孩', '丈夫', '妻子'), ('男孩', '女孩', '国王', '王后'), ('男孩', '女孩', '男人', '女人'), ('男孩', '女孩', '王子', '公主'), ('男孩', '女孩', '儿子', '女儿'), ('男孩', '女孩', '继子', '继女'), ('兄弟', '姐妹', '爸爸', '妈妈'), ('兄弟', '姐妹', '父亲', '母亲'), ('兄弟', '姐妹', '祖父', '祖母'), ('兄弟', '姐妹', '爷爷', '奶奶'), ('兄弟', '姐妹', '孙子', '孙女'), ('兄弟', '姐妹', '新郎', '新娘'), ('兄弟', '姐妹', '丈夫', '妻子'), ('兄弟', '姐妹', '国王', '王后'), ('兄弟', '姐妹', '男人', '女人'), ('兄弟', '姐妹', '侄子', '侄女'), ('兄弟', '姐妹', '王子', '公主'), ('兄弟', '姐妹', '儿子', '女儿'), ('兄弟', '姐妹', '继父', '继母'), ('兄弟', '姐妹', '继子', '继女'), ('兄弟', '姐妹', '男孩', '女孩'), ('爸爸', '妈妈', '父亲', '母亲'), ('爸爸', '妈妈', '爷爷', '奶奶'), ('爸爸', '妈妈', '孙子', '孙女'), ('爸爸', '妈妈', '新郎', '新娘'), ('爸爸', '妈妈', '丈夫', '妻子'), ('爸爸', '妈妈', '国王', '王后'), ('爸爸', '妈妈', '男人', '女人'), ('爸爸', '妈妈', '儿子', '女儿'), ('爸爸', '妈妈', '继子', '继女'), ('爸爸', '妈妈', '男孩', '女孩'), ('爸爸', '妈妈', '兄弟', '姐妹'), ('父亲', '母亲', '祖父', '祖母'), ('父亲', '母亲', '爷爷', '奶奶'), ('父亲', '母亲', '孙子', '孙女'), ('父亲', '母亲', '新郎', '新娘'), ('父亲', '母亲', '丈夫', '妻子'), ('父亲', '母亲', '国王', '王后'), ('父亲', '母亲', '男人', '女人'), ('父亲', '母亲', '侄子', '侄女'), ('父亲', '母亲', '儿子', '女儿'), ('父亲', '母亲', '继父', '继母'), ('父亲', '母亲', '继子', '继女'), ('父亲', '母亲', '男孩', '女孩'), ('父亲', '母亲', '兄弟', '姐妹'), ('父亲', '母亲', '爸爸', '妈妈'), ('祖父', '祖母', '爷爷', '奶奶'), ('祖父', '祖母', '新郎', '新娘'), ('祖父', '祖母', '丈夫', '妻子'), ('祖父', '祖母', '国王', '王后'), ('祖父', '祖母', '男人', '女人'), ('祖父', '祖母', '儿子', '女儿'), ('祖父', '祖母', '继父', '继母'), ('祖父', '祖母', '继子', '继女'), ('祖父', '祖母', '男孩', '女孩'), ('祖父', '祖母', '兄弟', '姐妹'), ('祖父', '祖母', '爸爸', '妈妈'), ('祖父', '祖母', '父亲', '母亲'), ('爷爷', '奶奶', '新郎', '新娘'), ('爷爷', '奶奶', '丈夫', '妻子'), ('爷爷', '奶奶', '国王', '王后'), ('爷爷', '奶奶', '男人', '女人'), ('爷爷', '奶奶', '儿子', '女儿'), ('爷爷', '奶奶', '继父', '继母'), ('爷爷', '奶奶', '继子', '继女'), ('爷爷', '奶奶', '叔叔', '阿姨'), ('爷爷', '奶奶', '男孩', '女孩'), ('爷爷', '奶奶', '兄弟', '姐妹'), ('爷爷', '奶奶', '爸爸', '妈妈'), ('爷爷', '奶奶', '父亲', '母亲'), ('孙子', '孙女', '丈夫', '妻子'), ('孙子', '孙女', '男人', '女人'), ('孙子', '孙女', '侄子', '侄女'), ('孙子', '孙女', '王子', '公主'), ('孙子', '孙女', '儿子', '女儿'), ('孙子', '孙女', '继父', '继母'), ('孙子', '孙女', '继子', '继女'), ('孙子', '孙女', '男孩', '女孩'), ('孙子', '孙女', '兄弟', '姐妹'), ('孙子', '孙女', '爸爸', '妈妈'), ('孙子', '孙女', '父亲', '母亲'), ('孙子', '孙女', '爷爷', '奶奶'), ('新郎', '新娘', '丈夫', '妻子'), ('新郎', '新娘', '国王', '王后'), ('新郎', '新娘', '男人', '女人'), ('新郎', '新娘', '王子', '公主'), ('新郎', '新娘', '儿子', '女儿'), ('新郎', '新娘', '继父', '继母'), ('新郎', '新娘', '继子', '继女'), ('新郎', '新娘', '男孩', '女孩'), ('新郎', '新娘', '兄弟', '姐妹'), ('新郎', '新娘', '爸爸', '妈妈'), ('新郎', '新娘', '父亲', '母亲'), ('新郎', '新娘', '爷爷', '奶奶'), ('新郎', '新娘', '孙子', '孙女'), ('丈夫', '妻子', '男人', '女人'), ('丈夫', '妻子', '王子', '公主'), ('丈夫', '妻子', '儿子', '女儿'), ('丈夫', '妻子', '继父', '继母'), ('丈夫', '妻子', '继子', '继女'), ('丈夫', '妻子', '男孩', '女孩'), ('丈夫', '妻子', '兄弟', '姐妹'), ('丈夫', '妻子', '爸爸', '妈妈'), ('丈夫', '妻子', '父亲', '母亲'), ('丈夫', '妻子', '爷爷', '奶奶'), ('丈夫', '妻子', '新郎', '新娘'), ('国王', '王后', '男人', '女人'), ('国王', '王后', '侄子', '侄女'), ('国王', '王后', '王子', '公主'), ('国王', '王后', '儿子', '女儿'), ('国王', '王后', '继父', '继母'), ('国王', '王后', '继子', '继女'), ('国王', '王后', '男孩', '女孩'), ('国王', '王后', '兄弟', '姐妹'), ('国王', '王后', '爸爸', '妈妈'), ('国王', '王后', '父亲', '母亲'), ('国王', '王后', '爷爷', '奶奶'), ('国王', '王后', '孙子', '孙女'), ('国王', '王后', '新郎', '新娘'), ('国王', '王后', '丈夫', '妻子'), ('男人', '女人', '王子', '公主'), ('男人', '女人', '儿子', '女儿'), ('男人', '女人', '继父', '继母'), ('男人', '女人', '继子', '继女'), ('男人', '女人', '男孩', '女孩'), ('男人', '女人', '兄弟', '姐妹'), ('男人', '女人', '爸爸', '妈妈'), ('男人', '女人', '父亲', '母亲'), ('男人', '女人', '爷爷', '奶奶'), ('男人', '女人', '孙子', '孙女'), ('男人', '女人', '新郎', '新娘'), ('男人', '女人', '丈夫', '妻子'), ('男人', '女人', '国王', '王后'), ('侄子', '侄女', '王子', '公主'), ('侄子', '侄女', '儿子', '女儿'), ('侄子', '侄女', '继子', '继女'), ('侄子', '侄女', '男孩', '女孩'), ('侄子', '侄女', '兄弟', '姐妹'), ('侄子', '侄女', '爸爸', '妈妈'), ('侄子', '侄女', '父亲', '母亲'), ('侄子', '侄女', '祖父', '祖母'), ('侄子', '侄女', '爷爷', '奶奶'), ('侄子', '侄女', '孙子', '孙女'), ('侄子', '侄女', '新郎', '新娘'), ('侄子', '侄女', '丈夫', '妻子'), ('侄子', '侄女', '男人', '女人'), ('王子', '公主', '儿子', '女儿'), ('王子', '公主', '继父', '继母'), ('王子', '公主', '继子', '继女'), ('王子', '公主', '男孩', '女孩'), ('王子', '公主', '爸爸', '妈妈'), ('王子', '公主', '父亲', '母亲'), ('王子', '公主', '爷爷', '奶奶'), ('王子', '公主', '孙子', '孙女'), ('王子', '公主', '新郎', '新娘'), ('王子', '公主', '丈夫', '妻子'), ('王子', '公主', '国王', '王后'), ('王子', '公主', '男人', '女人'), ('王子', '公主', '侄子', '侄女'), ('儿子', '女儿', '继父', '继母'), ('儿子', '女儿', '继子', '继女'), ('儿子', '女儿', '男孩', '女孩'), ('儿子', '女儿', '兄弟', '姐妹'), ('儿子', '女儿', '爸爸', '妈妈'), ('儿子', '女儿', '父亲', '母亲'), ('儿子', '女儿', '爷爷', '奶奶'), ('儿子', '女儿', '孙子', '孙女'), ('儿子', '女儿', '新郎', '新娘'), ('儿子', '女儿', '丈夫', '妻子'), ('儿子', '女儿', '国王', '王后'), ('儿子', '女儿', '男人', '女人'), ('儿子', '女儿', '侄子', '侄女'), ('继父', '继母', '继子', '继女'), ('继父', '继母', '男孩', '女孩'), ('继父', '继母', '兄弟', '姐妹'), ('继父', '继母', '爸爸', '妈妈'), ('继父', '继母', '父亲', '母亲'), ('继父', '继母', '爷爷', '奶奶'), ('继父', '继母', '孙子', '孙女'), ('继父', '继母', '新郎', '新娘'), ('继父', '继母', '丈夫', '妻子'), ('继父', '继母', '国王', '王后'), ('继父', '继母', '男人', '女人'), ('继父', '继母', '儿子', '女儿'), ('继子', '继女', '男孩', '女孩'), ('继子', '继女', '兄弟', '姐妹'), ('继子', '继女', '爸爸', '妈妈'), ('继子', '继女', '父亲', '母亲'), ('继子', '继女', '爷爷', '奶奶'), ('继子', '继女', '孙子', '孙女'), ('继子', '继女', '新郎', '新娘'), ('继子', '继女', '丈夫', '妻子'), ('继子', '继女', '男人', '女人'), ('继子', '继女', '儿子', '女儿'), ('继子', '继女', '继父', '继母'), ('叔叔', '阿姨', '男孩', '女孩'), ('叔叔', '阿姨', '兄弟', '姐妹'), ('叔叔', '阿姨', '爸爸', '妈妈'), ('叔叔', '阿姨', '父亲', '母亲'), ('叔叔', '阿姨', '爷爷', '奶奶'), ('叔叔', '阿姨', '丈夫', '妻子'), ('叔叔', '阿姨', '男人', '女人'), ('叔叔', '阿姨', '儿子', '女儿'), ('叔叔', '阿姨', '继子', '继女')], 'incorrect': [('男孩', '女孩', '祖父', '祖母'), ('男孩', '女孩', '孙子', '孙女'), ('男孩', '女孩', '新郎', '新娘'), ('男孩', '女孩', '侄子', '侄女'), ('男孩', '女孩', '继父', '继母'), ('男孩', '女孩', '叔叔', '阿姨'), ('兄弟', '姐妹', '叔叔', '阿姨'), ('爸爸', '妈妈', '祖父', '祖母'), ('爸爸', '妈妈', '侄子', '侄女'), ('爸爸', '妈妈', '王子', '公主'), ('爸爸', '妈妈', '继父', '继母'), ('爸爸', '妈妈', '叔叔', '阿姨'), ('父亲', '母亲', '王子', '公主'), ('父亲', '母亲', '叔叔', '阿姨'), ('祖父', '祖母', '孙子', '孙女'), ('祖父', '祖母', '侄子', '侄女'), ('祖父', '祖母', '王子', '公主'), ('祖父', '祖母', '叔叔', '阿姨'), ('爷爷', '奶奶', '孙子', '孙女'), ('爷爷', '奶奶', '侄子', '侄女'), ('爷爷', '奶奶', '王子', '公主'), ('爷爷', '奶奶', '祖父', '祖母'), ('孙子', '孙女', '新郎', '新娘'), ('孙子', '孙女', '国王', '王后'), ('孙子', '孙女', '叔叔', '阿姨'), ('孙子', '孙女', '祖父', '祖母'), ('新郎', '新娘', '侄子', '侄女'), ('新郎', '新娘', '叔叔', '阿姨'), ('新郎', '新娘', '祖父', '祖母'), ('丈夫', '妻子', '国王', '王后'), ('丈夫', '妻子', '侄子', '侄女'), ('丈夫', '妻子', '叔叔', '阿姨'), ('丈夫', '妻子', '祖父', '祖母'), ('丈夫', '妻子', '孙子', '孙女'), ('国王', '王后', '叔叔', '阿姨'), ('国王', '王后', '祖父', '祖母'), ('男人', '女人', '侄子', '侄女'), ('男人', '女人', '叔叔', '阿姨'), ('男人', '女人', '祖父', '祖母'), ('侄子', '侄女', '继父', '继母'), ('侄子', '侄女', '叔叔', '阿姨'), ('侄子', '侄女', '国王', '王后'), ('王子', '公主', '叔叔', '阿姨'), ('王子', '公主', '兄弟', '姐妹'), ('王子', '公主', '祖父', '祖母'), ('儿子', '女儿', '叔叔', '阿姨'), ('儿子', '女儿', '祖父', '祖母'), ('儿子', '女儿', '王子', '公主'), ('继父', '继母', '叔叔', '阿姨'), ('继父', '继母', '祖父', '祖母'), ('继父', '继母', '侄子', '侄女'), ('继父', '继母', '王子', '公主'), ('继子', '继女', '叔叔', '阿姨'), ('继子', '继女', '祖父', '祖母'), ('继子', '继女', '国王', '王后'), ('继子', '继女', '侄子', '侄女'), ('继子', '继女', '王子', '公主'), ('叔叔', '阿姨', '祖父', '祖母'), ('叔叔', '阿姨', '孙子', '孙女'), ('叔叔', '阿姨', '新郎', '新娘'), ('叔叔', '阿姨', '国王', '王后'), ('叔叔', '阿姨', '侄子', '侄女'), ('叔叔', '阿姨', '王子', '公主'), ('叔叔', '阿姨', '继父', '继母')]}, {'section': 'Total accuracy', 'correct': [('雅典', '希腊', '巴格达', '伊拉克'), ('雅典', '希腊', '曼谷', '泰国'), ('雅典', '希腊', '柏林', '德国'), ('雅典', '希腊', '开罗', '埃及'), ('雅典', '希腊', '河内', '越南'), ('雅典', '希腊', '哈瓦那', '古巴'), ('雅典', '希腊', '赫尔辛基', '芬兰'), ('雅典', '希腊', '伊斯兰堡', '巴基斯坦'), ('雅典', '希腊', '喀布尔', '阿富汗'), ('雅典', '希腊', '伦敦', '英国'), ('雅典', '希腊', '马德里', '西班牙'), ('雅典', '希腊', '莫斯科', '俄罗斯'), ('雅典', '希腊', '奥斯陆', '挪威'), ('雅典', '希腊', '渥太华', '加拿大'), ('雅典', '希腊', '巴黎', '法国'), ('雅典', '希腊', '罗马', '意大利'), ('雅典', '希腊', '斯德哥尔摩', '瑞典'), ('雅典', '希腊', '德黑兰', '伊朗'), ('雅典', '希腊', '东京', '日本'), ('巴格达', '伊拉克', '曼谷', '泰国'), ('巴格达', '伊拉克', '北京', '中国'), ('巴格达', '伊拉克', '柏林', '德国'), ('巴格达', '伊拉克', '开罗', '埃及'), ('巴格达', '伊拉克', '堪培拉', '澳大利亚'), ('巴格达', '伊拉克', '河内', '越南'), ('巴格达', '伊拉克', '哈瓦那', '古巴'), ('巴格达', '伊拉克', '赫尔辛基', '芬兰'), ('巴格达', '伊拉克', '伊斯兰堡', '巴基斯坦'), ('巴格达', '伊拉克', '喀布尔', '阿富汗'), ('巴格达', '伊拉克', '伦敦', '英国'), ('巴格达', '伊拉克', '马德里', '西班牙'), ('巴格达', '伊拉克', '莫斯科', '俄罗斯'), ('巴格达', '伊拉克', '奥斯陆', '挪威'), ('巴格达', '伊拉克', '渥太华', '加拿大'), ('巴格达', '伊拉克', '巴黎', '法国'), ('巴格达', '伊拉克', '罗马', '意大利'), ('巴格达', '伊拉克', '斯德哥尔摩', '瑞典'), ('巴格达', '伊拉克', '德黑兰', '伊朗'), ('巴格达', '伊拉克', '东京', '日本'), ('巴格达', '伊拉克', '雅典', '希腊'), ('曼谷', '泰国', '北京', '中国'), ('曼谷', '泰国', '柏林', '德国'), ('曼谷', '泰国', '伯尔尼', '瑞士'), ('曼谷', '泰国', '开罗', '埃及'), ('曼谷', '泰国', '堪培拉', '澳大利亚'), ('曼谷', '泰国', '河内', '越南'), ('曼谷', '泰国', '哈瓦那', '古巴'), ('曼谷', '泰国', '赫尔辛基', '芬兰'), ('曼谷', '泰国', '伊斯兰堡', '巴基斯坦'), ('曼谷', '泰国', '伦敦', '英国'), ('曼谷', '泰国', '马德里', '西班牙'), ('曼谷', '泰国', '莫斯科', '俄罗斯'), ('曼谷', '泰国', '奥斯陆', '挪威'), ('曼谷', '泰国', '渥太华', '加拿大'), ('曼谷', '泰国', '巴黎', '法国'), ('曼谷', '泰国', '罗马', '意大利'), ('曼谷', '泰国', '斯德哥尔摩', '瑞典'), ('曼谷', '泰国', '德黑兰', '伊朗'), ('曼谷', '泰国', '东京', '日本'), ('曼谷', '泰国', '巴格达', '伊拉克'), ('北京', '中国', '柏林', '德国'), ('北京', '中国', '开罗', '埃及'), ('北京', '中国', '河内', '越南'), ('北京', '中国', '哈瓦那', '古巴'), ('北京', '中国', '赫尔辛基', '芬兰'), ('北京', '中国', '伊斯兰堡', '巴基斯坦'), ('北京', '中国', '喀布尔', '阿富汗'), ('北京', '中国', '伦敦', '英国'), ('北京', '中国', '马德里', '西班牙'), ('北京', '中国', '莫斯科', '俄罗斯'), ('北京', '中国', '奥斯陆', '挪威'), ('北京', '中国', '巴黎', '法国'), ('北京', '中国', '罗马', '意大利'), ('北京', '中国', '斯德哥尔摩', '瑞典'), ('北京', '中国', '德黑兰', '伊朗'), ('北京', '中国', '东京', '日本'), ('北京', '中国', '雅典', '希腊'), ('北京', '中国', '曼谷', '泰国'), ('柏林', '德国', '伯尔尼', '瑞士'), ('柏林', '德国', '开罗', '埃及'), ('柏林', '德国', '堪培拉', '澳大利亚'), ('柏林', '德国', '河内', '越南'), ('柏林', '德国', '哈瓦那', '古巴'), ('柏林', '德国', '赫尔辛基', '芬兰'), ('柏林', '德国', '伊斯兰堡', '巴基斯坦'), ('柏林', '德国', '喀布尔', '阿富汗'), ('柏林', '德国', '伦敦', '英国'), ('柏林', '德国', '马德里', '西班牙'), ('柏林', '德国', '莫斯科', '俄罗斯'), ('柏林', '德国', '渥太华', '加拿大'), ('柏林', '德国', '巴黎', '法国'), ('柏林', '德国', '罗马', '意大利'), ('柏林', '德国', '斯德哥尔摩', '瑞典'), ('柏林', '德国', '德黑兰', '伊朗'), ('柏林', '德国', '东京', '日本'), ('柏林', '德国', '雅典', '希腊'), ('柏林', '德国', '巴格达', '伊拉克'), ('柏林', '德国', '曼谷', '泰国'), ('柏林', '德国', '北京', '中国'), ('伯尔尼', '瑞士', '开罗', '埃及'), ('伯尔尼', '瑞士', '堪培拉', '澳大利亚'), ('伯尔尼', '瑞士', '河内', '越南'), ('伯尔尼', '瑞士', '哈瓦那', '古巴'), ('伯尔尼', '瑞士', '赫尔辛基', '芬兰'), ('伯尔尼', '瑞士', '伊斯兰堡', '巴基斯坦'), ('伯尔尼', '瑞士', '莫斯科', '俄罗斯'), ('伯尔尼', '瑞士', '奥斯陆', '挪威'), ('伯尔尼', '瑞士', '渥太华', '加拿大'), ('伯尔尼', '瑞士', '罗马', '意大利'), ('伯尔尼', '瑞士', '斯德哥尔摩', '瑞典'), ('伯尔尼', '瑞士', '德黑兰', '伊朗'), ('伯尔尼', '瑞士', '东京', '日本'), ('伯尔尼', '瑞士', '曼谷', '泰国'), ('伯尔尼', '瑞士', '柏林', '德国'), ('开罗', '埃及', '堪培拉', '澳大利亚'), ('开罗', '埃及', '河内', '越南'), ('开罗', '埃及', '哈瓦那', '古巴'), ('开罗', '埃及', '赫尔辛基', '芬兰'), ('开罗', '埃及', '伊斯兰堡', '巴基斯坦'), ('开罗', '埃及', '喀布尔', '阿富汗'), ('开罗', '埃及', '伦敦', '英国'), ('开罗', '埃及', '马德里', '西班牙'), ('开罗', '埃及', '莫斯科', '俄罗斯'), ('开罗', '埃及', '奥斯陆', '挪威'), ('开罗', '埃及', '渥太华', '加拿大'), ('开罗', '埃及', '巴黎', '法国'), ('开罗', '埃及', '罗马', '意大利'), ('开罗', '埃及', '斯德哥尔摩', '瑞典'), ('开罗', '埃及', '德黑兰', '伊朗'), ('开罗', '埃及', '东京', '日本'), ('开罗', '埃及', '雅典', '希腊'), ('开罗', '埃及', '巴格达', '伊拉克'), ('开罗', '埃及', '曼谷', '泰国'), ('开罗', '埃及', '北京', '中国'), ('开罗', '埃及', '柏林', '德国'), ('堪培拉', '澳大利亚', '河内', '越南'), ('堪培拉', '澳大利亚', '哈瓦那', '古巴'), ('堪培拉', '澳大利亚', '赫尔辛基', '芬兰'), ('堪培拉', '澳大利亚', '伊斯兰堡', '巴基斯坦'), ('堪培拉', '澳大利亚', '喀布尔', '阿富汗'), ('堪培拉', '澳大利亚', '伦敦', '英国'), ('堪培拉', '澳大利亚', '马德里', '西班牙'), ('堪培拉', '澳大利亚', '莫斯科', '俄罗斯'), ('堪培拉', '澳大利亚', '奥斯陆', '挪威'), ('堪培拉', '澳大利亚', '渥太华', '加拿大'), ('堪培拉', '澳大利亚', '巴黎', '法国'), ('堪培拉', '澳大利亚', '罗马', '意大利'), ('堪培拉', '澳大利亚', '斯德哥尔摩', '瑞典'), ('堪培拉', '澳大利亚', '德黑兰', '伊朗'), ('堪培拉', '澳大利亚', '东京', '日本'), ('堪培拉', '澳大利亚', '巴格达', '伊拉克'), ('堪培拉', '澳大利亚', '曼谷', '泰国'), ('堪培拉', '澳大利亚', '柏林', '德国'), ('堪培拉', '澳大利亚', '伯尔尼', '瑞士'), ('堪培拉', '澳大利亚', '开罗', '埃及'), ('河内', '越南', '哈瓦那', '古巴'), ('河内', '越南', '赫尔辛基', '芬兰'), ('河内', '越南', '伊斯兰堡', '巴基斯坦'), ('河内', '越南', '喀布尔', '阿富汗'), ('河内', '越南', '伦敦', '英国'), ('河内', '越南', '马德里', '西班牙'), ('河内', '越南', '莫斯科', '俄罗斯'), ('河内', '越南', '奥斯陆', '挪威'), ('河内', '越南', '渥太华', '加拿大'), ('河内', '越南', '巴黎', '法国'), ('河内', '越南', '罗马', '意大利'), ('河内', '越南', '斯德哥尔摩', '瑞典'), ('河内', '越南', '德黑兰', '伊朗'), ('河内', '越南', '东京', '日本'), ('河内', '越南', '雅典', '希腊'), ('河内', '越南', '巴格达', '伊拉克'), ('河内', '越南', '曼谷', '泰国'), ('河内', '越南', '北京', '中国'), ('河内', '越南', '柏林', '德国'), ('河内', '越南', '开罗', '埃及'), ('河内', '越南', '堪培拉', '澳大利亚'), ('哈瓦那', '古巴', '赫尔辛基', '芬兰'), ('哈瓦那', '古巴', '伊斯兰堡', '巴基斯坦'), ('哈瓦那', '古巴', '喀布尔', '阿富汗'), ('哈瓦那', '古巴', '伦敦', '英国'), ('哈瓦那', '古巴', '马德里', '西班牙'), ('哈瓦那', '古巴', '莫斯科', '俄罗斯'), ('哈瓦那', '古巴', '奥斯陆', '挪威'), ('哈瓦那', '古巴', '渥太华', '加拿大'), ('哈瓦那', '古巴', '巴黎', '法国'), ('哈瓦那', '古巴', '罗马', '意大利'), ('哈瓦那', '古巴', '斯德哥尔摩', '瑞典'), ('哈瓦那', '古巴', '德黑兰', '伊朗'), ('哈瓦那', '古巴', '东京', '日本'), ('哈瓦那', '古巴', '雅典', '希腊'), ('哈瓦那', '古巴', '巴格达', '伊拉克'), ('哈瓦那', '古巴', '曼谷', '泰国'), ('哈瓦那', '古巴', '北京', '中国'), ('哈瓦那', '古巴', '柏林', '德国'), ('哈瓦那', '古巴', '开罗', '埃及'), ('哈瓦那', '古巴', '堪培拉', '澳大利亚'), ('哈瓦那', '古巴', '河内', '越南'), ('赫尔辛基', '芬兰', '伊斯兰堡', '巴基斯坦'), ('赫尔辛基', '芬兰', '喀布尔', '阿富汗'), ('赫尔辛基', '芬兰', '伦敦', '英国'), ('赫尔辛基', '芬兰', '马德里', '西班牙'), ('赫尔辛基', '芬兰', '莫斯科', '俄罗斯'), ('赫尔辛基', '芬兰', '奥斯陆', '挪威'), ('赫尔辛基', '芬兰', '渥太华', '加拿大'), ('赫尔辛基', '芬兰', '巴黎', '法国'), ('赫尔辛基', '芬兰', '罗马', '意大利'), ('赫尔辛基', '芬兰', '斯德哥尔摩', '瑞典'), ('赫尔辛基', '芬兰', '德黑兰', '伊朗'), ('赫尔辛基', '芬兰', '东京', '日本'), ('赫尔辛基', '芬兰', '雅典', '希腊'), ('赫尔辛基', '芬兰', '巴格达', '伊拉克'), ('赫尔辛基', '芬兰', '曼谷', '泰国'), ('赫尔辛基', '芬兰', '北京', '中国'), ('赫尔辛基', '芬兰', '柏林', '德国'), ('赫尔辛基', '芬兰', '伯尔尼', '瑞士'), ('赫尔辛基', '芬兰', '开罗', '埃及'), ('赫尔辛基', '芬兰', '堪培拉', '澳大利亚'), ('赫尔辛基', '芬兰', '河内', '越南'), ('赫尔辛基', '芬兰', '哈瓦那', '古巴'), ('伊斯兰堡', '巴基斯坦', '喀布尔', '阿富汗'), ('伊斯兰堡', '巴基斯坦', '伦敦', '英国'), ('伊斯兰堡', '巴基斯坦', '马德里', '西班牙'), ('伊斯兰堡', '巴基斯坦', '莫斯科', '俄罗斯'), ('伊斯兰堡', '巴基斯坦', '奥斯陆', '挪威'), ('伊斯兰堡', '巴基斯坦', '渥太华', '加拿大'), ('伊斯兰堡', '巴基斯坦', '巴黎', '法国'), ('伊斯兰堡', '巴基斯坦', '罗马', '意大利'), ('伊斯兰堡', '巴基斯坦', '斯德哥尔摩', '瑞典'), ('伊斯兰堡', '巴基斯坦', '德黑兰', '伊朗'), ('伊斯兰堡', '巴基斯坦', '东京', '日本'), ('伊斯兰堡', '巴基斯坦', '巴格达', '伊拉克'), ('伊斯兰堡', '巴基斯坦', '曼谷', '泰国'), ('伊斯兰堡', '巴基斯坦', '柏林', '德国'), ('伊斯兰堡', '巴基斯坦', '开罗', '埃及'), ('伊斯兰堡', '巴基斯坦', '堪培拉', '澳大利亚'), ('伊斯兰堡', '巴基斯坦', '河内', '越南'), ('伊斯兰堡', '巴基斯坦', '哈瓦那', '古巴'), ('伊斯兰堡', '巴基斯坦', '赫尔辛基', '芬兰'), ('喀布尔', '阿富汗', '伦敦', '英国'), ('喀布尔', '阿富汗', '马德里', '西班牙'), ('喀布尔', '阿富汗', '莫斯科', '俄罗斯'), ('喀布尔', '阿富汗', '奥斯陆', '挪威'), ('喀布尔', '阿富汗', '渥太华', '加拿大'), ('喀布尔', '阿富汗', '巴黎', '法国'), ('喀布尔', '阿富汗', '罗马', '意大利'), ('喀布尔', '阿富汗', '斯德哥尔摩', '瑞典'), ('喀布尔', '阿富汗', '德黑兰', '伊朗'), ('喀布尔', '阿富汗', '东京', '日本'), ('喀布尔', '阿富汗', '雅典', '希腊'), ('喀布尔', '阿富汗', '巴格达', '伊拉克'), ('喀布尔', '阿富汗', '曼谷', '泰国'), ('喀布尔', '阿富汗', '北京', '中国'), ('喀布尔', '阿富汗', '柏林', '德国'), ('喀布尔', '阿富汗', '开罗', '埃及'), ('喀布尔', '阿富汗', '堪培拉', '澳大利亚'), ('喀布尔', '阿富汗', '河内', '越南'), ('喀布尔', '阿富汗', '哈瓦那', '古巴'), ('喀布尔', '阿富汗', '赫尔辛基', '芬兰'), ('喀布尔', '阿富汗', '伊斯兰堡', '巴基斯坦'), ('伦敦', '英国', '马德里', '西班牙'), ('伦敦', '英国', '莫斯科', '俄罗斯'), ('伦敦', '英国', '奥斯陆', '挪威'), ('伦敦', '英国', '渥太华', '加拿大'), ('伦敦', '英国', '巴黎', '法国'), ('伦敦', '英国', '罗马', '意大利'), ('伦敦', '英国', '斯德哥尔摩', '瑞典'), ('伦敦', '英国', '德黑兰', '伊朗'), ('伦敦', '英国', '东京', '日本'), ('伦敦', '英国', '巴格达', '伊拉克'), ('伦敦', '英国', '曼谷', '泰国'), ('伦敦', '英国', '北京', '中国'), ('伦敦', '英国', '柏林', '德国'), ('伦敦', '英国', '伯尔尼', '瑞士'), ('伦敦', '英国', '开罗', '埃及'), ('伦敦', '英国', '堪培拉', '澳大利亚'), ('伦敦', '英国', '河内', '越南'), ('伦敦', '英国', '哈瓦那', '古巴'), ('伦敦', '英国', '赫尔辛基', '芬兰'), ('伦敦', '英国', '伊斯兰堡', '巴基斯坦'), ('伦敦', '英国', '喀布尔', '阿富汗'), ('马德里', '西班牙', '莫斯科', '俄罗斯'), ('马德里', '西班牙', '奥斯陆', '挪威'), ('马德里', '西班牙', '渥太华', '加拿大'), ('马德里', '西班牙', '巴黎', '法国'), ('马德里', '西班牙', '罗马', '意大利'), ('马德里', '西班牙', '斯德哥尔摩', '瑞典'), ('马德里', '西班牙', '德黑兰', '伊朗'), ('马德里', '西班牙', '东京', '日本'), ('马德里', '西班牙', '雅典', '希腊'), ('马德里', '西班牙', '巴格达', '伊拉克'), ('马德里', '西班牙', '曼谷', '泰国'), ('马德里', '西班牙', '北京', '中国'), ('马德里', '西班牙', '柏林', '德国'), ('马德里', '西班牙', '开罗', '埃及'), ('马德里', '西班牙', '堪培拉', '澳大利亚'), ('马德里', '西班牙', '河内', '越南'), ('马德里', '西班牙', '哈瓦那', '古巴'), ('马德里', '西班牙', '赫尔辛基', '芬兰'), ('马德里', '西班牙', '伊斯兰堡', '巴基斯坦'), ('马德里', '西班牙', '喀布尔', '阿富汗'), ('马德里', '西班牙', '伦敦', '英国'), ('莫斯科', '俄罗斯', '奥斯陆', '挪威'), ('莫斯科', '俄罗斯', '渥太华', '加拿大'), ('莫斯科', '俄罗斯', '巴黎', '法国'), ('莫斯科', '俄罗斯', '罗马', '意大利'), ('莫斯科', '俄罗斯', '斯德哥尔摩', '瑞典'), ('莫斯科', '俄罗斯', '德黑兰', '伊朗'), ('莫斯科', '俄罗斯', '东京', '日本'), ('莫斯科', '俄罗斯', '雅典', '希腊'), ('莫斯科', '俄罗斯', '巴格达', '伊拉克'), ('莫斯科', '俄罗斯', '曼谷', '泰国'), ('莫斯科', '俄罗斯', '北京', '中国'), ('莫斯科', '俄罗斯', '柏林', '德国'), ('莫斯科', '俄罗斯', '开罗', '埃及'), ('莫斯科', '俄罗斯', '堪培拉', '澳大利亚'), ('莫斯科', '俄罗斯', '河内', '越南'), ('莫斯科', '俄罗斯', '哈瓦那', '古巴'), ('莫斯科', '俄罗斯', '赫尔辛基', '芬兰'), ('莫斯科', '俄罗斯', '伊斯兰堡', '巴基斯坦'), ('莫斯科', '俄罗斯', '伦敦', '英国'), ('莫斯科', '俄罗斯', '马德里', '西班牙'), ('奥斯陆', '挪威', '渥太华', '加拿大'), ('奥斯陆', '挪威', '巴黎', '法国'), ('奥斯陆', '挪威', '罗马', '意大利'), ('奥斯陆', '挪威', '斯德哥尔摩', '瑞典'), ('奥斯陆', '挪威', '德黑兰', '伊朗'), ('奥斯陆', '挪威', '东京', '日本'), ('奥斯陆', '挪威', '雅典', '希腊'), ('奥斯陆', '挪威', '巴格达', '伊拉克'), ('奥斯陆', '挪威', '曼谷', '泰国'), ('奥斯陆', '挪威', '北京', '中国'), ('奥斯陆', '挪威', '柏林', '德国'), ('奥斯陆', '挪威', '伯尔尼', '瑞士'), ('奥斯陆', '挪威', '开罗', '埃及'), ('奥斯陆', '挪威', '堪培拉', '澳大利亚'), ('奥斯陆', '挪威', '河内', '越南'), ('奥斯陆', '挪威', '哈瓦那', '古巴'), ('奥斯陆', '挪威', '赫尔辛基', '芬兰'), ('奥斯陆', '挪威', '伊斯兰堡', '巴基斯坦'), ('奥斯陆', '挪威', '喀布尔', '阿富汗'), ('奥斯陆', '挪威', '伦敦', '英国'), ('奥斯陆', '挪威', '马德里', '西班牙'), ('奥斯陆', '挪威', '莫斯科', '俄罗斯'), ('渥太华', '加拿大', '巴黎', '法国'), ('渥太华', '加拿大', '罗马', '意大利'), ('渥太华', '加拿大', '斯德哥尔摩', '瑞典'), ('渥太华', '加拿大', '德黑兰', '伊朗'), ('渥太华', '加拿大', '东京', '日本'), ('渥太华', '加拿大', '巴格达', '伊拉克'), ('渥太华', '加拿大', '曼谷', '泰国'), ('渥太华', '加拿大', '柏林', '德国'), ('渥太华', '加拿大', '伯尔尼', '瑞士'), ('渥太华', '加拿大', '开罗', '埃及'), ('渥太华', '加拿大', '堪培拉', '澳大利亚'), ('渥太华', '加拿大', '河内', '越南'), ('渥太华', '加拿大', '哈瓦那', '古巴'), ('渥太华', '加拿大', '赫尔辛基', '芬兰'), ('渥太华', '加拿大', '伊斯兰堡', '巴基斯坦'), ('渥太华', '加拿大', '喀布尔', '阿富汗'), ('渥太华', '加拿大', '伦敦', '英国'), ('渥太华', '加拿大', '莫斯科', '俄罗斯'), ('渥太华', '加拿大', '奥斯陆', '挪威'), ('巴黎', '法国', '罗马', '意大利'), ('巴黎', '法国', '斯德哥尔摩', '瑞典'), ('巴黎', '法国', '德黑兰', '伊朗'), ('巴黎', '法国', '东京', '日本'), ('巴黎', '法国', '雅典', '希腊'), ('巴黎', '法国', '巴格达', '伊拉克'), ('巴黎', '法国', '曼谷', '泰国'), ('巴黎', '法国', '北京', '中国'), ('巴黎', '法国', '柏林', '德国'), ('巴黎', '法国', '开罗', '埃及'), ('巴黎', '法国', '堪培拉', '澳大利亚'), ('巴黎', '法国', '河内', '越南'), ('巴黎', '法国', '哈瓦那', '古巴'), ('巴黎', '法国', '赫尔辛基', '芬兰'), ('巴黎', '法国', '伊斯兰堡', '巴基斯坦'), ('巴黎', '法国', '喀布尔', '阿富汗'), ('巴黎', '法国', '伦敦', '英国'), ('巴黎', '法国', '马德里', '西班牙'), ('巴黎', '法国', '莫斯科', '俄罗斯'), ('巴黎', '法国', '奥斯陆', '挪威'), ('巴黎', '法国', '渥太华', '加拿大'), ('罗马', '意大利', '斯德哥尔摩', '瑞典'), ('罗马', '意大利', '德黑兰', '伊朗'), ('罗马', '意大利', '东京', '日本'), ('罗马', '意大利', '巴格达', '伊拉克'), ('罗马', '意大利', '曼谷', '泰国'), ('罗马', '意大利', '柏林', '德国'), ('罗马', '意大利', '伯尔尼', '瑞士'), ('罗马', '意大利', '堪培拉', '澳大利亚'), ('罗马', '意大利', '河内', '越南'), ('罗马', '意大利', '哈瓦那', '古巴'), ('罗马', '意大利', '赫尔辛基', '芬兰'), ('罗马', '意大利', '伊斯兰堡', '巴基斯坦'), ('罗马', '意大利', '伦敦', '英国'), ('罗马', '意大利', '马德里', '西班牙'), ('罗马', '意大利', '莫斯科', '俄罗斯'), ('罗马', '意大利', '奥斯陆', '挪威'), ('罗马', '意大利', '渥太华', '加拿大'), ('罗马', '意大利', '巴黎', '法国'), ('斯德哥尔摩', '瑞典', '德黑兰', '伊朗'), ('斯德哥尔摩', '瑞典', '东京', '日本'), ('斯德哥尔摩', '瑞典', '雅典', '希腊'), ('斯德哥尔摩', '瑞典', '巴格达', '伊拉克'), ('斯德哥尔摩', '瑞典', '曼谷', '泰国'), ('斯德哥尔摩', '瑞典', '柏林', '德国'), ('斯德哥尔摩', '瑞典', '开罗', '埃及'), ('斯德哥尔摩', '瑞典', '堪培拉', '澳大利亚'), ('斯德哥尔摩', '瑞典', '河内', '越南'), ('斯德哥尔摩', '瑞典', '哈瓦那', '古巴'), ('斯德哥尔摩', '瑞典', '赫尔辛基', '芬兰'), ('斯德哥尔摩', '瑞典', '伊斯兰堡', '巴基斯坦'), ('斯德哥尔摩', '瑞典', '伦敦', '英国'), ('斯德哥尔摩', '瑞典', '马德里', '西班牙'), ('斯德哥尔摩', '瑞典', '莫斯科', '俄罗斯'), ('斯德哥尔摩', '瑞典', '奥斯陆', '挪威'), ('斯德哥尔摩', '瑞典', '渥太华', '加拿大'), ('斯德哥尔摩', '瑞典', '巴黎', '法国'), ('斯德哥尔摩', '瑞典', '罗马', '意大利'), ('德黑兰', '伊朗', '东京', '日本'), ('德黑兰', '伊朗', '雅典', '希腊'), ('德黑兰', '伊朗', '巴格达', '伊拉克'), ('德黑兰', '伊朗', '曼谷', '泰国'), ('德黑兰', '伊朗', '北京', '中国'), ('德黑兰', '伊朗', '柏林', '德国'), ('德黑兰', '伊朗', '开罗', '埃及'), ('德黑兰', '伊朗', '堪培拉', '澳大利亚'), ('德黑兰', '伊朗', '河内', '越南'), ('德黑兰', '伊朗', '哈瓦那', '古巴'), ('德黑兰', '伊朗', '赫尔辛基', '芬兰'), ('德黑兰', '伊朗', '伊斯兰堡', '巴基斯坦'), ('德黑兰', '伊朗', '喀布尔', '阿富汗'), ('德黑兰', '伊朗', '伦敦', '英国'), ('德黑兰', '伊朗', '马德里', '西班牙'), ('德黑兰', '伊朗', '莫斯科', '俄罗斯'), ('德黑兰', '伊朗', '奥斯陆', '挪威'), ('德黑兰', '伊朗', '渥太华', '加拿大'), ('德黑兰', '伊朗', '巴黎', '法国'), ('德黑兰', '伊朗', '罗马', '意大利'), ('德黑兰', '伊朗', '斯德哥尔摩', '瑞典'), ('东京', '日本', '雅典', '希腊'), ('东京', '日本', '巴格达', '伊拉克'), ('东京', '日本', '曼谷', '泰国'), ('东京', '日本', '北京', '中国'), ('东京', '日本', '柏林', '德国'), ('东京', '日本', '开罗', '埃及'), ('东京', '日本', '堪培拉', '澳大利亚'), ('东京', '日本', '河内', '越南'), ('东京', '日本', '哈瓦那', '古巴'), ('东京', '日本', '赫尔辛基', '芬兰'), ('东京', '日本', '伊斯兰堡', '巴基斯坦'), ('东京', '日本', '喀布尔', '阿富汗'), ('东京', '日本', '伦敦', '英国'), ('东京', '日本', '马德里', '西班牙'), ('东京', '日本', '莫斯科', '俄罗斯'), ('东京', '日本', '奥斯陆', '挪威'), ('东京', '日本', '渥太华', '加拿大'), ('东京', '日本', '巴黎', '法国'), ('东京', '日本', '罗马', '意大利'), ('东京', '日本', '斯德哥尔摩', '瑞典'), ('东京', '日本', '德黑兰', '伊朗'), ('石家庄', '河北', '南昌', '江西'), ('石家庄', '河北', '海口', '海南'), ('石家庄', '河北', '兰州', '甘肃'), ('石家庄', '河北', '西宁', '青海'), ('太原', '山西', '南昌', '江西'), ('太原', '山西', '广州', '广东'), ('太原', '山西', '西宁', '青海'), ('沈阳', '辽宁', '哈尔滨', '黑龙江'), ('沈阳', '辽宁', '杭州', '浙江'), ('沈阳', '辽宁', '南昌', '江西'), ('沈阳', '辽宁', '贵阳', '贵州'), ('沈阳', '辽宁', '兰州', '甘肃'), ('沈阳', '辽宁', '南宁', '广西'), ('沈阳', '辽宁', '银川', '宁夏'), ('长春', '吉林', '石家庄', '河北'), ('长春', '吉林', '哈尔滨', '黑龙江'), ('长春', '吉林', '南京', '江苏'), ('长春', '吉林', '杭州', '浙江'), ('长春', '吉林', '合肥', '安徽'), ('长春', '吉林', '南昌', '江西'), ('长春', '吉林', '广州', '广东'), ('长春', '吉林', '贵阳', '贵州'), ('长春', '吉林', '西安', '陕西'), ('长春', '吉林', '呼和浩特', '内蒙古'), ('哈尔滨', '黑龙江', '南京', '江苏'), ('哈尔滨', '黑龙江', '南昌', '江西'), ('哈尔滨', '黑龙江', '贵阳', '贵州'), ('哈尔滨', '黑龙江', '昆明', '云南'), ('哈尔滨', '黑龙江', '南宁', '广西'), ('南京', '江苏', '杭州', '浙江'), ('南京', '江苏', '合肥', '安徽'), ('南京', '江苏', '福州', '福建'), ('南京', '江苏', '郑州', '河南'), ('南京', '江苏', '广州', '广东'), ('南京', '江苏', '成都', '四川'), ('南京', '江苏', '贵阳', '贵州'), ('南京', '江苏', '西安', '陕西'), ('杭州', '浙江', '广州', '广东'), ('杭州', '浙江', '海口', '海南'), ('杭州', '浙江', '西宁', '青海'), ('杭州', '浙江', '南宁', '广西'), ('合肥', '安徽', '太原', '山西'), ('合肥', '安徽', '沈阳', '辽宁'), ('合肥', '安徽', '长春', '吉林'), ('合肥', '安徽', '杭州', '浙江'), ('合肥', '安徽', '成都', '四川'), ('合肥', '安徽', '兰州', '甘肃'), ('福州', '福建', '石家庄', '河北'), ('福州', '福建', '南昌', '江西'), ('福州', '福建', '郑州', '河南'), ('福州', '福建', '贵阳', '贵州'), ('福州', '福建', '昆明', '云南'), ('福州', '福建', '乌鲁木齐', '新疆'), ('南昌', '江西', '长春', '吉林'), ('南昌', '江西', '福州', '福建'), ('南昌', '江西', '海口', '海南'), ('南昌', '江西', '银川', '宁夏'), ('济南', '山东', '太原', '山西'), ('济南', '山东', '杭州', '浙江'), ('济南', '山东', '合肥', '安徽'), ('济南', '山东', '长沙', '湖南'), ('济南', '山东', '海口', '海南'), ('济南', '山东', '贵阳', '贵州'), ('济南', '山东', '西安', '陕西'), ('郑州', '河南', '长春', '吉林'), ('郑州', '河南', '福州', '福建'), ('郑州', '河南', '武汉', '湖北'), ('郑州', '河南', '长沙', '湖南'), ('郑州', '河南', '成都', '四川'), ('郑州', '河南', '昆明', '云南'), ('郑州', '河南', '兰州', '甘肃'), ('郑州', '河南', '银川', '宁夏'), ('武汉', '湖北', '沈阳', '辽宁'), ('武汉', '湖北', '杭州', '浙江'), ('武汉', '湖北', '西安', '陕西'), ('武汉', '湖北', '兰州', '甘肃'), ('武汉', '湖北', '西宁', '青海'), ('武汉', '湖北', '银川', '宁夏'), ('长沙', '湖南', '合肥', '安徽'), ('长沙', '湖南', '济南', '山东'), ('长沙', '湖南', '广州', '广东'), ('长沙', '湖南', '拉萨', '西藏'), ('广州', '广东', '石家庄', '河北'), ('广州', '广东', '沈阳', '辽宁'), ('广州', '广东', '南京', '江苏'), ('广州', '广东', '杭州', '浙江'), ('广州', '广东', '福州', '福建'), ('广州', '广东', '南昌', '江西'), ('广州', '广东', '济南', '山东'), ('广州', '广东', '拉萨', '西藏'), ('广州', '广东', '呼和浩特', '内蒙古'), ('海口', '海南', '济南', '山东'), ('海口', '海南', '武汉', '湖北'), ('海口', '海南', '长沙', '湖南'), ('海口', '海南', '西安', '陕西'), ('成都', '四川', '太原', '山西'), ('成都', '四川', '哈尔滨', '黑龙江'), ('成都', '四川', '南京', '江苏'), ('成都', '四川', '杭州', '浙江'), ('成都', '四川', '长沙', '湖南'), ('成都', '四川', '兰州', '甘肃'), ('成都', '四川', '南宁', '广西'), ('成都', '四川', '呼和浩特', '内蒙古'), ('成都', '四川', '银川', '宁夏'), ('贵阳', '贵州', '石家庄', '河北'), ('贵阳', '贵州', '太原', '山西'), ('贵阳', '贵州', '哈尔滨', '黑龙江'), ('贵阳', '贵州', '南昌', '江西'), ('贵阳', '贵州', '济南', '山东'), ('贵阳', '贵州', '广州', '广东'), ('贵阳', '贵州', '西安', '陕西'), ('贵阳', '贵州', '拉萨', '西藏'), ('昆明', '云南', '长春', '吉林'), ('昆明', '云南', '杭州', '浙江'), ('昆明', '云南', '合肥', '安徽'), ('昆明', '云南', '济南', '山东'), ('昆明', '云南', '武汉', '湖北'), ('昆明', '云南', '广州', '广东'), ('昆明', '云南', '兰州', '甘肃'), ('昆明', '云南', '西宁', '青海'), ('昆明', '云南', '呼和浩特', '内蒙古'), ('昆明', '云南', '乌鲁木齐', '新疆'), ('西安', '陕西', '石家庄', '河北'), ('西安', '陕西', '哈尔滨', '黑龙江'), ('西安', '陕西', '南京', '江苏'), ('西安', '陕西', '武汉', '湖北'), ('西安', '陕西', '海口', '海南'), ('西安', '陕西', '贵阳', '贵州'), ('西安', '陕西', '呼和浩特', '内蒙古'), ('兰州', '甘肃', '武汉', '湖北'), ('兰州', '甘肃', '海口', '海南'), ('兰州', '甘肃', '西宁', '青海'), ('兰州', '甘肃', '拉萨', '西藏'), ('兰州', '甘肃', '南宁', '广西'), ('兰州', '甘肃', '呼和浩特', '内蒙古'), ('兰州', '甘肃', '银川', '宁夏'), ('西宁', '青海', '哈尔滨', '黑龙江'), ('西宁', '青海', '南京', '江苏'), ('西宁', '青海', '杭州', '浙江'), ('西宁', '青海', '济南', '山东'), ('西宁', '青海', '成都', '四川'), ('西宁', '青海', '贵阳', '贵州'), ('西宁', '青海', '南宁', '广西'), ('西宁', '青海', '银川', '宁夏'), ('拉萨', '西藏', '石家庄', '河北'), ('拉萨', '西藏', '哈尔滨', '黑龙江'), ('拉萨', '西藏', '福州', '福建'), ('拉萨', '西藏', '长沙', '湖南'), ('拉萨', '西藏', '贵阳', '贵州'), ('拉萨', '西藏', '西宁', '青海'), ('南宁', '广西', '杭州', '浙江'), ('南宁', '广西', '福州', '福建'), ('南宁', '广西', '南昌', '江西'), ('南宁', '广西', '成都', '四川'), ('南宁', '广西', '昆明', '云南'), ('呼和浩特', '内蒙古', '太原', '山西'), ('呼和浩特', '内蒙古', '昆明', '云南'), ('呼和浩特', '内蒙古', '西安', '陕西'), ('呼和浩特', '内蒙古', '兰州', '甘肃'), ('呼和浩特', '内蒙古', '拉萨', '西藏'), ('银川', '宁夏', '福州', '福建'), ('银川', '宁夏', '拉萨', '西藏'), ('乌鲁木齐', '新疆', '石家庄', '河北'), ('乌鲁木齐', '新疆', '沈阳', '辽宁'), ('乌鲁木齐', '新疆', '哈尔滨', '黑龙江'), ('乌鲁木齐', '新疆', '合肥', '安徽'), ('乌鲁木齐', '新疆', '广州', '广东'), ('乌鲁木齐', '新疆', '成都', '四川'), ('乌鲁木齐', '新疆', '西安', '陕西'), ('乌鲁木齐', '新疆', '兰州', '甘肃'), ('乌鲁木齐', '新疆', '南宁', '广西'), ('男孩', '女孩', '兄弟', '姐妹'), ('男孩', '女孩', '爸爸', '妈妈'), ('男孩', '女孩', '父亲', '母亲'), ('男孩', '女孩', '爷爷', '奶奶'), ('男孩', '女孩', '丈夫', '妻子'), ('男孩', '女孩', '国王', '王后'), ('男孩', '女孩', '男人', '女人'), ('男孩', '女孩', '王子', '公主'), ('男孩', '女孩', '儿子', '女儿'), ('男孩', '女孩', '继子', '继女'), ('兄弟', '姐妹', '爸爸', '妈妈'), ('兄弟', '姐妹', '父亲', '母亲'), ('兄弟', '姐妹', '祖父', '祖母'), ('兄弟', '姐妹', '爷爷', '奶奶'), ('兄弟', '姐妹', '孙子', '孙女'), ('兄弟', '姐妹', '新郎', '新娘'), ('兄弟', '姐妹', '丈夫', '妻子'), ('兄弟', '姐妹', '国王', '王后'), ('兄弟', '姐妹', '男人', '女人'), ('兄弟', '姐妹', '侄子', '侄女'), ('兄弟', '姐妹', '王子', '公主'), ('兄弟', '姐妹', '儿子', '女儿'), ('兄弟', '姐妹', '继父', '继母'), ('兄弟', '姐妹', '继子', '继女'), ('兄弟', '姐妹', '男孩', '女孩'), ('爸爸', '妈妈', '父亲', '母亲'), ('爸爸', '妈妈', '爷爷', '奶奶'), ('爸爸', '妈妈', '孙子', '孙女'), ('爸爸', '妈妈', '新郎', '新娘'), ('爸爸', '妈妈', '丈夫', '妻子'), ('爸爸', '妈妈', '国王', '王后'), ('爸爸', '妈妈', '男人', '女人'), ('爸爸', '妈妈', '儿子', '女儿'), ('爸爸', '妈妈', '继子', '继女'), ('爸爸', '妈妈', '男孩', '女孩'), ('爸爸', '妈妈', '兄弟', '姐妹'), ('父亲', '母亲', '祖父', '祖母'), ('父亲', '母亲', '爷爷', '奶奶'), ('父亲', '母亲', '孙子', '孙女'), ('父亲', '母亲', '新郎', '新娘'), ('父亲', '母亲', '丈夫', '妻子'), ('父亲', '母亲', '国王', '王后'), ('父亲', '母亲', '男人', '女人'), ('父亲', '母亲', '侄子', '侄女'), ('父亲', '母亲', '儿子', '女儿'), ('父亲', '母亲', '继父', '继母'), ('父亲', '母亲', '继子', '继女'), ('父亲', '母亲', '男孩', '女孩'), ('父亲', '母亲', '兄弟', '姐妹'), ('父亲', '母亲', '爸爸', '妈妈'), ('祖父', '祖母', '爷爷', '奶奶'), ('祖父', '祖母', '新郎', '新娘'), ('祖父', '祖母', '丈夫', '妻子'), ('祖父', '祖母', '国王', '王后'), ('祖父', '祖母', '男人', '女人'), ('祖父', '祖母', '儿子', '女儿'), ('祖父', '祖母', '继父', '继母'), ('祖父', '祖母', '继子', '继女'), ('祖父', '祖母', '男孩', '女孩'), ('祖父', '祖母', '兄弟', '姐妹'), ('祖父', '祖母', '爸爸', '妈妈'), ('祖父', '祖母', '父亲', '母亲'), ('爷爷', '奶奶', '新郎', '新娘'), ('爷爷', '奶奶', '丈夫', '妻子'), ('爷爷', '奶奶', '国王', '王后'), ('爷爷', '奶奶', '男人', '女人'), ('爷爷', '奶奶', '儿子', '女儿'), ('爷爷', '奶奶', '继父', '继母'), ('爷爷', '奶奶', '继子', '继女'), ('爷爷', '奶奶', '叔叔', '阿姨'), ('爷爷', '奶奶', '男孩', '女孩'), ('爷爷', '奶奶', '兄弟', '姐妹'), ('爷爷', '奶奶', '爸爸', '妈妈'), ('爷爷', '奶奶', '父亲', '母亲'), ('孙子', '孙女', '丈夫', '妻子'), ('孙子', '孙女', '男人', '女人'), ('孙子', '孙女', '侄子', '侄女'), ('孙子', '孙女', '王子', '公主'), ('孙子', '孙女', '儿子', '女儿'), ('孙子', '孙女', '继父', '继母'), ('孙子', '孙女', '继子', '继女'), ('孙子', '孙女', '男孩', '女孩'), ('孙子', '孙女', '兄弟', '姐妹'), ('孙子', '孙女', '爸爸', '妈妈'), ('孙子', '孙女', '父亲', '母亲'), ('孙子', '孙女', '爷爷', '奶奶'), ('新郎', '新娘', '丈夫', '妻子'), ('新郎', '新娘', '国王', '王后'), ('新郎', '新娘', '男人', '女人'), ('新郎', '新娘', '王子', '公主'), ('新郎', '新娘', '儿子', '女儿'), ('新郎', '新娘', '继父', '继母'), ('新郎', '新娘', '继子', '继女'), ('新郎', '新娘', '男孩', '女孩'), ('新郎', '新娘', '兄弟', '姐妹'), ('新郎', '新娘', '爸爸', '妈妈'), ('新郎', '新娘', '父亲', '母亲'), ('新郎', '新娘', '爷爷', '奶奶'), ('新郎', '新娘', '孙子', '孙女'), ('丈夫', '妻子', '男人', '女人'), ('丈夫', '妻子', '王子', '公主'), ('丈夫', '妻子', '儿子', '女儿'), ('丈夫', '妻子', '继父', '继母'), ('丈夫', '妻子', '继子', '继女'), ('丈夫', '妻子', '男孩', '女孩'), ('丈夫', '妻子', '兄弟', '姐妹'), ('丈夫', '妻子', '爸爸', '妈妈'), ('丈夫', '妻子', '父亲', '母亲'), ('丈夫', '妻子', '爷爷', '奶奶'), ('丈夫', '妻子', '新郎', '新娘'), ('国王', '王后', '男人', '女人'), ('国王', '王后', '侄子', '侄女'), ('国王', '王后', '王子', '公主'), ('国王', '王后', '儿子', '女儿'), ('国王', '王后', '继父', '继母'), ('国王', '王后', '继子', '继女'), ('国王', '王后', '男孩', '女孩'), ('国王', '王后', '兄弟', '姐妹'), ('国王', '王后', '爸爸', '妈妈'), ('国王', '王后', '父亲', '母亲'), ('国王', '王后', '爷爷', '奶奶'), ('国王', '王后', '孙子', '孙女'), ('国王', '王后', '新郎', '新娘'), ('国王', '王后', '丈夫', '妻子'), ('男人', '女人', '王子', '公主'), ('男人', '女人', '儿子', '女儿'), ('男人', '女人', '继父', '继母'), ('男人', '女人', '继子', '继女'), ('男人', '女人', '男孩', '女孩'), ('男人', '女人', '兄弟', '姐妹'), ('男人', '女人', '爸爸', '妈妈'), ('男人', '女人', '父亲', '母亲'), ('男人', '女人', '爷爷', '奶奶'), ('男人', '女人', '孙子', '孙女'), ('男人', '女人', '新郎', '新娘'), ('男人', '女人', '丈夫', '妻子'), ('男人', '女人', '国王', '王后'), ('侄子', '侄女', '王子', '公主'), ('侄子', '侄女', '儿子', '女儿'), ('侄子', '侄女', '继子', '继女'), ('侄子', '侄女', '男孩', '女孩'), ('侄子', '侄女', '兄弟', '姐妹'), ('侄子', '侄女', '爸爸', '妈妈'), ('侄子', '侄女', '父亲', '母亲'), ('侄子', '侄女', '祖父', '祖母'), ('侄子', '侄女', '爷爷', '奶奶'), ('侄子', '侄女', '孙子', '孙女'), ('侄子', '侄女', '新郎', '新娘'), ('侄子', '侄女', '丈夫', '妻子'), ('侄子', '侄女', '男人', '女人'), ('王子', '公主', '儿子', '女儿'), ('王子', '公主', '继父', '继母'), ('王子', '公主', '继子', '继女'), ('王子', '公主', '男孩', '女孩'), ('王子', '公主', '爸爸', '妈妈'), ('王子', '公主', '父亲', '母亲'), ('王子', '公主', '爷爷', '奶奶'), ('王子', '公主', '孙子', '孙女'), ('王子', '公主', '新郎', '新娘'), ('王子', '公主', '丈夫', '妻子'), ('王子', '公主', '国王', '王后'), ('王子', '公主', '男人', '女人'), ('王子', '公主', '侄子', '侄女'), ('儿子', '女儿', '继父', '继母'), ('儿子', '女儿', '继子', '继女'), ('儿子', '女儿', '男孩', '女孩'), ('儿子', '女儿', '兄弟', '姐妹'), ('儿子', '女儿', '爸爸', '妈妈'), ('儿子', '女儿', '父亲', '母亲'), ('儿子', '女儿', '爷爷', '奶奶'), ('儿子', '女儿', '孙子', '孙女'), ('儿子', '女儿', '新郎', '新娘'), ('儿子', '女儿', '丈夫', '妻子'), ('儿子', '女儿', '国王', '王后'), ('儿子', '女儿', '男人', '女人'), ('儿子', '女儿', '侄子', '侄女'), ('继父', '继母', '继子', '继女'), ('继父', '继母', '男孩', '女孩'), ('继父', '继母', '兄弟', '姐妹'), ('继父', '继母', '爸爸', '妈妈'), ('继父', '继母', '父亲', '母亲'), ('继父', '继母', '爷爷', '奶奶'), ('继父', '继母', '孙子', '孙女'), ('继父', '继母', '新郎', '新娘'), ('继父', '继母', '丈夫', '妻子'), ('继父', '继母', '国王', '王后'), ('继父', '继母', '男人', '女人'), ('继父', '继母', '儿子', '女儿'), ('继子', '继女', '男孩', '女孩'), ('继子', '继女', '兄弟', '姐妹'), ('继子', '继女', '爸爸', '妈妈'), ('继子', '继女', '父亲', '母亲'), ('继子', '继女', '爷爷', '奶奶'), ('继子', '继女', '孙子', '孙女'), ('继子', '继女', '新郎', '新娘'), ('继子', '继女', '丈夫', '妻子'), ('继子', '继女', '男人', '女人'), ('继子', '继女', '儿子', '女儿'), ('继子', '继女', '继父', '继母'), ('叔叔', '阿姨', '男孩', '女孩'), ('叔叔', '阿姨', '兄弟', '姐妹'), ('叔叔', '阿姨', '爸爸', '妈妈'), ('叔叔', '阿姨', '父亲', '母亲'), ('叔叔', '阿姨', '爷爷', '奶奶'), ('叔叔', '阿姨', '丈夫', '妻子'), ('叔叔', '阿姨', '男人', '女人'), ('叔叔', '阿姨', '儿子', '女儿'), ('叔叔', '阿姨', '继子', '继女')], 'incorrect': [('雅典', '希腊', '北京', '中国'), ('雅典', '希腊', '伯尔尼', '瑞士'), ('雅典', '希腊', '堪培拉', '澳大利亚'), ('巴格达', '伊拉克', '伯尔尼', '瑞士'), ('曼谷', '泰国', '喀布尔', '阿富汗'), ('曼谷', '泰国', '雅典', '希腊'), ('北京', '中国', '伯尔尼', '瑞士'), ('北京', '中国', '堪培拉', '澳大利亚'), ('北京', '中国', '渥太华', '加拿大'), ('北京', '中国', '巴格达', '伊拉克'), ('柏林', '德国', '奥斯陆', '挪威'), ('伯尔尼', '瑞士', '喀布尔', '阿富汗'), ('伯尔尼', '瑞士', '伦敦', '英国'), ('伯尔尼', '瑞士', '马德里', '西班牙'), ('伯尔尼', '瑞士', '巴黎', '法国'), ('伯尔尼', '瑞士', '雅典', '希腊'), ('伯尔尼', '瑞士', '巴格达', '伊拉克'), ('伯尔尼', '瑞士', '北京', '中国'), ('开罗', '埃及', '伯尔尼', '瑞士'), ('堪培拉', '澳大利亚', '雅典', '希腊'), ('堪培拉', '澳大利亚', '北京', '中国'), ('河内', '越南', '伯尔尼', '瑞士'), ('哈瓦那', '古巴', '伯尔尼', '瑞士'), ('伊斯兰堡', '巴基斯坦', '雅典', '希腊'), ('伊斯兰堡', '巴基斯坦', '北京', '中国'), ('伊斯兰堡', '巴基斯坦', '伯尔尼', '瑞士'), ('喀布尔', '阿富汗', '伯尔尼', '瑞士'), ('伦敦', '英国', '雅典', '希腊'), ('马德里', '西班牙', '伯尔尼', '瑞士'), ('莫斯科', '俄罗斯', '伯尔尼', '瑞士'), ('莫斯科', '俄罗斯', '喀布尔', '阿富汗'), ('渥太华', '加拿大', '雅典', '希腊'), ('渥太华', '加拿大', '北京', '中国'), ('渥太华', '加拿大', '马德里', '西班牙'), ('巴黎', '法国', '伯尔尼', '瑞士'), ('罗马', '意大利', '雅典', '希腊'), ('罗马', '意大利', '北京', '中国'), ('罗马', '意大利', '开罗', '埃及'), ('罗马', '意大利', '喀布尔', '阿富汗'), ('斯德哥尔摩', '瑞典', '北京', '中国'), ('斯德哥尔摩', '瑞典', '伯尔尼', '瑞士'), ('斯德哥尔摩', '瑞典', '喀布尔', '阿富汗'), ('德黑兰', '伊朗', '伯尔尼', '瑞士'), ('东京', '日本', '伯尔尼', '瑞士'), ('南京', '江苏', '呼和浩特', '内蒙古'), ('武汉', '湖北', '拉萨', '西藏'), ('海口', '海南', '南京', '江苏'), ('拉萨', '西藏', '郑州', '河南'), ('男孩', '女孩', '祖父', '祖母'), ('男孩', '女孩', '孙子', '孙女'), ('男孩', '女孩', '新郎', '新娘'), ('男孩', '女孩', '侄子', '侄女'), ('男孩', '女孩', '继父', '继母'), ('男孩', '女孩', '叔叔', '阿姨'), ('兄弟', '姐妹', '叔叔', '阿姨'), ('爸爸', '妈妈', '祖父', '祖母'), ('爸爸', '妈妈', '侄子', '侄女'), ('爸爸', '妈妈', '王子', '公主'), ('爸爸', '妈妈', '继父', '继母'), ('爸爸', '妈妈', '叔叔', '阿姨'), ('父亲', '母亲', '王子', '公主'), ('父亲', '母亲', '叔叔', '阿姨'), ('祖父', '祖母', '孙子', '孙女'), ('祖父', '祖母', '侄子', '侄女'), ('祖父', '祖母', '王子', '公主'), ('祖父', '祖母', '叔叔', '阿姨'), ('爷爷', '奶奶', '孙子', '孙女'), ('爷爷', '奶奶', '侄子', '侄女'), ('爷爷', '奶奶', '王子', '公主'), ('爷爷', '奶奶', '祖父', '祖母'), ('孙子', '孙女', '新郎', '新娘'), ('孙子', '孙女', '国王', '王后'), ('孙子', '孙女', '叔叔', '阿姨'), ('孙子', '孙女', '祖父', '祖母'), ('新郎', '新娘', '侄子', '侄女'), ('新郎', '新娘', '叔叔', '阿姨'), ('新郎', '新娘', '祖父', '祖母'), ('丈夫', '妻子', '国王', '王后'), ('丈夫', '妻子', '侄子', '侄女'), ('丈夫', '妻子', '叔叔', '阿姨'), ('丈夫', '妻子', '祖父', '祖母'), ('丈夫', '妻子', '孙子', '孙女'), ('国王', '王后', '叔叔', '阿姨'), ('国王', '王后', '祖父', '祖母'), ('男人', '女人', '侄子', '侄女'), ('男人', '女人', '叔叔', '阿姨'), ('男人', '女人', '祖父', '祖母'), ('侄子', '侄女', '继父', '继母'), ('侄子', '侄女', '叔叔', '阿姨'), ('侄子', '侄女', '国王', '王后'), ('王子', '公主', '叔叔', '阿姨'), ('王子', '公主', '兄弟', '姐妹'), ('王子', '公主', '祖父', '祖母'), ('儿子', '女儿', '叔叔', '阿姨'), ('儿子', '女儿', '祖父', '祖母'), ('儿子', '女儿', '王子', '公主'), ('继父', '继母', '叔叔', '阿姨'), ('继父', '继母', '祖父', '祖母'), ('继父', '继母', '侄子', '侄女'), ('继父', '继母', '王子', '公主'), ('继子', '继女', '叔叔', '阿姨'), ('继子', '继女', '祖父', '祖母'), ('继子', '继女', '国王', '王后'), ('继子', '继女', '侄子', '侄女'), ('继子', '继女', '王子', '公主'), ('叔叔', '阿姨', '祖父', '祖母'), ('叔叔', '阿姨', '孙子', '孙女'), ('叔叔', '阿姨', '新郎', '新娘'), ('叔叔', '阿姨', '国王', '王后'), ('叔叔', '阿姨', '侄子', '侄女'), ('叔叔', '阿姨', '王子', '公主'), ('叔叔', '阿姨', '继父', '继母')]}])

Accuracy (total)为:0.88,超过Yu et. al. (2017) (JWE) 为:0.85、Yin et. al. (2016) (Multi-Granularity Chinese Word Embedding)为:0.76和CBOW (baseline)为:0.79

所以训练的word2vec效果还是很好的

3. 汉语情绪分析

这个测试可以衡量情感分析任务从不同的词向量中获益的程度

没有约定俗成的基线(例如,情感分类器代码),所以很难在不同的论文中进行比较

情感数据集可在此下载Peng et. (2018))

  • 由笔记本、汽车、相机和手机4个领域的中文评论组成
  • 二元分类任务:评论不是正面就是负面
  • 没有训练/开发/测试分离

这里需要训练句子,即给句子打上标签

4. 生成句子向量

4.1 wmdistance

计算两个文档之间的Word Mover’s Distance,WMD算法原理可看及其它文章

from gensim.models import KeyedVectors
import jieba

word_vectors = KeyedVectors.load('...your path/vectors.kv')
str1 = '如何更换花呗绑定银行卡'
str2 = '花呗更改绑定银行卡'
str1SegDone = ' '.join(jieba.cut(str1))
str2SegDone = ' '.join(jieba.cut(str2))

print(word_vectors.wmdistance(str1,str2))
print(str1SegDone)
print(str2SegDone)
print(word_vectors.wmdistance(str1SegDone, str2SegDone))
# print(word_vectors.n_similarity(str1SegDone, str2SegDone))      # KeyError: "word ' ' not in vocabulary"

结果:

8.262799010046157
如何 更换 花 呗 绑定 银行卡
花 呗 更改 绑定 银行卡
8.262799010046157

4.2 n_similarity

计算两组keys之间的余弦相似性

print(word_vectors.n_similarity(str1, str2))

结果:

0.93513715

4.2(补) 所有词向量的总和(及平均)

参考此文

在本文中,我们研究的是构造句子向量的三种配置。第一种配置是所有嵌词向量的求和。句子向量被构造本文中,W是单词列表,|W|是单词列表的大小,v(·)是Word2vec函数。输入一个单词字符串来检索相应的单词向量
S = ∑ i = 0 ∣ W ∣ v ( W [ i ] ) S=\sum_{i=0}^{|W|} v(W[i]) S=i=0Wv(W[i])
第二种配置是所有嵌词向量的平均值,也就是上式除以词表的大小而已。句子向量被重新定义,如下公式所示。最近,事实证明,词嵌入向量的平均值在众多任务中是一个强有力的基线(baseline)
S = 1 ∣ W ∣ ∑ i = 0 ∣ W ∣ v ( W [ i ] ) S=\frac{1}{|W|} \sum_{i=0}^{|W|} v(W[i]) S=W1i=0Wv(W[i])
第三种配置是根据逆文档频率( inverse document frequency, idf)对所有词嵌入向量进行加权,提升稀有词,降级频繁词的权重,如下式。其中t是一个词,D是一个语料库中的所有文档,|D|是文档的数量,df(D,t)是包含词t的文档数量
i d f ( t , D ) log ⁡ 10 ∣ D ∣ d f ( D , t ) i d f(t, D) \log _{10} \frac{|D|}{d f(D, t)} idf(t,D)log10df(D,t)D
最后,按下式重新定义句子向量
S = 1 ∣ W ∣ ∑ i = 0 ∣ W ∣ [ v ( W [ i ] ) ⋅ i d f ( W [ i ] , D ) ] S=\frac{1}{|W|} \sum_{i=0}^{|W|}[v(W[i]) \cdot i d f(W[i], D)] S=W1i=0W[v(W[i])idf(W[i],D)]

from gensim.models import KeyedVectors
import jieba
from sklearn.metrics.pairwise import cosine_similarity
from scipy.spatial.distance import cosine

word_vectors = KeyedVectors.load('...your path/vectors.kv')

str1 = '如何更换花呗绑定银行卡'
str2 = '花呗更改绑定银行卡'
str1list = ' '.join(jieba.cut(str1)).split(' ')
str2list = ' '.join(jieba.cut(str2)).split(' ')

print(str1list)
print(str2list)

str1sum = [0] * word_vectors.vector_size
cnt1 = 0
for word in str1:
    cnt1 += 1
    str1sum = str1sum + word_vectors[word]

cnt2 = 0
str2sum = [0] * word_vectors.vector_size
for word in str2:
    cnt2 += 1
    str2sum = str2sum + word_vectors[word]

# 使用sklearn中的向量相似性的计算包
print(cosine_similarity([str1sum],[str2sum])[0][0])
print(cosine_similarity([str1sum/cnt1],[str2sum/cnt2])[0][0])
# 使用scipy包中的距离计算
print(cosine(str1sum, str2sum),1-cosine(str1sum, str2sum))
print(cosine(str1sum/cnt1, str2sum/cnt2),1-cosine(str1sum/cnt1, str2sum/cnt2))

结果:

['如何', '更换', '花', '呗', '绑定', '银行卡']
['花', '呗', '更改', '绑定', '银行卡']
0.9351371503575789
0.9351371503575788
0.06486284964242128 0.9351371503575787
0.06486284964242095 0.935137150357579

4.3 TF-IDF model

参考官方文档此文

dataset =  [['这是', '一个', '文本'], ['这是', '第二个', '文本'], ['这是', '又一个', '文本'], ['这是', '最后', '一个', '文本']]
dictionary = Dictionary(dataset)
corpus = [dictionary.doc2bow(data) for data in dataset]
tf_idf_model = TfidfModel(corpus,normalize=False)
word_tf_tdf = list(tf_idf_model[corpus])
print('词典:', dictionary.token2id)
print('词频:', corpus)
print('词的tf-idf值:', word_tf_tdf)
词典: {'一个': 0, '文本': 1, '这是': 2, '第二个': 3, '又一个': 4, '最后': 5}
词频: [[(0, 1), (1, 1), (2, 1)], [(1, 1), (2, 1), (3, 1)], [(1, 1), (2, 1), (4, 1)], [(0, 1), (1, 1), (2, 1), (5, 1)]]
词的tf-idf值: [[(0, 1.0)], [(3, 2.0)], [(4, 2.0)], [(0, 1.0), (5, 2.0)]]
path = '...your path/news.txt'
txt = open(path, 'r', encoding='utf-8')
dataset = []
for line in txt.readlines():
    dataset.append(line.strip('\n').strip(' ').split(' '))
print(dataset)

dataset如下:

[['中广网', '唐山', '月', '日', '消息', '记者', '汤一亮', '庄胜春据', '中国', '之声', '新闻', '晚', '高峰', '报道', '今天', '日', '上午', '公安机关', '年缉枪', '制爆', '专项', '行动', '统一', '销毁', '非法', '枪爆', '物品', '活动', '在', '河北', '唐山', '正式', '启动', '万余只', '非法', '枪支', '余吨', '炸药', '在', '全国', '个', '城市', '被', '统一', '销毁', '黄明', '现在', '宣布', '全国', '缉枪', '制爆', '统一', '销毁', '行动', '公安部', '副', '部长', '黄明', '一声令下', '大量', '仿制', '式', '枪', '猎枪', '火药枪', '气枪', '在', '河北', '唐山', '钢铁厂', '被', '投入', '炼钢炉', '在', '全国', '各', '省区市', '个', '城市', '破案', '追缴', '和', '群众', '主动', '上缴', '的', '万余支', '非法', '枪支', '被', '集中', '销毁', '在', '全国', '各', '指定', '场所', '余吨', '炸药', '被', '分别', '销毁', '公安部', '治安', '局局长', '刘', '绍武', '介绍', '这次', '销毁', '的', '非法', '枪支', '来源于', '三个', '方面', '刘', '绍武', '打击', '破案', '包括', '涉黑', '涉恶', '的', '团伙', '犯罪', '毒品', '犯罪', '从', '境外', '非法', '走私', '的', '枪支', '爆炸物', '在', '销毁', '现场', '记者', '看到', '被', '追缴', '和', '上缴', '的', '各式各样', '的', '枪支', '刘', '绍武', '也', '包括', '制式', '枪', '有的是', '军用', '枪', '仿制', '的', '制式', '抢', '猎枪', '私制', '的', '火药枪', '我国', '的', '枪支', '管理法', '都', '是', '严厉', '禁止', '非法', '持有', '的', '中国', '是', '世界', '上', '持枪', '犯罪', '的', '犯罪率', '最低', '的', '国家', '中', '美', '联手', '破获', '特大', '跨国', '走私', '武器弹药', '案', '近日', '中', '美', '执法', '部门', '联手', '成功', '破获', '特大', '跨国', '走私', '武器弹药', '案', '在', '中国', '抓获', '犯罪', '嫌疑人', '名', '缴获', '各类', '枪支', '支', '子弹', '万余', '发及', '大量', '枪支', '配件', '在', '美国', '抓获', '犯罪', '嫌疑人', '名', '缴获', '各类', '枪支', '支', '这', '是', '公安部', '与', '美国移民', '海关', '执法局', '通过', '联合', '调查', '方式', '侦破', '重大', '跨国', '案件', '的', '又', '一', '成功', '案例', '年月日', '上海浦东国际机场', '海关', '在', '对', '美国纽约', '发', '往', '浙江', '台州', '申报', '品名', '为', '扩音器', '音箱', '的', '快件', '进行', '查验', '时', '发现', '货物', '内', '藏有', '手', '枪支', '枪支', '配件', '件', '长枪', '部件', '件', '经', '检验', '都', '是', '具有', '杀伤力', '的', '制式', '枪支', '配件', '这', '引起', '公安部', '和', '海关总署', '的', '高度重视', '公安部', '刑侦局', '局长', '刘安', '成', '是从', '海关', '进口', '的', '货物', '中', '检查', '夹带', '说明', '来源', '地是', '境外', '说', '国外', '这', '应该', '是', '一起', '特大', '跨国', '走私', '武器弹药', '的', '案件', '上海市公安局', '和', '上海海关', '缉私局', '成立', '联合', '专案组', '迅速开展', '案件', '侦查', '专案组', '于', '月', '日', '在', '浙江', '台州', '取件', '处', '将', '犯罪', '嫌疑人', '王挺', '男岁', '台州市', '人', '抓获', '王挺', '交代', '通过', '一', '境外', '网站', '上', '认识', '上家', '林志富', '年', '月', '以来', '林志富', '长期', '居住', '美国', '通过', '互联网', '组建', '一个', '走私', '贩卖', '私藏枪支', '弹药', '的', '群体', '通过', '网络', '在', '国内', '寻找', '枪支弹药', '买家', '并', '通过', '美国联邦', '速递', '公司', '将', '枪支弹药', '从', '纽约', '快', '递给', '多名', '类似', '王挺', '的', '中间人', '再', '通过', '中间人', '发送给', '国内', '买家', '此案', '中', '犯罪分子', '依托', '虚拟', '网络', '进行', '犯罪', '交易', '隐蔽性', '强', '涉案人员', '使用', '的', '身份', '地址', '联系方式', '都', '是', '虚构', '的', '侦查', '难度很大', '刘安', '成', '说', '此案', '体现', '是', '新型', '犯罪', '特别', '是', '现代', '犯罪', '的', '新', '特点', '刘安', '成', '不受', '距离', '的', '限制', '是', '跨国', '跨境', '是', '跨', '一个', '数个', '数十个', '国家', '这种', '犯罪', '手法', '的', '改变', '和', '新型', '犯罪', '的', '特点', '要求', '各国', '警方', '合作', '作者', '汤一亮', '庄胜春'], ['天津', '卫视',……

不能用于之前的数据集,报错:

    dataset.append(line.strip('\n').strip(' ').split(' '))
MemoryError

获取词典:

from gensim.corpora import Dictionary
import logging
logging.basicConfig(format='%(asctime)s : %(levelname)s : %(message)s', level=logging.INFO)

path = ...
txt = open(path, 'r', encoding='utf-8')

dictionary = Dictionary([[]])
corpus = []
i = 0
for line in txt.readlines():
    tmp_list = line.strip('\n').strip(' ').split(' ')
    dictionary.add_documents([tmp_list])
    i += 1
    if i % 10000 == 0:
        # print('转化字典的文件数:{}'.format(i))
        dictionary.filter_extremes(no_below=2, no_above=0.8)

txt.close()
dictionary.filter_extremes(no_below=2, no_above=0.8)
dictionary = Dictionary.save('Tfidf_2.dictionary')

获取词频:

dictionary = Dictionary.load('Tfidf_2.dictionary')
path = '...your path/test/SougouNews.txt'
txt = open(path, 'r', encoding='utf-8')
print('开始计算wiki词频')
corpus = [dictionary.doc2bow(line.strip('\n').strip(' ').split(' ')) for line in txt.readlines()]
txt.close()

out_path = '...your path/corpus.txt'
txt = open(out_path, 'a', encoding='utf-8')
for item in corpus:
    txt.write(str(item) + '\n')

得到的词频txt文件如下所示,三次获取后大小分别为899MB→2.46GB→3.94GB:
在这里插入图片描述
词频txt文件转为训练TF-IDF可用的列表形式的代码参考如下所示:

path = '...your path/corpus.txt'
corpus = []
file = open(path, 'r', encoding='utf-8')
for line in file.readlines():
    corpus.append(eval(line.strip('\n').strip(' ')))

以下代码电脑跑不动,等到上学之后用学校服务器跑

from gensim.models import TfidfModel

# import logging
# logging.basicConfig(format='%(asctime)s : %(levelname)s : %(message)s', level=logging.INFO)

path = '...your path/corpus.txt'
i = 0
file = open(path, 'r', encoding='utf-8')
corpus = file.read().strip('\n').split('\n')
file.close()

while(True):
    try:
        corpus[i] = eval(corpus[i])
        i += 1
        if i % 10000 == 0: print(i)
    except:
        break
print(type(corpus))
print(corpus[0],corpus[1])
print('开始训练模型')
tf_idf_model = TfidfModel(corpus,normalize=False)
tf_idf_model.save('tfidf.model')

# word_tf_tdf = list(tf_idf_model[corpus])

# print('词典:', dictionary.token2id)
# print('词频:', corpus)
# print('词的tf-idf值:', word_tf_tdf)

小结

  1. 能够根据中文相似词表Wordsim-240和Wordsim-296判断模型语义相关性
    与Sun et. al. 2019年发表的VCWE: Visual Character-Enhanced Word Embeddings和Yu et. al. 2017年发表的Joint Embeddings of Chinese Words, Characters, and Fine-grained Subcharacter Components两模型相比:
    两模型对wordsim-240的Spearman correlation(⍴)分别为57.81、51.92,本模型对wordsim-240的⍴为53.52
    两模型对wordsim-296的相关性⍴分别为61.29、59.84,本模型对wordsim-296的⍴为61.28
  2. 能够根据中文类比词表判断模型语义类比精确度
    与Yu et. al. 2017年发表的Joint Embeddings of Chinese Words, Characters, and Fine-grained Subcharacter Components和Yin et. al. 2016年发表的Multi-Granularity Chinese Word Embedding、传统CBOW (baseline)三模型相比:
    三模型的total Accuracy分别为0.85、0.76、0.79
    本模型的total Accuracy0.88
  3. 生成句子向量参考Word Sense Disambiguation Using Cosine Similarity Collaborates with Word2vec and WordNet一文,利用逆文档频率对所有嵌词向量的平均值加权进行表示,其中所有嵌词向量的平均值能够完成计算,TF-IDF模型电脑跑不动,等到上学之后用学校服务器跑

未来工作

  1. 收集更多的数据,包括语音识别和文本识别、PDF获取等等
  2. 标注数据,先利用非神经网络(即其它机器学习方法)进行训练,利用情感数据集进行测试
  3. 项目情感识别、相关性实际应用实践和结果展示
  4. pytorch学习,CNN分类实现
  5. 情感识别分类基于神经网络实现
  6. RNN(LSTM、BERT、Attention、Transform分别实现)Pretrained Model比word2vec效果是否好一些?8 Excellent Pretrained Models to get you Started with Natural Language Processing (NLP)
  7. 其它word2vec效果测试对比
    腾讯AI实验室汉字词句嵌入语料库,关于如何运用可以参考【腾讯词向量】腾讯中文预训练词向量
Logo

欢迎加入 MCP 技术社区!与志同道合者携手前行,一同解锁 MCP 技术的无限可能!

更多推荐