下载信息 [文件大小: 下载次数: ] | |
![]() |
处理的文档集合包含三个文档,四个词项,具体关系为:
doc1 | doc2 | doc3 | |
Car | 27 | 4 | 24 |
Auto | 3 | 33 | 0 |
Insurance | 0 | 33 | 29 |
best | 14 | 0 | 17 |
得到的文档向量为:
doc1 | doc2 | doc3 | |
Car | 0 | 0 | 0 |
Auto | 0.21 | 0.71 | 0 |
Insurance | 0 | 0.71 | 0.86 |
best | 0.98 | 0 | 0.51 |
查询为:Auto Insurance
相应的查询向量为:(0,0.707,0.707,0)
最终得到的查询结果为:(doc1,doc2,doc3)=(0.148,1,0.61)
如果将doc1 的auto 也改为29。那么doc1和doc3的结果按理应该相同。但却是
0.64 | 1 | 0.61 |
是不是因为doc1的best词频14 小于doc3的17 而使得doc1 的auto的 t f 较大所致的?
我没有看懂你的意思
如果两个文档向量的值一样,则计算结果应该是一样的
将doc1的auto 也改为29并不能保证和doc3向量一样,为什么说“doc1和doc3的结果按理应该相同”?