Rss & SiteMap

课外天地 李树青 http://www.njcie.com

李树青 论坛 南京 财经 课外天地
共4 条记录, 每页显示 10 条, 页签: [1]
[浏览完整版]

标题:一个求VSM的Excel文档

1楼
admin 发表于:2008/4/11 6:03:42

 下载信息  [文件大小:   下载次数: ]
点击浏览该文件:

处理的文档集合包含三个文档,四个词项,具体关系为:

doc1 doc2 doc3
Car 27 4 24
Auto 3 33 0
Insurance 0 33 29
best 14 0 17

得到的文档向量为:

doc1 doc2 doc3
Car 0 0 0
Auto 0.21 0.71 0
Insurance 0 0.71 0.86
best 0.98 0 0.51

查询为:Auto Insurance

相应的查询向量为:(0,0.707,0.707,0)

最终得到的查询结果为:(doc1,doc2,doc3)=(0.148,1,0.61)

[此贴子已经被作者于2008-4-11 6:52:22编辑过]
2楼
刘焕涛 发表于:2010/4/5 23:12:29

如果将doc1 的auto 也改为29。那么doc1和doc3的结果按理应该相同。但却是

0.6410.61

是不是因为doc1的best词频14 小于doc3的17 而使得doc1 的auto的 t f 较大所致的?

3楼
admin 发表于:2010/4/6 13:26:25

我没有看懂你的意思

如果两个文档向量的值一样,则计算结果应该是一样的

将doc1的auto 也改为29并不能保证和doc3向量一样,为什么说“doc1和doc3的结果按理应该相同”?

4楼
刘焕涛 发表于:2010/4/13 1:05:01
明白了。还是应该看向量的值。
共4 条记录, 每页显示 10 条, 页签: [1]

Copyright ©2002 - 2016 课外天地.Net
Powered By Dvbbs Version 8.3.0
Processed in .03125 s, 3 queries.