算法-余弦定理与相关性比较 – TechRunner

顾虑余弦定理

计算公式集

余弦定理是大学预科新时代喻为公共的的数学公式集通行证。从几何图形角度,cosθ代表两个矢径的级别。实则可以用来描述方式相像性度。
以下公开展览某物了二维、三维未填写的(立体、立体几何图形)中两个矢径(夹角θ)的cosθ计算审核。

cosθ=a2+b2c22ab

二维矢径:

cosθ=x1x2+y1y2(x21+y21)(x22+y22)

关于独一三维矢径:

cosθ=x1x2+y1y2+z1z2(x21+y21+z21)(x22+y22+z22)

由上可知,两个n维矢径相像性度喻为可以替换为苏。

以防两个矢径是势均力敌的的,cosθ胜利1;以防相像性同高度的高,胜利是近的1;以防是小,它是不相关的。

行为准则应验

以下是由Python矢径未填写的和计算余弦值应验。

classVectorCompare:defmagnitude(自,坚固性):
        total = 0for word, count in concordance.iteritems():
            total += count ** 2return math.sqrt(total)

    defrelation(自, concord1, concord2):
        topvalue = 0for word, count in concord1.iteritems():
            if concord2.has_key(word):
                topvalue += count * concord2[word]
        return topvalue / ((concord1) * (concord2))

矢径未填写的搜索引擎做相像性性认同运用,它有很好的东西优点:
– 用不着肥沃的的锻炼迭代
– 不要结束锻炼
– 您可以添加/裁剪颠倒的最高纪录在什么都可以工夫音符产生,关于稍许地无法认同的东西,只需配制搜索引擎那就够了。,可以马上认同
– It is easy to understand and write code
– 抚养分类学胜利,你可以检查多个竞赛近的
错误是,神经式网络的分类学比加速要慢得多,它自己未发现讲和的方式依此类推。。

用功

两条出版物的相像性性

从网上的出版物,HTML称呼去除后、摘录原文、判决分词、字频率计算总数的处置搬动,你可以接见一套高频关键词和各自的美国昆腾公司。从此,通行证整顿,接见的特征矢径来喻为两个音讯。
当独一矢径近的2,小角。。当两个音讯矢径夹角余弦折合一,这两个音讯(反复这样地可以裁剪反复的网页);当夹角的余弦值近的的不断地,两个出版物似的,它可以分为一类;角的余弦小,两则出版物不相关。

图片的相像性度计算

一般而言,第独一图像航向化,过后举行喻为。在矢径在前方,用于图像处置的必要,诸如:Fixed color extraction、像素的方位,替换为位图体式(黑透明的)。
以下提供图片的范本航向的方式:

defbuildvector(我):
    d = {}
    cnt = 0for i in im.getdata():
        D [问] = i
        cnt += 1return d

temp = buildvector(("./.../%s" %(img_file)))

延伸朗读

发表评论

电子邮件地址不会被公开。 必填项已用*标注