笑话大全网 - 笑话小品 - 漫威漫画《中学时代》社交网络初探(上)

漫威漫画《中学时代》社交网络初探(上)

本文是漫威漫画社交网络分析系列的第二篇。在上一篇文章中,我们已经将漫威漫画的数据从Kaggle竞赛帖子导入到Secondary中,并演示了如何从二分图映射到单色图。我们还用一个简单的模型来记录漫画中任意两个英雄一起出现的次数。

为了更容易理解,我们用下面的函数来表达它:

经过

到达

同时也可以映射到下面的二分图。

好了,首先导入图形数据后,我们就可以进行下一步的分析了。

我们已经有了一个简单的图形模型。接下来从英雄和漫画的二分图网络(两种节点类型)出发,根据两个英雄在同一部漫画中出现的次数,推导出一个二分图(只有一种节点类型)。

接下来,我们将对之前导出的单形进行一些分析。关于数据分析,我平时的习惯是先做一些整体的统计,对图表有个大概的感性认识,再深入研究细节。

我们先来看看重量相近的英雄分布。权重值是指两个英雄在同一部漫画中一起出现的总次数。

当我第一次看到这个查询语句时,我发现?(k.weight / 10) * 10?出现这样的条款,你肯定会觉得这是一个非常愚蠢的说法。但如果你理解了Secondary的计算规则(两个整数相除仍是整数),你就会明白,我们这样写是为了完成一个“桶”函数的功能,即将所有的权重分配到10的倍数的桶中。这样就很容易理解下面的结果了。

?从结果可以看出,在漫威英雄网的171644个关系中,162489个关系(占总积分关系数据的94%)的权重在10以下,也就是说,大部分英雄只相遇一次。

最大重量724,出现在《THING/BENJAMIN J. GR》(石头人)和《人炬/JOHNNY S》(霹雳火)。这两个真是好朋友。

虽然大家在漫威英雄的社交网络中互相认识,但是从权重可以看出,大部分都是非常薄弱的环节。我大胆地做出两个假设:

为了测试我的假设,我将首先尝试使用下面的查询语句。

上面展示了一些平均指数,但我个人更喜欢看分布,就像我之前用的“桶”函数一样:

看来我的假设仍然有效。8999(71%)个英雄出现在漫画中的次数不到10次。再加上之前每集7.5个英雄的推断,可以知道大部分漫画中可能只有5个英雄或者更少。有些漫画会有“家庭聚会”,届时会出现30多个英雄。有一本漫画叫《COCI》,有110个英雄,应该是超级英雄大会的问题。

我们可以使用最大值或最小值方法来标准化权重值。注意到我们这次用什么了吗?(toFloat(k 1 . weight)-min)/(max-min)?第一,k1.weight会被转换成浮点型,这样浮点型如果被整形除了还是浮点型。它不会被归入前面的桶中。