SparkToro数据的准确性和偏差

SparkToro数据集中的已知偏差包括:

  • 对英语档案的偏见
  • 对上述国家的资料有偏见
  • 这是对广泛使用网络的人的偏见,更具体地说,是对上面列出的社交网络的偏见
  • 对活跃的社交和网络档案的偏见(因为我们倾向于寻找那些真正参与,避免机器人、不活跃、宣传和垃圾账户)

我们的数据几乎肯定包含了与上述偏见相关的其他偏见。例如,我们可能对英语国家的富裕家庭进行了过度索引,因为这些群体更有可能接入互联网,并定期维护/使用社交媒体账户。我们也本能地反映社会和人们的偏见,不试图改变我们的数据或控制固有偏见。例如,SparkToro显示,在化妆品、时尚和风格等领域,绝大多数被关注的账户是由女性运营的,而在体育、计算机科学和视频游戏等领域,同样绝大多数被关注的账户是由男性运营的。这些并不是SparkToro的创始人所支持或想要强化的偏见,但我们也认识到,我们不能在不损害数据有用性的情况下干预数据的完整性。

在准确性方面,SparkToro的数据在出现时往往非常准确。然而,我们偶尔会在从社交账户或网络个人资料中获取数字、分享、内容或文本的能力上遇到差距。如果您发现工具中缺少数字/数据,请发电子邮件(电子邮件保护)我们会确保让它排队重新爬行。