数据可视化中最常见的陷阱之一是随意操纵坐标轴刻度,从而扭曲数据本身的含义。一个常见的例子就是在不恰当的情况下使用对数刻度。
让我们来看一个例子,说明这种选择即使是无意的,也可能产生误导。
乍一看,似乎关系很密切。
下图为散点图,显示了某学区学生参与课后体育项目的情况。每个点代表一所学校。

横轴表示参加校际竞技体育的学生比例,纵轴表示参加校内体育活动的学生比例。乍一看,数据似乎呈现出明显的线性上升趋势:参加校际竞技体育的学生比例越高,参加校内体育活动的学生比例也往往越高。
让我们重点介绍几所学校进行比较。

假设我们试图比较各学校的非正式参与率(纵轴所示)。库斯湾和杰斐逊维尔(橙色标记)的非正式参与率似乎差异很大,而杰斐逊维尔和科尔特斯(蓝色标记)的非正式参与率则显得更为接近。这种印象是由于纵轴采用的是对数刻度造成的。
对数尺度如何改变感知
在标准坐标轴上,数值以相等的增量递增(例如,10%、20%、30%)。您可以在上图的横轴上看到这一点,这在我们商业中常见的大多数数据可视化图表中也都能看到。
另一方面,对数刻度呈几何级数增长(例如 1%、10%、100%)。从视觉感知的角度来看,这会拉大较小数值之间的差距,压缩较大数值之间的差距。
这种差异很重要。它改变了我们对点之间距离的感知。
以下是完全相同的数据,但纵轴采用的是标准算术刻度。

现在我们可以看到,科尔特斯和杰斐逊维尔在垂直方向上的距离并不像最初看起来那么近。埃尔克城则明显高于其他所有城市。这个版本更准确地反映了数据的真实分布情况。
对数尺度何时适用?
需要澄清的是,对数刻度本身并没有错。事实上,在某些情况下,对数刻度是必不可少的。
在以下情况下,使用对数坐标轴是合适的:
-
数据跨越多个数量级(例如,从几千万到几百万)。
-
这些价值呈指数级增长,就像复利或病毒传播一样。
-
重点在于相对变化而非绝对变化。
例如,在疫情初期,展示确诊病例增长情况的图表可以使用对数坐标,以便更好地比较病例总数差异巨大的国家。在金融数据中,对数坐标可以帮助规范初始值不同的投资组合的趋势。
然而,当处理落在一致范围内的百分比(例如 0% 到 100%)时,除非数据具有明显的指数模式,否则对数刻度可能会产生误导。
更好地展现细微差异的方法
那么,为什么要在原例中使用对数坐标呢?通常,这是为了更容易区分原点附近的小值。但是,为了使这些差异更明显而调整坐标轴刻度,可能会扭曲整体情况。
如果小数值很重要,更好的方法是刻意放大。

在这个版本中,我们突出显示图表的左下角,然后以单独的聚焦视图显示该区域。

现在,库斯湾、杰斐逊维尔和科尔特斯之间的差异清晰可见,而且整体比例尺没有改变。更重要的是,我们保持了整个数据集的准确比例感。
让规模与故事相符。
如果你的数据不具备对数结构,请避免使用对数坐标作为视觉捷径。即使图表在技术上是准确的,它也可能造成混淆或误导读者。
当小数值很重要时,可以考虑将其单独放在一个图表或放大视图中显示。坐标轴的选择应反映数据的本质,而不是强行追求某种特定的视觉效果。
简而言之:让数据引导规模,而不是反过来。
原文: https://www.storytellingwithdata.com/blog/dont-let-your-axis-scales-distort-the-story