Distancias - Similitudes

Análisis D13 y S11 en Ecología


Duvan Nieves

2025-07-04


github.com/Duvancho321

Propiedades

  • Mínimo 0 (Identidad): Si \(a = b\), entonces \(D(a, b) = 0\)
  • Positividad: Si \(a \neq b\), entonces \(D(a, b) > 0\)
  • Simetría: \(D(a, b) = D(b, a)\)
  • Desigualdad triangular: \(D(a, b) + D(b, c) \geq D(a, c)\)

Variables

  • \(a\) = Especies presentes en AMBOS sitios (doble presencias)
  • \(b\) = Especies presentes SOLO en el sitio x1 (ausentes en x2)
  • \(c\) = Especies presentes SOLO en el sitio x2 (ausentes en x1)
  • \(d\) = Especies ausentes en AMBOS sitios (doble ausencias)
  • \(p\) = Total de especies (\(a\) + \(b\) + \(c\) + \(d\))

Distancia \(D_{13}\) \(Cos(\theta)\)

  • Rango: \([0,1]\)
  • Métrica: SEMI
  • Euclidiana: NO

\[ D_{13} (x_{1},x_{2}) = 1- \frac{2a}{2a+b+c} = \frac{b+c}{2a+b+c} \]

  • \(b+c\) = Especies no compartidas
  • \(2a\) = Mayor peso a las especies compartidas
  • Es una distancia asimétrica \(\rightarrow\) No considera doble cero
  • Semimétrica, \(\sqrt{D}\) métrica y Euclidiana
  • \(D_{13}\) = 1 - \(S_{8}\)

Similitud \(S_{11}\) de Russell & Rao

  • Rango: \([0,1]\)
  • Métrica: SI
  • Euclidiana: NO

\[ S11 = \frac{a}{a+b+c+d} = \frac{a}{p} \]

  • Es una distancia simétrica \(\rightarrow\) Considera doble cero.
  • \(\sqrt{D}\) métrica y Euclidiana

Diferencias

\(D_{13}\) \(D_{1}\) \(S_{11}\) \(S_{1}\)
Fórmula \(\frac{b + c}{2a + b + c}\) \(\sqrt{\sum(y_{ij} - y_j)^2}\) \(a/p\) \(\frac{a + d}{p}\)
Doble ceros NO
Métrica Semi
Euclidiano NO NO NO

Ejemplo

Sp1 Sp2 Sp3 Sp4
Sitio1 50 30 0 0
Sitio2 0 5 80 0
Sp1 Sp2 Sp3 Sp4
Sitio1 1 1 0 0
Sitio2 0 1 1 0
especies <- c("Sp1", "Sp2", "Sp3", "Sp4")
ejemplo <- matrix(c(
  50, 30,  0,  0,   # Sitio1
   0,  5, 80,  0    # Sitio2
), nrow = 2, ncol = 4, byrow = TRUE)
rownames(ejemplo) <- c("Sitio1", "Sitio2")
colnames(ejemplo) <- especies
ejemplo
       Sp1 Sp2 Sp3 Sp4
Sitio1  50  30   0   0
Sitio2   0   5  80   0

Ejemplo

# Presencia-ausencia
pa <- ifelse(ejemplo > 0, 1, 0)
pa
       Sp1 Sp2 Sp3 Sp4
Sitio1   1   1   0   0
Sitio2   0   1   1   0
# Tabla de contingencia
a <- sum(pa[1,] == 1 & pa[2,] == 1) 
b <- sum(pa[1,] == 1 & pa[2,] == 0)
c <- sum(pa[1,] == 0 & pa[2,] == 1)
d <- sum(pa[1,] == 0 & pa[2,] == 0)
# Cálculos
S11 <- a / (a + b + c + d)
S1  <- (a + d) / (a + b + c + d)
D13 <- (b + c) / (2*a + b + c)
D1  <- (sqrt(sum((ejemplo[1,] - ejemplo[2,])^2)))/sqrt(sum(apply(ejemplo, 2, max)^2)) 
S1 S11 D1 D13
0.5 0.25 0.99 0.5

Ejemplo

S1 S11 D1 D13
0.5 0.25 0.99 0.5
  • S1 > S11 debido a ausencia de Sp4
  • S11: Solo cuenta especies realmente compartidas
  • S1: Doble-ceros incrementa artificialmente
T_S1 T_S11 D1 D13
0.5 0.75 0.99 0.5
  • D13: Mitad de especies relevantes no compartidas
  • D13: Ignora abundancias, solo composición
  • D1 : Dominado por diferencias de abundancia (Sp3=80)

Ejemplo 2

Distancia \(D_{1}\)

    Sp1 Sp2 Sp3 Sp4 Sp5 Sp6
Si1 100  80   0   0   0   0
Si2   5  10 120   0   0   0
Si3  20  25  30  15   0   0
Si4   0   0   0   0  90  70
Si5  15  18  22  12  10   8
Si6   1   2   1   1   1   1

Ejemplo 2

Distancia \(D_{13}\)

    Sp1 Sp2 Sp3 Sp4 Sp5 Sp6
Si1 100  80   0   0   0   0
Si2   5  10 120   0   0   0
Si3  20  25  30  15   0   0
Si4   0   0   0   0  90  70
Si5  15  18  22  12  10   8
Si6   1   2   1   1   1   1

Ejemplo 2

Distancia \(S_{1}\)

    Sp1 Sp2 Sp3 Sp4 Sp5 Sp6
Si1 100  80   0   0   0   0
Si2   5  10 120   0   0   0
Si3  20  25  30  15   0   0
Si4   0   0   0   0  90  70
Si5  15  18  22  12  10   8
Si6   1   2   1   1   1   1

Ejemplo 2

Distancia \(S_{11}\)

    Sp1 Sp2 Sp3 Sp4 Sp5 Sp6
Si1 100  80   0   0   0   0
Si2   5  10 120   0   0   0
Si3  20  25  30  15   0   0
Si4   0   0   0   0  90  70
Si5  15  18  22  12  10   8
Si6   1   2   1   1   1   1

Recomendaciones

D13

  • Semimetrico lo que limita sus propiedades
  • Análisis exploratorio de composición cuando se sospecha problema de doble-ceros
  • Análisis de comunidades a lo largo de gradientes ambientales

S11

  • No recomendado para Clustering
  • Variables ambientales donde ausencias conjuntas son ecológicamente significativas
  • Importa la rareza relativa (especies raras tienen más peso)

Recomendaciones

D13

  • Identificación de asociaciones de especies

S11

  • Análisis biogeográficos
  • Considerar transformaciones de datos antes de aplicar estos coeficientes
  • No aptas para Clustering

Referencias

Legendre, P., & Legendre, L. (2012). Ecological resemblance. En Numerical ecology (3ra ed., capítulo 7). Elsevier.