Add similaritys

2025-10-22 17:56:26 +02:00
parent 5f6305a2f2
commit 593b813988
6 changed files with 138 additions and 58 deletions
--- a/shared/inc/values/Dna.hpp
+++ b/shared/inc/values/Dna.hpp
@@ -9,8 +9,6 @@
 #define MAX_DEPTH 8
 #define MAX_POSIBLE_DEPTH 11
 static_assert(MAX_DEPTH <= MAX_POSIBLE_DEPTH);
-static_assert(180 == sizeof(Dna));
-constexpr int SIZE_OF_DNA = sizeof(Dna);

 struct Branch
 {
--- a/shared/inc/values/Similarity.hpp
+++ b/shared/inc/values/Similarity.hpp
@@ -3,14 +3,14 @@

 namespace Similarity
 {
-  // float euclidean_distance(Dna *d1, Dna *d2); direct distance betwen vector. wont give 0 and 1
-  // float dot_product(Dna *d1, Dna *d2); doent return betwen 0 to 1
-  // float cosine_similarity(Dna *d1, Dna *d2);
-  // float cosine_similarity_int(Dna *d1, Dna *d2);
+  float euclidean_distance(Dna *d1, Dna *d2);// direct distance betwen vector. wont give 0 and 1
+  // float dot_product(Dna *d1, Dna *d2); // doent return betwen 0 to 1
+  float cosine_similarity(Dna *d1, Dna *d2);
+  float cosine_similarity_int(Dna *d1, Dna *d2);
  float hamming_distance(Dna *d1, Dna *d2);
  float hamming_distance_without_seeds(Dna *d1, Dna *d2);
  // float jaccard_index(Dna *d1, Dna *d2); // primerja unio genov naprimer gleda ce je gen za nebo isti z genom za barvo za liste, to nerabimo
-  // float levenshtein_distance(Dna *d1, Dna *d2); // odstranjen ker mi vrne iste podatke kot hamming distance ki je bolj enostaven za izracun
+  float levenshtein_distance(Dna *d1, Dna *d2); // odstranjen ker mi vrne iste podatke kot hamming distance ki je bolj enostaven za izracun
  // float needleman_wunsch(Dna *d1, Dna *d2); used for bioinformatics and aligment. Dont need its aligned alredy

  typedef float(simil_func)(Dna *d1, Dna *d2);
--- a/shared/src/values/Similarity.cpp
+++ b/shared/src/values/Similarity.cpp
@@ -1,56 +1,72 @@
 #include "values/Similarity.hpp"
 #include <cmath>
+#include <algorithm>
+#include <numeric>
+#include <raylib.h>

 namespace Similarity
 {
+
+  float euclidean_distance(Dna *d1, Dna *d2)
+  {
+    uint8_t *a = (uint8_t *)d1;
+    uint8_t *b = (uint8_t *)d2;
+    float sum = 0.0f;
+    for (size_t i = 0; i < sizeof(Dna); ++i) {
+        float diff = static_cast<float>(a[i]) - static_cast<float>(b[i]);
+        sum += diff * diff;
+    }
+
+    float distance = std::sqrt(sum);
+    float max_distance = 255.0f * std::sqrt(static_cast<float>(sizeof(Dna)));
+    return distance / max_distance;
+  }
+
  // todo: use int8_t insted of uint8_t and map data
  // 0 -> -128
  // 255 -> 127
  // int8_t = uint8_t - 128
-  // float cosine_similarity(Dna *d1, Dna *d2)
-  // {
-  //   uint8_t *d1a = (uint8_t *)d1;
-  //   uint8_t *d2a = (uint8_t *)d2;
+  float cosine_similarity(Dna *d1, Dna *d2)
+  {
+    uint8_t *d1a = (uint8_t *)d1;
+    uint8_t *d2a = (uint8_t *)d2;

-  //   float mag1 = 0.0f;
-  //   float mag2 = 0.0f;
-  //   float dot_prod = 0.0f;
-  //   for (size_t i = 0; i < sizeof(Dna); i++)
-  //   {
-  //     dot_prod += d1a[i] * d2a[i];
-  //     mag1 += d1a[i] * d1a[i];
-  //     mag2 += d2a[i] * d2a[i];
-  //   }
-  //   mag1 = sqrt(mag1);
-  //   mag2 = sqrt(mag2);
+    float mag1 = 0.0f;
+    float mag2 = 0.0f;
+    float dot_prod = 0.0f;
+    for (size_t i = 0; i < sizeof(Dna); i++)
+    {
+      dot_prod += d1a[i] * d2a[i];
+      mag1 += d1a[i] * d1a[i];
+      mag2 += d2a[i] * d2a[i];
+    }
+    mag1 = sqrt(mag1);
+    mag2 = sqrt(mag2);

-  //   return dot_prod / (mag1 * mag2);
-  // }
+    return dot_prod / (mag1 * mag2);
+  }

-  // float cosine_similarity_int(Dna *d1, Dna *d2)
-  // {
-  //   auto map = [](uint8_t a) -> int8_t
-  //   { return a - 128; };
-
-  //   uint8_t *d1a = (uint8_t *)d1;
-  //   uint8_t *d2a = (uint8_t *)d2;
-
-  //   float mag1 = 0.0f;
-  //   float mag2 = 0.0f;
-  //   float dot_prod = 0.0f;
-  //   for (size_t i = 0; i < sizeof(Dna); i++)
-  //   {
-  //     int8_t a = map(d1a[i]);
-  //     int8_t b = map(d2a[i]);
-  //     dot_prod += a * b;
-  //     mag1 += a * a;
-  //     mag2 += b * b;
-  //   }
-  //   mag1 = sqrt(mag1);
-  //   mag2 = sqrt(mag2);
-
-  //   return dot_prod / (mag1 * mag2);
-  // }
+  float cosine_similarity_int(Dna *d1, Dna *d2)
+  {
+    auto map = [](uint8_t a) -> int8_t
+    { return a - 128; };
+    uint8_t *d1a = (uint8_t *)d1;
+    uint8_t *d2a = (uint8_t *)d2;
+    float mag1 = 0.0f;
+    float mag2 = 0.0f;
+    float dot_prod = 0.0f;
+    for (size_t i = 0; i < sizeof(Dna); i++)
+    {
+      int8_t a = map(d1a[i]);
+      int8_t b = map(d2a[i]);
+      dot_prod += a * b;
+      mag1 += a * a;
+      mag2 += b * b;
+    }
+    mag1 = sqrt(mag1);
+    mag2 = sqrt(mag2);
+    return dot_prod / (mag1 * mag2);
+  }

  float hamming_distance(Dna *d1, Dna *d2)
  {
@@ -99,4 +115,40 @@ namespace Similarity
    float average_similarity = total_similarity / num_pairs;
    return average_similarity * 100.0f;
  }
+
+  float levenshtein_distance(Dna *d1, Dna *d2)
+  {
+    size_t len = sizeof(Dna);
+    uint8_t *a = (uint8_t *)d1;
+    uint8_t *b = (uint8_t *)d2;
+
+    // Create a distance matrix
+    std::vector<std::vector<uint32_t>> dp(len + 1, std::vector<uint32_t>(len + 1, 0));
+
+    // Initialize the first row and column
+    for (size_t i = 0; i <= len; ++i)
+    {
+      dp[i][0] = i;
+    }
+    for (size_t j = 0; j <= len; ++j)
+    {
+      dp[0][j] = j;
+    }
+
+    // Fill the distance matrix
+    for (size_t i = 1; i <= len; ++i)
+    {
+      for (size_t j = 1; j <= len; ++j)
+      {
+        uint32_t cost = (a[i - 1] == b[j - 1]) ? 0 : 1;
+        dp[i][j] = std::min({
+            dp[i - 1][j] + 1,       // deletion
+            dp[i][j - 1] + 1,       // insertion
+            dp[i - 1][j - 1] + cost // substitution
+        });
+      }
+    }
+    return 1 - (dp[len][len] / float (len + len));
+  }
+
 }