Add similaritys
This commit is contained in:
@@ -9,8 +9,6 @@
|
||||
#define MAX_DEPTH 8
|
||||
#define MAX_POSIBLE_DEPTH 11
|
||||
static_assert(MAX_DEPTH <= MAX_POSIBLE_DEPTH);
|
||||
static_assert(180 == sizeof(Dna));
|
||||
constexpr int SIZE_OF_DNA = sizeof(Dna);
|
||||
|
||||
struct Branch
|
||||
{
|
||||
|
||||
@@ -3,14 +3,14 @@
|
||||
|
||||
namespace Similarity
|
||||
{
|
||||
// float euclidean_distance(Dna *d1, Dna *d2); direct distance betwen vector. wont give 0 and 1
|
||||
// float dot_product(Dna *d1, Dna *d2); doent return betwen 0 to 1
|
||||
// float cosine_similarity(Dna *d1, Dna *d2);
|
||||
// float cosine_similarity_int(Dna *d1, Dna *d2);
|
||||
float euclidean_distance(Dna *d1, Dna *d2);// direct distance betwen vector. wont give 0 and 1
|
||||
// float dot_product(Dna *d1, Dna *d2); // doent return betwen 0 to 1
|
||||
float cosine_similarity(Dna *d1, Dna *d2);
|
||||
float cosine_similarity_int(Dna *d1, Dna *d2);
|
||||
float hamming_distance(Dna *d1, Dna *d2);
|
||||
float hamming_distance_without_seeds(Dna *d1, Dna *d2);
|
||||
// float jaccard_index(Dna *d1, Dna *d2); // primerja unio genov naprimer gleda ce je gen za nebo isti z genom za barvo za liste, to nerabimo
|
||||
// float levenshtein_distance(Dna *d1, Dna *d2); // odstranjen ker mi vrne iste podatke kot hamming distance ki je bolj enostaven za izracun
|
||||
float levenshtein_distance(Dna *d1, Dna *d2); // odstranjen ker mi vrne iste podatke kot hamming distance ki je bolj enostaven za izracun
|
||||
// float needleman_wunsch(Dna *d1, Dna *d2); used for bioinformatics and aligment. Dont need its aligned alredy
|
||||
|
||||
typedef float(simil_func)(Dna *d1, Dna *d2);
|
||||
|
||||
@@ -1,56 +1,72 @@
|
||||
#include "values/Similarity.hpp"
|
||||
#include <cmath>
|
||||
#include <algorithm>
|
||||
#include <numeric>
|
||||
#include <raylib.h>
|
||||
|
||||
namespace Similarity
|
||||
{
|
||||
|
||||
float euclidean_distance(Dna *d1, Dna *d2)
|
||||
{
|
||||
uint8_t *a = (uint8_t *)d1;
|
||||
uint8_t *b = (uint8_t *)d2;
|
||||
float sum = 0.0f;
|
||||
for (size_t i = 0; i < sizeof(Dna); ++i) {
|
||||
float diff = static_cast<float>(a[i]) - static_cast<float>(b[i]);
|
||||
sum += diff * diff;
|
||||
}
|
||||
|
||||
float distance = std::sqrt(sum);
|
||||
float max_distance = 255.0f * std::sqrt(static_cast<float>(sizeof(Dna)));
|
||||
return distance / max_distance;
|
||||
}
|
||||
|
||||
// todo: use int8_t insted of uint8_t and map data
|
||||
// 0 -> -128
|
||||
// 255 -> 127
|
||||
// int8_t = uint8_t - 128
|
||||
// float cosine_similarity(Dna *d1, Dna *d2)
|
||||
// {
|
||||
// uint8_t *d1a = (uint8_t *)d1;
|
||||
// uint8_t *d2a = (uint8_t *)d2;
|
||||
float cosine_similarity(Dna *d1, Dna *d2)
|
||||
{
|
||||
uint8_t *d1a = (uint8_t *)d1;
|
||||
uint8_t *d2a = (uint8_t *)d2;
|
||||
|
||||
// float mag1 = 0.0f;
|
||||
// float mag2 = 0.0f;
|
||||
// float dot_prod = 0.0f;
|
||||
// for (size_t i = 0; i < sizeof(Dna); i++)
|
||||
// {
|
||||
// dot_prod += d1a[i] * d2a[i];
|
||||
// mag1 += d1a[i] * d1a[i];
|
||||
// mag2 += d2a[i] * d2a[i];
|
||||
// }
|
||||
// mag1 = sqrt(mag1);
|
||||
// mag2 = sqrt(mag2);
|
||||
float mag1 = 0.0f;
|
||||
float mag2 = 0.0f;
|
||||
float dot_prod = 0.0f;
|
||||
for (size_t i = 0; i < sizeof(Dna); i++)
|
||||
{
|
||||
dot_prod += d1a[i] * d2a[i];
|
||||
mag1 += d1a[i] * d1a[i];
|
||||
mag2 += d2a[i] * d2a[i];
|
||||
}
|
||||
mag1 = sqrt(mag1);
|
||||
mag2 = sqrt(mag2);
|
||||
|
||||
// return dot_prod / (mag1 * mag2);
|
||||
// }
|
||||
return dot_prod / (mag1 * mag2);
|
||||
}
|
||||
|
||||
// float cosine_similarity_int(Dna *d1, Dna *d2)
|
||||
// {
|
||||
// auto map = [](uint8_t a) -> int8_t
|
||||
// { return a - 128; };
|
||||
|
||||
// uint8_t *d1a = (uint8_t *)d1;
|
||||
// uint8_t *d2a = (uint8_t *)d2;
|
||||
|
||||
// float mag1 = 0.0f;
|
||||
// float mag2 = 0.0f;
|
||||
// float dot_prod = 0.0f;
|
||||
// for (size_t i = 0; i < sizeof(Dna); i++)
|
||||
// {
|
||||
// int8_t a = map(d1a[i]);
|
||||
// int8_t b = map(d2a[i]);
|
||||
// dot_prod += a * b;
|
||||
// mag1 += a * a;
|
||||
// mag2 += b * b;
|
||||
// }
|
||||
// mag1 = sqrt(mag1);
|
||||
// mag2 = sqrt(mag2);
|
||||
|
||||
// return dot_prod / (mag1 * mag2);
|
||||
// }
|
||||
float cosine_similarity_int(Dna *d1, Dna *d2)
|
||||
{
|
||||
auto map = [](uint8_t a) -> int8_t
|
||||
{ return a - 128; };
|
||||
uint8_t *d1a = (uint8_t *)d1;
|
||||
uint8_t *d2a = (uint8_t *)d2;
|
||||
float mag1 = 0.0f;
|
||||
float mag2 = 0.0f;
|
||||
float dot_prod = 0.0f;
|
||||
for (size_t i = 0; i < sizeof(Dna); i++)
|
||||
{
|
||||
int8_t a = map(d1a[i]);
|
||||
int8_t b = map(d2a[i]);
|
||||
dot_prod += a * b;
|
||||
mag1 += a * a;
|
||||
mag2 += b * b;
|
||||
}
|
||||
mag1 = sqrt(mag1);
|
||||
mag2 = sqrt(mag2);
|
||||
return dot_prod / (mag1 * mag2);
|
||||
}
|
||||
|
||||
float hamming_distance(Dna *d1, Dna *d2)
|
||||
{
|
||||
@@ -99,4 +115,40 @@ namespace Similarity
|
||||
float average_similarity = total_similarity / num_pairs;
|
||||
return average_similarity * 100.0f;
|
||||
}
|
||||
|
||||
float levenshtein_distance(Dna *d1, Dna *d2)
|
||||
{
|
||||
size_t len = sizeof(Dna);
|
||||
uint8_t *a = (uint8_t *)d1;
|
||||
uint8_t *b = (uint8_t *)d2;
|
||||
|
||||
// Create a distance matrix
|
||||
std::vector<std::vector<uint32_t>> dp(len + 1, std::vector<uint32_t>(len + 1, 0));
|
||||
|
||||
// Initialize the first row and column
|
||||
for (size_t i = 0; i <= len; ++i)
|
||||
{
|
||||
dp[i][0] = i;
|
||||
}
|
||||
for (size_t j = 0; j <= len; ++j)
|
||||
{
|
||||
dp[0][j] = j;
|
||||
}
|
||||
|
||||
// Fill the distance matrix
|
||||
for (size_t i = 1; i <= len; ++i)
|
||||
{
|
||||
for (size_t j = 1; j <= len; ++j)
|
||||
{
|
||||
uint32_t cost = (a[i - 1] == b[j - 1]) ? 0 : 1;
|
||||
dp[i][j] = std::min({
|
||||
dp[i - 1][j] + 1, // deletion
|
||||
dp[i][j - 1] + 1, // insertion
|
||||
dp[i - 1][j - 1] + cost // substitution
|
||||
});
|
||||
}
|
||||
}
|
||||
return 1 - (dp[len][len] / float (len + len));
|
||||
}
|
||||
|
||||
}
|
||||
|
||||
Reference in New Issue
Block a user