AAclust.comp_coverage

static AAclust.comp_coverage(names, names_ref)[source]

Computes the percentage of unique names from names that are present in names_ref.

This method helps in understanding the coverage of a particular set of names (subset) within a reference set of names (universal set). Each name from both names and names_ref are considered only once, regardless of repetition.

Added in version 0.1.0.

Parameters:

names (list of str) – List of sample names. Should be subset of names_ref.
names_ref (list of str) – List of reference sample names. Should be superset of names.

Returns:

coverage – Percentage of unique names from names that are found in names_ref.

Return type:

float

Examples

The overlap of unique names between two list of names (in percentage) can be computed by AAclust().comp_coverage() method:

import aaanalysis as aa
df_cat = aa.load_scales(name="scales_cat")
names_ref = df_cat["subcategory"].to_list()
names = names_ref[0:50]
coverage = aa.AAclust().comp_coverage(names=names, names_ref=names_ref)
print(f"The scale subcategories of the first 50 scales cover {coverage}%\n of all scale subcategories from AAontology.")

The scale subcategories of the first 50 scales cover 6.76%
 of all scale subcategories from AAontology.