Skip to main content

Table 5 Recall rates for simulated human reads, different number of reads,n= 2

From: Centroid based clustering of high throughput sequencing reads based on n-mer counts

  EM L 2 d 2
Number of reads Recall std. dev. Recall std. dev. Recall std. dev.
2 clusters
5000 0.783 0.160 0.793 0.166 0.790 0.165
10000 0.787 0.151 0.793 0.156 0.793 0.156
20000 0.798 0.146 0.801 0.151 0.801 0.150
30000 0.805 0.146 0.806 0.150 0.806 0.150
50000 0.812 0.147 0.812 0.150 0.812 0.149
75000 0.815 0.148 0.815 0.151 0.815 0.150
100000 0.818 0.149 0.816 0.151 0.816 0.151
150000 0.820 0.150 0.819 0.152 0.819 0.151
200000 0.821 0.150 0.819 0.152 0.819 0.152
400000 0.823 0.151 0.821 0.153 0.821 0.152
3 clusters
5000 0.657 0.181 0.660 0.184 0.656 0.181
10000 0.653 0.162 0.655 0.164 0.653 0.163
20000 0.661 0.151 0.661 0.153 0.659 0.152
30000 0.667 0.149 0.667 0.150 0.665 0.150
50000 0.674 0.150 0.674 0.151 0.673 0.152
75000 0.679 0.152 0.678 0.153 0.677 0.153
100000 0.682 0.153 0.681 0.154 0.680 0.155
150000 0.685 0.154 0.684 0.155 0.683 0.156
200000 0.686 0.155 0.685 0.156 0.685 0.157
400000 0.689 0.156 0.688 0.157 0.687 0.158
4 clusters
5000 0.577 0.183 0.587 0.189 0.581 0.188
10000 0.569 0.159 0.577 0.163 0.573 0.162
20000 0.576 0.144 0.583 0.146 0.580 0.145
30000 0.583 0.141 0.590 0.143 0.586 0.142
50000 0.591 0.140 0.598 0.142 0.595 0.142
75000 0.597 0.142 0.603 0.144 0.599 0.143
100000 0.600 0.143 0.606 0.145 0.603 0.145
150000 0.604 0.145 0.610 0.146 0.607 0.146
200000 0.605 0.145 0.612 0.147 0.608 0.147
400000 0.608 0.147 0.615 0.148 0.611 0.148
5 clusters
5000 0.520 0.181 0.534 0.187 0.527 0.184
10000 0.514 0.156 0.527 0.162 0.520 0.158
20000 0.521 0.140 0.532 0.145 0.527 0.144
30000 0.529 0.138 0.540 0.142 0.535 0.141
50000 0.539 0.139 0.549 0.143 0.544 0.142
75000 0.545 0.140 0.555 0.144 0.550 0.144
100000 0.548 0.142 0.558 0.146 0.553 0.145
150000 0.552 0.144 0.562 0.148 0.557 0.147
200000 0.554 0.145 0.564 0.149 0.560 0.148
400000 0.558 0.146 0.568 0.150 0.563 0.150
  1. Mean recall rates and standard deviation for different number of reads. For each of the 50 randomly chosen subsets of human reference RNA sequences we simulated reads, choosing the specified number of reads. Clustering was performed using the EM, L2 and d2 algorithms. Word length is n = 2. Read length is 200bp. When computing the recall rate for each contig we use pseudocounts, artificially increasing the count of reads in each cluster by one.
\