Skip to main content

Table 3 Recall rates for simulated human reads of different length,n= 3

From: Centroid based clustering of high throughput sequencing reads based on n-mer counts

  EM k-means L 2 d 2
Read length Recall std. dev. Recall std. dev. Recall std. dev. Recall std. dev.
2 clusters
30 0.734 0.134 0.733 0.139 0.734 0.141 0.734 0.139
50 0.761 0.141 0.757 0.144 0.758 0.145 0.757 0.144
75 0.780 0.145 0.775 0.148 0.775 0.148 0.775 0.148
100 0.793 0.148 0.789 0.150 0.789 0.150 0.789 0.150
150 0.811 0.152 0.808 0.154 0.808 0.154 0.808 0.153
200 0.827 0.153 0.822 0.155 0.823 0.155 0.823 0.155
250 0.839 0.153 0.835 0.156 0.835 0.155 0.836 0.155
300 0.850 0.153 0.846 0.155 0.846 0.155 0.847 0.155
400 0.867 0.152 0.865 0.155 0.865 0.154 0.865 0.154
3 clusters
30 0.569 0.109 0.582 0.111 0.587 0.113 0.577 0.113
50 0.601 0.124 0.608 0.128 0.608 0.127 0.601 0.127
75 0.628 0.135 0.632 0.141 0.629 0.138 0.625 0.138
100 0.646 0.142 0.649 0.148 0.646 0.144 0.643 0.145
150 0.674 0.153 0.675 0.158 0.673 0.155 0.671 0.156
200 0.696 0.160 0.696 0.166 0.693 0.162 0.692 0.163
250 0.714 0.166 0.714 0.171 0.712 0.168 0.711 0.169
300 0.730 0.171 0.731 0.175 0.729 0.172 0.728 0.173
400 0.756 0.177 0.757 0.180 0.755 0.178 0.755 0.179
4 clusters
30 0.465 0.117 0.495 0.097 0.518 0.098 0.497 0.098
50 0.529 0.112 0.543 0.114 0.553 0.116 0.541 0.116
75 0.556 0.124 0.569 0.127 0.580 0.130 0.570 0.130
100 0.575 0.131 0.584 0.135 0.599 0.140 0.591 0.139
150 0.602 0.145 0.607 0.148 0.625 0.151 0.619 0.151
200 0.623 0.153 0.626 0.158 0.644 0.159 0.640 0.159
250 0.642 0.161 0.642 0.166 0.659 0.164 0.657 0.165
300 0.658 0.168 0.657 0.173 0.672 0.169 0.670 0.170
400 0.687 0.178 0.687 0.183 0.695 0.179 0.693 0.179
5 clusters
30 0.411 0.105 0.410 0.094 0.416 0.092 0.405 0.093
50 0.454 0.126 0.481 0.120 0.509 0.125 0.493 0.127
75 0.492 0.121 0.506 0.123 0.516 0.127 0.504 0.127
100 0.516 0.130 0.526 0.132 0.528 0.132 0.520 0.132
150 0.550 0.144 0.557 0.147 0.560 0.146 0.553 0.146
200 0.573 0.155 0.581 0.158 0.584 0.157 0.578 0.158
250 0.595 0.164 0.603 0.167 0.605 0.166 0.601 0.167
300 0.613 0.171 0.622 0.174 0.625 0.173 0.620 0.173
400 0.644 0.182 0.652 0.185 0.656 0.184 0.653 0.185
  1. Mean recall rates and standard deviation for various read lengths and numbers of clusters. For every read length clustering was performed on 50 simulated read sets, each set originating from 1000 randomly chosen human RNA reference sequences and having 100000 reads. Word length is n = 3.
\