Skip to main content

Table 2 Recall rates for simulated human reads of different length,n= 2

From: Centroid based clustering of high throughput sequencing reads based on n-mer counts

  EM k-means L 2 d 2
Read length Recall std. dev. Recall std. dev. Recall std. dev. Recallt std. dev.
2 clusters
30 0.737 0.133 0.735 0.136 0.735 0.137 0.735 0.136
50 0.762 0.141 0.760 0.143 0.760 0.143 0.759 0.142
75 0.781 0.145 0.778 0.147 0.778 0.147 0.778 0.147
100 0.794 0.148 0.791 0.150 0.791 0.149 0.791 0.149
150 0.812 0.152 0.810 0.153 0.810 0.153 0.810 0.153
200 0.827 0.153 0.825 0.155 0.825 0.154 0.825 0.154
250 0.839 0.153 0.837 0.155 0.837 0.155 0.837 0.155
300 0.850 0.153 0.848 0.155 0.848 0.155 0.848 0.155
400 0.867 0.152 0.866 0.154 0.867 0.154 0.867 0.154
3 clusters
30 0.573 0.110 0.573 0.108 0.572 0.106 0.567 0.108
50 0.604 0.124 0.603 0.126 0.602 0.122 0.600 0.124
75 0.629 0.135 0.629 0.138 0.627 0.134 0.626 0.136
100 0.647 0.142 0.647 0.146 0.645 0.142 0.644 0.144
150 0.675 0.153 0.675 0.156 0.673 0.153 0.673 0.155
200 0.696 0.160 0.696 0.164 0.695 0.161 0.694 0.162
250 0.714 0.166 0.714 0.170 0.713 0.167 0.713 0.168
300 0.730 0.171 0.730 0.173 0.730 0.171 0.729 0.172
400 0.756 0.177 0.757 0.179 0.756 0.177 0.756 0.178
4 clusters
30 0.492 0.096 0.492 0.097 0.497 0.096 0.473 0.112
50 0.523 0.109 0.526 0.110 0.530 0.110 0.521 0.110
75 0.549 0.121 0.550 0.122 0.557 0.123 0.550 0.122
100 0.567 0.129 0.567 0.131 0.576 0.131 0.570 0.131
150 0.596 0.143 0.595 0.147 0.603 0.144 0.599 0.144
200 0.618 0.153 0.616 0.157 0.624 0.154 0.620 0.154
250 0.638 0.161 0.637 0.166 0.643 0.162 0.640 0.162
300 0.655 0.168 0.654 0.173 0.658 0.168 0.656 0.168
400 0.684 0.179 0.685 0.184 0.688 0.179 0.686 0.179
5 clusters
30 0.418 0.108 0.411 0.102 0.409 0.103 0.395 0.109
50 0.456 0.122 0.465 0.114 0.474 0.109 0.455 0.123
75 0.492 0.119 0.498 0.123 0.501 0.122 0.493 0.121
100 0.513 0.128 0.518 0.133 0.522 0.132 0.516 0.131
150 0.546 0.142 0.550 0.146 0.555 0.146 0.550 0.145
200 0.569 0.153 0.572 0.157 0.578 0.156 0.574 0.156
250 0.589 0.162 0.592 0.165 0.600 0.165 0.595 0.165
300 0.607 0.169 0.609 0.172 0.618 0.172 0.614 0.172
400 0.638 0.181 0.638 0.184 0.648 0.183 0.645 0.183
  1. Mean recall rates and standard deviation for various read lengths and numbers of clusters. For every read length clustering was performed on 50 simulated read sets, each set originating from 1000 randomly chosen human RNA reference sequences and having 100000 reads. Word length is n = 2.
\