Skip to main content

Table 1 Recall rates for simulated human reads of different length,n= 1

From: Centroid based clustering of high throughput sequencing reads based on n-mer counts

  EM k-means L 2 d 2
Read length Recall std. dev. Recall std. dev. Recall std. dev. Recallt std. dev.
2 clusters
30 0.740 0.133 0.740 0.134 0.740 0.133 0.738 0.134
50 0.763 0.142 0.763 0.142 0.763 0.141 0.763 0.142
75 0.781 0.146 0.781 0.146 0.781 0.146 0.781 0.146
100 0.794 0.148 0.794 0.149 0.794 0.148 0.794 0.148
150 0.812 0.152 0.811 0.153 0.812 0.152 0.812 0.152
200 0.827 0.153 0.826 0.154 0.827 0.153 0.827 0.153
250 0.839 0.154 0.839 0.154 0.840 0.153 0.840 0.153
300 0.850 0.153 0.850 0.154 0.850 0.153 0.850 0.153
400 0.868 0.152 0.868 0.152 0.868 0.152 0.868 0.152
3 clusters
30 0.581 0.118 0.582 0.131 0.580 0.119 0.575 0.120
50 0.608 0.130 0.609 0.136 0.606 0.129 0.606 0.136
75 0.631 0.138 0.632 0.143 0.630 0.141 0.631 0.144
100 0.648 0.144 0.650 0.149 0.648 0.145 0.647 0.148
150 0.676 0.154 0.677 0.157 0.675 0.155 0.675 0.157
200 0.697 0.162 0.697 0.164 0.697 0.162 0.697 0.163
250 0.715 0.168 0.715 0.170 0.715 0.168 0.715 0.169
300 0.731 0.171 0.731 0.173 0.731 0.172 0.732 0.173
400 0.758 0.177 0.757 0.178 0.757 0.177 0.758 0.178
4 clusters
30 0.489 0.104 0.484 0.116 0.488 0.105 0.478 0.107
50 0.519 0.114 0.512 0.118 0.513 0.117 0.509 0.118
75 0.542 0.126 0.537 0.130 0.539 0.126 0.534 0.129
100 0.562 0.132 0.556 0.136 0.558 0.133 0.554 0.135
150 0.590 0.145 0.587 0.150 0.587 0.145 0.585 0.147
200 0.612 0.155 0.611 0.159 0.612 0.155 0.609 0.156
250 0.633 0.163 0.633 0.167 0.631 0.163 0.630 0.165
300 0.652 0.170 0.650 0.174 0.650 0.171 0.649 0.171
400 0.683 0.180 0.682 0.184 0.682 0.180 0.681 0.181
5 clusters
30 0.436 0.099 0.431 0.106 0.431 0.100 0.426 0.104
50 0.459 0.108 0.450 0.115 0.455 0.108 0.446 0.109
75 0.480 0.117 0.470 0.122 0.475 0.118 0.470 0.121
100 0.499 0.126 0.493 0.130 0.495 0.126 0.488 0.128
150 0.530 0.139 0.524 0.142 0.528 0.139 0.522 0.141
200 0.556 0.151 0.550 0.154 0.552 0.150 0.548 0.153
250 0.577 0.160 0.572 0.163 0.572 0.160 0.570 0.160
300 0.596 0.168 0.592 0.171 0.594 0.168 0.590 0.169
400 0.630 0.181 0.626 0.185 0.629 0.181 0.626 0.181
  1. Mean recall rates and standard deviation for various read lengths and numbers of clusters. For every read length clustering was performed on 50 simulated read sets, each set originating from 1000 randomly chosen human RNA reference sequences and having 100000 reads. Word length is n = 1.
\