Skip to main content

Table 2 Recall rates for simulated human reads of different length, n = 2

From: Centroid based clustering of high throughput sequencing reads based on n-mer counts

 

EM

k-means

L 2

d 2

Read length

Recall

std. dev.

Recall

std. dev.

Recall

std. dev.

Recallt

std. dev.

2 clusters

30

0.737

0.133

0.735

0.136

0.735

0.137

0.735

0.136

50

0.762

0.141

0.760

0.143

0.760

0.143

0.759

0.142

75

0.781

0.145

0.778

0.147

0.778

0.147

0.778

0.147

100

0.794

0.148

0.791

0.150

0.791

0.149

0.791

0.149

150

0.812

0.152

0.810

0.153

0.810

0.153

0.810

0.153

200

0.827

0.153

0.825

0.155

0.825

0.154

0.825

0.154

250

0.839

0.153

0.837

0.155

0.837

0.155

0.837

0.155

300

0.850

0.153

0.848

0.155

0.848

0.155

0.848

0.155

400

0.867

0.152

0.866

0.154

0.867

0.154

0.867

0.154

3 clusters

30

0.573

0.110

0.573

0.108

0.572

0.106

0.567

0.108

50

0.604

0.124

0.603

0.126

0.602

0.122

0.600

0.124

75

0.629

0.135

0.629

0.138

0.627

0.134

0.626

0.136

100

0.647

0.142

0.647

0.146

0.645

0.142

0.644

0.144

150

0.675

0.153

0.675

0.156

0.673

0.153

0.673

0.155

200

0.696

0.160

0.696

0.164

0.695

0.161

0.694

0.162

250

0.714

0.166

0.714

0.170

0.713

0.167

0.713

0.168

300

0.730

0.171

0.730

0.173

0.730

0.171

0.729

0.172

400

0.756

0.177

0.757

0.179

0.756

0.177

0.756

0.178

4 clusters

30

0.492

0.096

0.492

0.097

0.497

0.096

0.473

0.112

50

0.523

0.109

0.526

0.110

0.530

0.110

0.521

0.110

75

0.549

0.121

0.550

0.122

0.557

0.123

0.550

0.122

100

0.567

0.129

0.567

0.131

0.576

0.131

0.570

0.131

150

0.596

0.143

0.595

0.147

0.603

0.144

0.599

0.144

200

0.618

0.153

0.616

0.157

0.624

0.154

0.620

0.154

250

0.638

0.161

0.637

0.166

0.643

0.162

0.640

0.162

300

0.655

0.168

0.654

0.173

0.658

0.168

0.656

0.168

400

0.684

0.179

0.685

0.184

0.688

0.179

0.686

0.179

5 clusters

30

0.418

0.108

0.411

0.102

0.409

0.103

0.395

0.109

50

0.456

0.122

0.465

0.114

0.474

0.109

0.455

0.123

75

0.492

0.119

0.498

0.123

0.501

0.122

0.493

0.121

100

0.513

0.128

0.518

0.133

0.522

0.132

0.516

0.131

150

0.546

0.142

0.550

0.146

0.555

0.146

0.550

0.145

200

0.569

0.153

0.572

0.157

0.578

0.156

0.574

0.156

250

0.589

0.162

0.592

0.165

0.600

0.165

0.595

0.165

300

0.607

0.169

0.609

0.172

0.618

0.172

0.614

0.172

400

0.638

0.181

0.638

0.184

0.648

0.183

0.645

0.183

  1. Mean recall rates and standard deviation for various read lengths and numbers of clusters. For every read length clustering was performed on 50 simulated read sets, each set originating from 1000 randomly chosen human RNA reference sequences and having 100000 reads. Word length is n = 2.