Skip to main content

Table 3 Recall rates for simulated human reads of different length, n = 3

From: Centroid based clustering of high throughput sequencing reads based on n-mer counts

 

EM

k-means

L 2

d 2

Read length

Recall

std. dev.

Recall

std. dev.

Recall

std. dev.

Recall

std. dev.

2 clusters

30

0.734

0.134

0.733

0.139

0.734

0.141

0.734

0.139

50

0.761

0.141

0.757

0.144

0.758

0.145

0.757

0.144

75

0.780

0.145

0.775

0.148

0.775

0.148

0.775

0.148

100

0.793

0.148

0.789

0.150

0.789

0.150

0.789

0.150

150

0.811

0.152

0.808

0.154

0.808

0.154

0.808

0.153

200

0.827

0.153

0.822

0.155

0.823

0.155

0.823

0.155

250

0.839

0.153

0.835

0.156

0.835

0.155

0.836

0.155

300

0.850

0.153

0.846

0.155

0.846

0.155

0.847

0.155

400

0.867

0.152

0.865

0.155

0.865

0.154

0.865

0.154

3 clusters

30

0.569

0.109

0.582

0.111

0.587

0.113

0.577

0.113

50

0.601

0.124

0.608

0.128

0.608

0.127

0.601

0.127

75

0.628

0.135

0.632

0.141

0.629

0.138

0.625

0.138

100

0.646

0.142

0.649

0.148

0.646

0.144

0.643

0.145

150

0.674

0.153

0.675

0.158

0.673

0.155

0.671

0.156

200

0.696

0.160

0.696

0.166

0.693

0.162

0.692

0.163

250

0.714

0.166

0.714

0.171

0.712

0.168

0.711

0.169

300

0.730

0.171

0.731

0.175

0.729

0.172

0.728

0.173

400

0.756

0.177

0.757

0.180

0.755

0.178

0.755

0.179

4 clusters

30

0.465

0.117

0.495

0.097

0.518

0.098

0.497

0.098

50

0.529

0.112

0.543

0.114

0.553

0.116

0.541

0.116

75

0.556

0.124

0.569

0.127

0.580

0.130

0.570

0.130

100

0.575

0.131

0.584

0.135

0.599

0.140

0.591

0.139

150

0.602

0.145

0.607

0.148

0.625

0.151

0.619

0.151

200

0.623

0.153

0.626

0.158

0.644

0.159

0.640

0.159

250

0.642

0.161

0.642

0.166

0.659

0.164

0.657

0.165

300

0.658

0.168

0.657

0.173

0.672

0.169

0.670

0.170

400

0.687

0.178

0.687

0.183

0.695

0.179

0.693

0.179

5 clusters

30

0.411

0.105

0.410

0.094

0.416

0.092

0.405

0.093

50

0.454

0.126

0.481

0.120

0.509

0.125

0.493

0.127

75

0.492

0.121

0.506

0.123

0.516

0.127

0.504

0.127

100

0.516

0.130

0.526

0.132

0.528

0.132

0.520

0.132

150

0.550

0.144

0.557

0.147

0.560

0.146

0.553

0.146

200

0.573

0.155

0.581

0.158

0.584

0.157

0.578

0.158

250

0.595

0.164

0.603

0.167

0.605

0.166

0.601

0.167

300

0.613

0.171

0.622

0.174

0.625

0.173

0.620

0.173

400

0.644

0.182

0.652

0.185

0.656

0.184

0.653

0.185

  1. Mean recall rates and standard deviation for various read lengths and numbers of clusters. For every read length clustering was performed on 50 simulated read sets, each set originating from 1000 randomly chosen human RNA reference sequences and having 100000 reads. Word length is n = 3.