Skip to main content

Table 1 Recall rates for simulated human reads of different length, n = 1

From: Centroid based clustering of high throughput sequencing reads based on n-mer counts

 

EM

k-means

L 2

d 2

Read length

Recall

std. dev.

Recall

std. dev.

Recall

std. dev.

Recallt

std. dev.

2 clusters

30

0.740

0.133

0.740

0.134

0.740

0.133

0.738

0.134

50

0.763

0.142

0.763

0.142

0.763

0.141

0.763

0.142

75

0.781

0.146

0.781

0.146

0.781

0.146

0.781

0.146

100

0.794

0.148

0.794

0.149

0.794

0.148

0.794

0.148

150

0.812

0.152

0.811

0.153

0.812

0.152

0.812

0.152

200

0.827

0.153

0.826

0.154

0.827

0.153

0.827

0.153

250

0.839

0.154

0.839

0.154

0.840

0.153

0.840

0.153

300

0.850

0.153

0.850

0.154

0.850

0.153

0.850

0.153

400

0.868

0.152

0.868

0.152

0.868

0.152

0.868

0.152

3 clusters

30

0.581

0.118

0.582

0.131

0.580

0.119

0.575

0.120

50

0.608

0.130

0.609

0.136

0.606

0.129

0.606

0.136

75

0.631

0.138

0.632

0.143

0.630

0.141

0.631

0.144

100

0.648

0.144

0.650

0.149

0.648

0.145

0.647

0.148

150

0.676

0.154

0.677

0.157

0.675

0.155

0.675

0.157

200

0.697

0.162

0.697

0.164

0.697

0.162

0.697

0.163

250

0.715

0.168

0.715

0.170

0.715

0.168

0.715

0.169

300

0.731

0.171

0.731

0.173

0.731

0.172

0.732

0.173

400

0.758

0.177

0.757

0.178

0.757

0.177

0.758

0.178

4 clusters

30

0.489

0.104

0.484

0.116

0.488

0.105

0.478

0.107

50

0.519

0.114

0.512

0.118

0.513

0.117

0.509

0.118

75

0.542

0.126

0.537

0.130

0.539

0.126

0.534

0.129

100

0.562

0.132

0.556

0.136

0.558

0.133

0.554

0.135

150

0.590

0.145

0.587

0.150

0.587

0.145

0.585

0.147

200

0.612

0.155

0.611

0.159

0.612

0.155

0.609

0.156

250

0.633

0.163

0.633

0.167

0.631

0.163

0.630

0.165

300

0.652

0.170

0.650

0.174

0.650

0.171

0.649

0.171

400

0.683

0.180

0.682

0.184

0.682

0.180

0.681

0.181

5 clusters

30

0.436

0.099

0.431

0.106

0.431

0.100

0.426

0.104

50

0.459

0.108

0.450

0.115

0.455

0.108

0.446

0.109

75

0.480

0.117

0.470

0.122

0.475

0.118

0.470

0.121

100

0.499

0.126

0.493

0.130

0.495

0.126

0.488

0.128

150

0.530

0.139

0.524

0.142

0.528

0.139

0.522

0.141

200

0.556

0.151

0.550

0.154

0.552

0.150

0.548

0.153

250

0.577

0.160

0.572

0.163

0.572

0.160

0.570

0.160

300

0.596

0.168

0.592

0.171

0.594

0.168

0.590

0.169

400

0.630

0.181

0.626

0.185

0.629

0.181

0.626

0.181

  1. Mean recall rates and standard deviation for various read lengths and numbers of clusters. For every read length clustering was performed on 50 simulated read sets, each set originating from 1000 randomly chosen human RNA reference sequences and having 100000 reads. Word length is n = 1.