PLoS One: Αναπαραγώγιμο Καρκίνος βιοδεικτών Discovery στο SELDI-TOF MS Χρησιμοποιώντας διαφορετικά προ-Αλγόριθμοι Επεξεργασίας


Αφηρημένο

Ιστορικό

Υπήρξε μεγάλο ενδιαφέρον για τη διαφοροποίηση άρρωστα και φυσιολογικά δείγματα με τη χρήση βιοδεικτών που προέρχονται από φασματομετρία μάζας μελέτες (MS). Ωστόσο, η ταυτοποίηση βιοδεικτών για συγκεκριμένες ασθένειες έχει παρεμποδιστεί από irreproducibility. Συγκεκριμένα, ένα προφίλ κορυφής που εξάγεται από ένα σύνολο δεδομένων για την ταυτοποίηση βιοδείκτη εξαρτάται από έναν αλγόριθμο προ-επεξεργασία των δεδομένων. Μέχρι τώρα, δεν έχει επιτευχθεί ευρέως αποδεκτή συμφωνία.

Αποτελέσματα

Στην παρούσα εργασία, μελετήθηκε η συνοχή της ταυτότητας των βιοδεικτών χρησιμοποιώντας διαφορικά εκφρασμένων (DE) κορυφές από τα προφίλ κορυφής που παράγεται από τα τρία χρησιμοποιούνται ευρέως μέσος αλγόριθμοι προεπεξεργασία φάσμα εξαρτώμενη βασίζονται σε δεδομένα SELDI-TOF MS για προστάτη και του μαστού. Τα αποτελέσματα μας αποκάλυψαν δύο σημαντικούς παράγοντες που επηρεάζουν τη συνοχή των DE ταυτοποίησης κορυφής χρησιμοποιώντας διαφορετικούς αλγόριθμους. Ένας παράγοντας είναι ότι ορισμένες κορυφές DE επιλέγεται από ένα προφίλ κορυφής δεν ανιχνεύθηκαν σαν κορυφές σε άλλα προφίλ, και ο δεύτερος παράγοντας είναι ότι η στατιστική ισχύς του προσδιορισμού κορυφών DE σε μεγάλο προφίλ κορυφής με πολλές κορυφές μπορεί να είναι χαμηλή λόγω της μεγάλης κλίμακας της οι δοκιμές και μικρό αριθμό δειγμάτων. Επιπλέον, αποδείξαμε ότι η δύναμη ανίχνευσης κορυφής DE σε μεγάλες προφίλ θα μπορούσε να βελτιωθεί με την στρωματοποιημένη ποσοστό εσφαλμένης ανακάλυψη (FDR) προσέγγιση ελέγχου και ότι η δυνατότητα αναπαραγωγής των DE ανίχνευσης αιχμής θα μπορούσε έτσι να αυξηθεί.

Συμπεράσματα

η σύγκριση και αξιολόγηση των αλγορίθμων προ-επεξεργασία όσον αφορά την επαναληψιμότητα μπορεί να διαφωτίσει τη σχέση μεταξύ των διαφορετικών αλγορίθμων και επίσης να βοηθήσει στην επιλογή ενός αλγορίθμου προ-επεξεργασίας. Οι κορυφές DE επιλέγεται από μικρό προφίλ κορυφή με λίγες αιχμές για ένα σύνολο δεδομένων τείνουν να ανιχνευθούν επαναλήψιμα σε μεγάλο προφίλ κορυφή, γεγονός που υποδηλώνει ότι ένας κατάλληλος αλγόριθμος προ-επεξεργασίας θα πρέπει να είναι σε θέση να παράγουν κορυφές επαρκής για τον εντοπισμό χρήσιμο και αναπαραγώγιμο βιοδείκτες.

Παράθεση: Ζου J, Χονγκ G, Guo Χ, Zhang L, Yao C, Wang J, et al. (2011) Cancer Αναπαραγώγιμο βιοδεικτών Discovery στο SELDI-TOF MS Χρησιμοποιώντας διαφορετικά προ-επεξεργασίας Αλγόριθμοι. PLoS ONE 6 (10): e26294. doi: 10.1371 /journal.pone.0026294

Συντάκτης: William C.S. Cho, Queen Elizabeth Hospital, το Χονγκ Κονγκ

Ελήφθη: 7, Ιουνίου 2011? Αποδεκτές: 24, Σεπτεμβρίου 2011? Δημοσιεύθηκε: 14 Οκτωβρίου 2011

Copyright: © 2011 Ζου et al. Αυτό είναι ένα άρθρο ανοικτής πρόσβασης διανέμεται υπό τους όρους της άδειας χρήσης Creative Commons Attribution, το οποίο επιτρέπει απεριόριστη χρήση, τη διανομή και την αναπαραγωγή σε οποιοδήποτε μέσο, ​​με την προϋπόθεση το αρχικό συγγραφέα και την πηγή πιστώνονται

Χρηματοδότηση:. Αυτό το έργο υποστηρίχθηκε από το Εθνικό Ίδρυμα Φυσικών Επιστημών της Κίνας (30970668, 81071646, 91029717) (https://www.nsfc.gov.cn/Portal0/default106.htm), Άριστη Ίδρυμα Νεότητας της επαρχίας Heilongjiang (JC200808) (http: //jj.hljkj.cn/qn/), Ίδρυμα Φυσικών Επιστημών της επαρχίας Heilongjiang της Κίνας (QC2010012) (https://jj.hljkj.cn/zr/index.htm), και η επιστημονική Ταμείο Έρευνας του Τμήματος επαρχιακού Παιδείας Heilongjiang (11541156). Οι χρηματοδότες δεν είχε κανένα ρόλο στο σχεδιασμό της μελέτης, τη συλλογή και ανάλυση των δεδομένων, η απόφαση για τη δημοσίευση, ή την προετοιμασία του χειρογράφου

Αντικρουόμενα συμφέροντα:.. Οι συγγραφείς έχουν δηλώσει ότι δεν υπάρχουν ανταγωνιστικά συμφέροντα

Εισαγωγή

πρωτεομικής τεχνολογίες που βασίζονται σε φασματομετρία μάζας (MS) [1], έχουν γίνει όλο και περισσότερο η μέθοδος επιλογής για την ταυτοποίηση βιοδεικτών που είναι χρήσιμα για τη διαφοροποίηση νοσούντα και φυσιολογικά δείγματα [2], [3], [4] . Ωστόσο, παρόμοια με τις μελέτες μικροσυστοιχίας [5], [6], η χρήση τεχνικών MS για τον εντοπισμό βιοδείκτες ασθένεια έχει παρεμποδιστεί από irreproducibility [7], [8]. Για παράδειγμα, οι βιοδείκτες που προσδιορίζονται σε τέσσερις μελέτες του καρκίνου του προστάτη είναι πολύ διαφορετικές [8]. Πρόσφατα, CALLESEN

et al

. [7] έδειξε ότι μόνο 10 από 207 βιοδεικτών που αναφέρθηκαν σε 15 μελέτες του καρκίνου του μαστού MS-based ανιχνεύθηκαν σε περισσότερα από 2 μελέτες. Αυτό irreproducibility εγείρει ερωτήματα σχετικά με τη βιολογική σημασία και κλινικές επιπτώσεις από τις ανιχνεύεται βιοδεικτών.

Πολλοί παράγοντες, όπως οι διαδικασίες επεξεργασίας και λειτουργίας του δείγματος για τα πειράματα, μπορεί να επηρεάσει τη δυνατότητα αναπαραγωγής των βιοδεικτών της νόσου [9], [10] , [11], [12], [13], [14], [15]. Σημαντικά, ο αλγόριθμος προ-επεξεργασίας δεδομένων επιλέγονται για να παράγουν κορυφή προφίλ μπορεί να επηρεάσει σε μεγάλο βαθμό την αναγνώριση βιοδείκτη [16]. Μερικές μελέτες έχουν προσπαθήσει να βρουν το βέλτιστο αλγόριθμο προ-επεξεργασίας για την ανίχνευση κορυφών [17], [18], [19]. Ωστόσο, μέχρι σήμερα, δεν έχει επιτευχθεί ευρέως αποδεκτή συμφωνία. Για παράδειγμα, με βάση τα δεδομένα προσομοίωσης με προκαθορισμένες αλήθεια κορυφές, Cruz-Marcelo

et al

. [17] και Emanuele

et al

. [18] αξιολογούνται διάφορες αλγορίθμων τόσο από πλευράς ευαισθησίας (που ορίζεται ως το ποσοστό της πραγματικής κορυφές που είχαν αναγνωριστεί σωστά) και ειδικότητας (που ορίζεται ως το ποσοστό εσφαλμένης ανακάλυψη (FDR)). Αυτές οι δύο μελέτες καταλήγουν σε διαφορετικά συμπεράσματα σχετικά με τις τρεις αλγορίθμους που και οι δύο αξιολογήθηκαν, τα οποία ήταν MassSpecWavelet [20], Cromwell [21] και εμπορικό λογισμικό που παράγεται από Ciphergen Biosystems. Cruz-Marcelo

et al

. [17] ανέφερε ότι αυτοί οι αλγόριθμοι που προσφέρει υψηλή ευαισθησία με χαμηλό FDR, ενώ Emanuele

et al

. [18] έδειξε ότι είχαν χαμηλή ευαισθησία και χαμηλό FDR. Αυτή η σύγκρουση θα μπορούσε να έχει εισαχθεί από διαφορές στα δεδομένα προσομοίωσης τους, η οποία σε γενικές γραμμές τείνουν να επηρεάζονται από συγκεκριμένα σενάρια. Μια λύση για την αποφυγή μεροληψίας είναι να υιοθετήσει πραγματικά δεδομένα αντί των προσομοιωμένων δεδομένων. Δυστυχώς, με πραγματικά δεδομένα, η ευαισθησία και FDR ενός αλγορίθμου δεν μπορούν να αξιολογηθούν, διότι οι αληθινοί κορυφές είναι άγνωστη. Ωστόσο, οι αλγόριθμοι προεπεξεργασία μπορεί να συγκριθεί σε όρους αναπαραγωγιμότητας ανίχνευση κορυφής με την αξιολόγηση κορυφή επικάλυψη. Αξίζει να σημειωθεί ότι, αναπαραγωγιμότητα είναι ένα κρίσιμο μέτρο για την επικύρωση βιολογική ανακαλύψεις που είναι διαφορετική από την ευαισθησία και την ειδικότητα [6], [22], [23], [24].

Σε αυτή τη μελέτη, χρησιμοποιώντας πραγματικά προστάτη και του καρκίνου του μαστού δεδομένα, αξιολογήσαμε πρώτα την αναπαραγωγιμότητα της ανίχνευσης κορυφής μεταξύ των τριών ευρέως χρησιμοποιούμενα αλγόριθμοι προεπεξεργασίας που ανιχνεύουν κορυφές εξαρτώνται από το μέσο όρο του φάσματος όλων των φασμάτων (βλέπε

Methods

), συμπεριλαμβανομένων των SpecAlign [25], MassSpecWavelet [ ,,,0],20] και Cromwell [21]. Το πιο σημαντικό, θα αξιολογηθεί περαιτέρω η επαναληψιμότητα της ανίχνευσης των διαφορικά εκφρασμένων (DE) κορυφές (ορίζεται συχνά ως βιοδείκτες), η οποία ήταν το επίκεντρο της βιολογικής κοινότητας, αλλά δεν έχουν πλήρως αξιολογηθεί είτε με προσομοίωση ή πραγματικά δεδομένα. Τα αποτελέσματά μας δείχνουν ότι ο αριθμός των κορυφών ανιχνευθεί για ένα σύνολο δεδομένων ποικίλλει δραματικά, ανάλογα με τον αλγόριθμο προεπεξεργασίας. Τα αποτελέσματά μας αποκάλυψε επίσης δύο σημαντικοί παράγοντες που επηρεάζουν τη συνοχή της DE αναγνώρισης αιχμής χρησιμοποιώντας διαφορετικούς αλγόριθμους προ-επεξεργασίας. Ο πρώτος παράγοντας είναι ότι ένα προφίλ κορυφής μπορεί να έχει έλλειψη DE κορυφών που βρέθηκαν σε ένα άλλο προφίλ, το οποίο μπορεί να επηρεάσει την αναπαραγωγιμότητα πριν από την επιλογή των κορυφών DE. Ο δεύτερος παράγοντας είναι ότι ένα μεγάλο προφίλ κορυφής με πολλές κορυφές μπορεί να υποφέρουν από χαμηλή στατιστική ισχύ για την ταυτοποίηση κορυφών DE λόγω της μεγάλης κλίμακας της δοκιμής μαζί με μικρό αριθμό δείγματος [26], [27], [28], [29] . Ευτυχώς, τα αποτελέσματά μας δείχνουν ότι η δύναμη των μεγάλων προφίλ αιχμής μπορεί να αυξηθεί με την προσέγγιση στρωματοποιημένη FDR ελέγχου [30]. Κατά συνέπεια, DE κορυφές που επιλέγονται από μικρό προφίλ κορυφή τείνουν να ανιχνευθούν επαναλήψιμα σε μεγάλο προφίλ αιχμής. Με βάση την ανάλυση της παρούσας μελέτης, προτείνουμε ότι ένας κατάλληλος αλγόριθμος προ-επεξεργασίας θα πρέπει να είναι σε θέση να παράγουν κορυφές επαρκείς για την ταυτοποίηση των χρήσιμων και επαναλήψιμη βιοδείκτες.

Υλικά και Μέθοδοι

σύνολα δεδομένων του καρκίνου

Τα δεδομένα του καρκίνου του προστάτη, το οποίο έγινε λήψη από https://www.evms.edu/vpc/seldi/, αποτελούνταν από δύο αντίτυπα φασμάτων για 168 καρκίνο και 81 φυσιολογικά δείγματα ορού μετρήθηκαν με SELDI-TOF MS (IMAC -3 μάρκες), με το φορτίο μάζας προς (

m /z

) αναλογία που κυμαίνεται από 0 έως 200 kDa [31]. Τα δείγματα αίματος διαγνωστεί σταδίου I-IV ασθενείς που προμηθεύονται από το Τμήμα Ουρολογίας, της Ανατολικής Βιρτζίνια Ιατρική Σχολή και τα δείγματα των υγιών ανδρών ελήφθησαν από δωρεάν κλινικές έλεγχο ανοικτή για το ευρύ κοινό (βλέπε λεπτομέρειες στο [31]). Τα δείγματα ορού λήφθηκαν από τον ιστό του προστάτη Virginia Center και σωματικό υγρό Bank. Τα δεδομένα του καρκίνου του μαστού, το οποίο έγινε λήψη από https://bioinformatics.mdanderson.org/pubdata.html, αποτελούνταν από δύο αντίτυπα φασμάτων για 26 καρκίνο και 14 δείγματα φυσιολογικού πλάσματος μετράται με SELDI-TOF MS (IMAC Cu-chip), με τη

m /z

αναλογία που κυμαίνεται από 10 έως 100 kDa. [32] Τα δείγματα αίματος ελήφθησαν από ασθενείς με καρκίνωμα του μαστού διαγνώστηκαν το στάδιο Ι-ΙΙΙ και σε υγιείς εθελοντές (βλέπε λεπτομέρειες στο [32]). Τα δείγματα πλάσματος διεξήχθησαν στο Κέντρο Μαστού Nellie Β Connally στο Πανεπιστήμιο του Τέξας MD Anderson Κέντρο Καρκίνου.

Για κάθε ζεύγος των διπλών φασμάτων, τα δύο φάσματα προ-επεξεργασία χωριστά και στη συνέχεια ο μέσος όρος για την παραγωγή ενός προφίλ συναίνεση. Λαμβάνοντας υπόψη τους περιορισμούς του θορύβου μέτρησης και ανίχνευσης, χρησιμοποιήσαμε μόνο τα κορυφές στο

m /z

φάσμα των 1-10 kDa για τον καρκίνο του μαστού και 2-40 kDa για τον καρκίνο του προστάτη στις αναλύσεις μας, όπως και τα πρωτότυπα έγγραφα [31 ], [32].

αλγόριθμοι προεπεξεργασίας δεδομένων

Όπως απεικονίζεται στο Σχήμα 1, τα δεδομένα SELDI-TOF-MS είναι συνήθως προ-επεξεργασία με πολλαπλά στάδια, συμπεριλαμβανομένων denoising (λείανση), βασικής γραμμής αφαίρεση, κανονικοποίηση, ανίχνευση κορυφής, η ομαδοποίηση των κορυφών και αιχμής ποσοτικοποίηση [17]. Οι τρεις αλγόριθμοι που αναλύθηκαν σε αυτή τη μελέτη ανιχνεύει κορυφές, ανάλογα με το μέσο όρο του φάσματος όλων των φασμάτων, και οι διαδικασίες προεπεξεργασίας περιγράφονται παρακάτω. Οι συγκεκριμένες ρυθμίσεις παραμέτρων που χρησιμοποιούνται για κάθε αλγόριθμο μπορεί να βρεθεί στο κείμενο S1.

(Α) Πρώτες φάσματος. (Β) Smoothed φάσματος. Η εκτιμώμενη βασική από την εξομαλύνεται φάσμα αντιπροσωπεύεται ως γκρίζα γραμμή. (C) Κανονικοποιημένη φάσματος. Η αρχική τιμή αφαιρείται από το εξομαλυμένο φάσμα. Στη συνέχεια, το φάσμα αρχική τιμή-αφαιρείται ομαλοποιείται. Οι κορυφές ανιχνεύθηκαν με βάση το κανονικοποιημένο φάσμα εμφανίζονται σε κύκλους.

Η

(1). SpecAlign [25] προ-επεξεργάζεται δεδομένα ως εξής: α) εξομάλυνση του φάσματος χρησιμοποιώντας το φίλτρο Savitzky-Golay? β) την αφαίρεση της βάσης υπολογίζεται από συγκρατημένη κινητός μέσος όρος? γ) ανακλιμάκωση εντάσεις σε θετικές τιμές, κάνοντας την ελάχιστη τιμή 0? δ) την ομαλοποίηση εντάσεις να αφήσει όλα τα φάσματα έχουν το ίδιο συνολικό ρεύμα ιόντων? ε) δημιουργώντας ένα μέσο φάσμα? στ) τη χρήση του γρήγορου μετασχηματισμού Fourier (FFT) /κορυφή ταιριάζουν συνδυασμένη μέθοδο για την ευθυγράμμιση των ανιχνεύθηκε κορυφές των ατομικών φασμάτων σε εκείνες που ταυτοποιούνται στη μέση του φάσματος? και ζ) picking κορυφές. Ο λόγος προεπιλεγμένο ύψος που υπηρέτησε ως ο λόγος σήματος προς θόρυβο (SNR) ήταν 1,5.

(2). Το πακέτο MassSpecWavelet για την ανίχνευση αιχμής [20] σε συνδυασμό με το πακέτο διαδικασία για την κορυφή ποσοτικοποίηση [33] (που συμβολίζεται ΑΣΑ /PRO). MassSpecWavelet έχει αναφερθεί ότι έχει υψηλή ευαισθησία με χαμηλή FDR για ανίχνευση κορυφών [17]. Ωστόσο, δεν ανιχνεύονται ποσοτικά τα κορυφές. Έτσι, με βάση την εργασία από Cruz-Marcelo

et al

. [17], θα χρησιμοποιείται η μέθοδος για την ποσοτικοποίηση κορυφές ανιχνεύονται από MassSpecWavelet. MassSpecWavelet ανιχνεύει κορυφές χρησιμοποιώντας τη συνεχή μετατροπή κυματιδίων στο μέσο φάσμα του συνόλου των φασμάτων. Για κάθε φάσμα, διαδικασία αφαιρεί τη βασική γραμμή, η οποία εκτιμάται με γραμμική παρεμβολή, τότε ομαλοποιείται τις εντάσεις χρησιμοποιώντας το διάμεσο περιοχή κάτω από τις καμπύλες όλων των φασμάτων, και, τέλος, ποσοτικοποιεί τις ανιχνεύεται κορυφές των επιμέρους φασμάτων από το τοπικό μέγιστο εντός του προκαθορισμένου διαστήματος . Η προεπιλεγμένη SNR για την ανίχνευση κορυφή ήταν 3.

(3). Cromwell [21] προ-επεξεργάζεται δεδομένα από α) να υπολογίσει τη μέση του φάσματος? β) denoising το μέσο όρο του ραδιοφάσματος από την undecimated διακριτό μετασχηματισμό κυματιδίων? γ) τη διόρθωση εντάσεις για το μέσο φάσμα αφαιρώντας την αρχική τιμή, η οποία υπολογίζεται από το ελάχιστο μονότονη καμπύλη? δ) την εξεύρεση κορυφές με τις τοπικές μέγιστη ένταση για το μέσο φάσμα? ε) επανάληψη β) και γ) για κάθε φάσμα, ομαλοποιώντας εντάσεις με μέση συνολική ρεύμα ιόντων, και την ποσοτικοποίηση εντάσεις κορυφών χρησιμοποιώντας το μέγιστο εντός των διαστημάτων που ορίζει κορυφές στο μέσο όρο φάσματος? και στ) εκχύλιση κορυφές με SNR ορίζεται από το χρήστη. Η προεπιλεγμένη SNR ορίστηκε σε 5, σύμφωνα με την εισήγηση του κυρίου του έργου.

Η έξοδος ενός αλγορίθμου προ-επεξεργασίας είναι ένα προφίλ κορυφής για το σύνολο δεδομένων, η οποία αποτελείται από τους ανιχνεύονται αιχμές και τις αντίστοιχες εντάσεις τους στο κάθε φάσματος. Για λόγους απλότητας, τα προφίλ κορυφής που παράγεται από SpecAlign, MSW /PRO και Cromwell σημειώνονται SpecAlign προφίλ, MSW /PRO προφίλ και το προφίλ Cromwell, αντίστοιχα.

Δύο κορυφές με ένα

m /z

αναλογία διαφορά μέσα σε ένα εύρος μετατόπισης μπορεί να αντιστοιχεί στην ίδια βιολογική μόριο [17], [34]. Σε αυτή τη μελέτη, χρησιμοποιήσαμε διαστήματα μετατόπισης του ± 0,1%, ± 0,2% και ± 0,3%, και τα αποτελέσματα ήταν παρόμοια. Για λόγους απλότητας, παρουσιάζουμε μόνο τα αποτελέσματα με βάση την κοινώς χρησιμοποιούμενη κλίμακα μετατόπιση του ± 0,3% [17],.

Επειδή οι στόχοι της βελτιστοποίησης για την ανίχνευση αιχμής δεν ορίζονται σε πραγματικά δεδομένα, οι προεπιλεγμένες ρυθμίσεις παραμέτρων για την προ οι -Μεταποίηση αλγόριθμοι που χρησιμοποιούνται για την ανίχνευση κορυφών στις περισσότερες εφαρμογές. Ωστόσο, ορισμένες μελέτες ενδέχεται να συντονίσετε το SNR για να βρείτε περισσότερο ή λιγότερο κορυφές [17], [18], [35], [36]. Έτσι, ομοίως συντονισμένοι το SNR στη μελέτη μας να συγκρίνουν αλγόριθμοι προ-επεξεργασίας. Επιπλέον, επειδή ένα χαμηλότερο SNR μπορεί να εντοπίσει πιο αληθινή και χρήσιμη κορυφές, είμαστε κατά κύριο λόγο θεωρείται η χαμηλότερη από τις δύο SNRs κατά τη σύγκριση ενός αλγορίθμου με ένα άλλο (βλέπε λεπτομέρειες στο

Συζήτηση

).

Ανίχνευση DE κορυφών και τα σκορ συνοχή

του Student

t-test

χρησιμοποιήθηκε για την αξιολόγηση της σημασίας των διαφορών μεταξύ της έντασης μέσα του καρκίνου και φυσιολογικά δείγματα. Για πολλαπλές διόρθωση δοκιμές, χρησιμοποιήσαμε τη διαδικασία Benjamini-Hochberg για τον έλεγχο του FDR σε ένα δεδομένο επίπεδο [37].

Η συνοχή των δύο καταλόγων κορυφής μετρήθηκε από το PO (ποσοστό των επικαλύψεων) σκοράρει [38] . κατάλογο 1 υποτεθεί με

l

1 κορυφές και κατάλογο 2 με

l

2 κορυφές μοιράζονται

k

κορυφές, τότε η βαθμολογία PO από τη λίστα 1 ( ή 2) στη λίστα 2 (ή 1) είναι

PO

12 =

k

/

l

1 (ή

PO

21 =

k

/

l

2). Επειδή το PO βαθμολογία εξαρτάται από τα μήκη λίστα, υπολόγισε επίσης την κανονικοποιημένη βαθμολογία PO (

ν

PO), η οποία ορίζεται ως το ποσοστό της παρατηρούμενης βαθμολογίας πέρα ​​από την ευκαιρία να το αντίστοιχο μέγιστο δυναμικό βαθμολογίας πέρα ​​από την ευκαιρία [38 ] 🙁 1) (2), όπου E (PO

12) (ή Ε (PO

21)) υπολογίστηκε ως ο μέσος όρος των βαθμολογιών PO

12 (ή PO

21) για την 1.000 ζεύγη των καταλόγων αιχμής (με μήκη

l

1 και

l

2) εξάγεται τυχαία από τις δύο πρώτες

m /z

λίστες. Μεταξύ των βαθμολογιών για τις 1.000 τυχαία ζεύγη των καταλόγων αιχμής, η

σ

-τιμή του παρατηρώντας το σκορ ΔΠ από τυχαία πιθανότητα υπολογίζεται ως το ποσοστό των βαθμολογιών όχι μικρότερη από την παρατηρηθείσα βαθμολογία.

η PO (

ν

PO) βαθμολογία μεταξύ των δύο καταλόγων των κορυφών DE υπολογίστηκε με την ίδια προσέγγιση όπως περιγράφεται παραπάνω, εκτός από το ότι μια κορυφή DE ορίστηκε ως κοινά σε δύο καταλόγους αυτούς μόνον εάν έχει ρυθμιστεί η ίδια κατεύθυνση και στα δύο προφίλ κορυφής [38]. E (PO) αξιολογήθηκε χρησιμοποιώντας DE λίστες κορυφή τυχαία εξάγεται από τα δύο προφίλ αιχμής. Εδώ, σας παρουσιάζουμε τη Δημόσια Πρόταση (

ν

PO) βαθμολογία από τη μικρότερη λίστα με την μεγαλύτερη λίστα και να αξιολογήσει τον βαθμό ότι η μικρότερη λίστα αυτή καλύπτεται από τη μεγαλύτερη λίστα.

Εμείς δηλώνουν τη ΔΠ (

ν

PO) βαθμολογία από τις κορυφές ανιχνεύονται από τον αλγόριθμο

Μια

με εκείνα που ανιχνεύθηκαν από τον αλγόριθμο

Β

ως PO

AB (

n

PO

ΑΒ), ενώ PO

DE

AB (

ν

PO

DE

ΑΒ) είναι για τις κορυφές DE.

Στρωματοποιημένη FDR προσέγγισης του ελέγχου

Σε δοκιμές μεγάλης κλίμακας με τις τρέχουσες πολλαπλές προσαρμογές δοκιμές, η δύναμη μπορεί να μειώσει τον αριθμό των δοκιμών αυξάνεται [27], [30], [39]. Για να αυξήσει τη δύναμη, έχει προταθεί μια στρωματοποιημένη προσέγγιση ελέγχου FDR [24]. Ως απόδειξη της αρχής, αναλύσαμε εάν η συνοχή της DE ανίχνευσης κορυφών μπορεί να αυξηθεί με τη βελτίωση της ικανότητας για τον εντοπισμό κορυφές DE σε μεγάλες προφίλ αιχμής χρησιμοποιώντας το στρωματοποιημένης προσέγγισης του ελέγχου του FDR, η οποία βασίζεται στην υπόθεση ότι οι κορυφές με μεγάλη αλλαγή φορές ( FC) οι τιμές μπορεί να είναι πιο πιθανό να είναι αληθινό κορυφές DE [40]. Πρώτον, έχουμε εφαρμόσει τις k-means clustering αλγόριθμο για να στεγανοποιήσει τις κορυφές σε

k

ομάδες, ελαχιστοποιώντας το άθροισμα των τετραγώνων των Ευκλείδεια απόσταση μεταξύ της αξίας FC για κάθε κορυφή και το πλησιέστερο κέντρο του συμπλέγματος της [41]. Η βέλτιστη

k

επιλέχθηκε ως το διαμέρισμα που προκύπτει σε μια μέγιστη μέση αξιών σιλουέτα, η οποία μετρά πόσο παρόμοια μια κορυφή είναι σε άλλες κορυφές στη δική του ομάδα σε σύγκριση με αυτά των άλλων ομάδων [42]. Στη συνέχεια, σε ένα συγκεκριμένο επίπεδο ελέγχου του FDR, επιλέξαμε κορυφές DE σε κάθε ομάδα. Δεδομένου ότι δεν υπάρχει επικάλυψη μεταξύ των ευρημάτων από διάφορες ομάδες, το FDR των ολοκληρωμένων αποτελεσμάτων εξακολουθεί να είναι μικρότερο από το δεδομένο επίπεδο FDR [30].

Αποτελέσματα

Η αναπαραγωγιμότητα της κορυφής

ανίχνευσης

στη συνέχεια, τα αποτελέσματα για κάθε αλγόριθμο βασίστηκαν σε προεπιλεγμένη SNR του, εκτός αν αναφέρεται διαφορετικά. Για το σύνολο δεδομένων του καρκίνου του προστάτη, 31 και 53 κορυφές ανιχνεύθηκαν με SpecAlign και MSW /PRO, αντίστοιχα, και όλοι τους περιελήφθησαν στις 420 κορυφές ανιχνεύονται από Cromwell. Επιπλέον, αξιολογήσαμε την αναπαραγωγιμότητα της ανίχνευσης κορυφών χρησιμοποιώντας τον ίδιο αριθμό κορυφών με τη μείωση της SNR ενός εκ των δύο αλγορίθμων. Ωστόσο, ακόμη και χρησιμοποιώντας τις χαμηλότερες SNRs του 1 και 0,1 επιτρεπόμενα για SpecAlign και MSW /PRO, αντίστοιχα, ανιχνεύθηκαν μόνο 130 και 90 κορυφές. Οι περισσότεροι είχαν συμπεριληφθεί στις κορυφές ανιχνεύονται από Cromwell με PO

SC (

ν

PO

SC) και PO

MC (

ν

PO

MC) βαθμολογίες τόσο υψηλές όσο 1 (1), και 0,93 (0,93), αντίστοιχα (Σχήμα 2Α). Για τη σύγκριση μεταξύ SpecAlign και MSW /PRO, το PO

SM (

ν

PO

SM) σκορ ήταν 0,84 (0,84). Όταν το SNR μειώθηκε στο 1,27, SpecAlign ανιχνεύεται τον ίδιο αριθμό κορυφών (53) ως MSW /PRO, αλλά η βαθμολογία μειώθηκε σε 0,74 (0,73) (Σχήμα 2Α).

(A) για τον καρκίνο του προστάτη και (Β) για τον καρκίνο του μαστού. Αναπαραγωγιμότητα αξιολογήθηκε μεταξύ ενός αλγορίθμου (

x-άξονα

ετικέτα) με διάφορες SNRs και ενός άλλου (τίτλος) με την προεπιλεγμένη SNR. Οι προεπιλεγμένες SNRs για SpecAlign, MSW /PRO και Cromwell ήταν 1,5, 3 και 5, αντίστοιχα. Τα γεμάτα τρίγωνα αντιπροσωπεύουν τον αριθμό των κορυφών (δεξιά

y

-άξονα) ανιχνεύονται από τον αλγόριθμο, ο οποίος φαίνεται από το

x

-άξονα ετικέτα. Όλα PO (

ν

PO) τα αποτελέσματα ήταν σημαντικά υψηλότερο από ό, τι αναμένεται από την τύχη (

σ

& lt? 2.2E-11).

Η

Για το σύνολο δεδομένων του καρκίνου του μαστού , 19 και 47 κορυφές ταυτοποιήθηκαν με SpecAlign και MSW /PRO, αντίστοιχα, και όλοι τους περιελήφθησαν στις 287 κορυφές ανιχνεύονται από Cromwell. Επιπλέον, όπως φαίνεται στο Σχήμα 2Β, ακόμη και μετά τη μείωση της SNR στις χαμηλότερες επιτρεπτές τιμές για SpecAlign και MSW /PRO, μόνο 104 και 52 κορυφές, αντίστοιχα, ανιχνεύθηκαν, και όλοι τους είχαν εντοπιστεί από Cromwell. Η βαθμολογία συνοχή μεταξύ SpecAlign και MSW /PRO δεν ήταν υψηλό, με μια ΟΠ

SM (

ν

PO

SM) βαθμολογία 0,68 (0,68). Αφού το SNR μειώθηκε στο 1,181, SpecAlign ανιχνεύεται τον ίδιο αριθμό κορυφών (47) ως MSW /PRO, και ο ΡΟ

SM (

n

PO

SM) σκορ μειώθηκε σε 0,55 (0,55 ) (Σχήμα 2Β).

Τα παραπάνω αποτελέσματα δείχνουν ότι όταν χρησιμοποιείτε την προεπιλεγμένη SNR για κάθε αλγόριθμο σε αυτά τα δύο σύνολα δεδομένων, SpecAlign και MSW /PRO τείνουν να είναι λιγότερο ευαίσθητα στην ανίχνευση αιχμής από Cromwell. Όλες οι ανιχνεύονται αιχμές τείνουν επίσης να ανιχνευθεί από Cromwell. Cromwell θα μπορούσε ακόμα να συλλάβει το σύνολο σχεδόν των κορυφών ανιχνεύεται από SpecAlign και MSW /PRO, όταν είχαν μειωθεί η SNRs των τελευταίων δύο λιγότερο ευαίσθητες αλγορίθμων.

επαναληψιμότητα των DE ανίχνευσης κορυφής

Στη συνέχεια αξιολογείται η επαναληψιμότητα των DE αναγνώρισης αιχμής στην κορυφή προφίλ που παράγεται από διαφορετικούς αλγορίθμους προ-επεξεργασίας. Για το σύνολο δεδομένων του καρκίνου του προστάτη, επιλέχθηκαν 27 και 24 DE κορυφές από το SpecAlign και MSW /προφίλ PRO, αντίστοιχα, με το 10% του ελέγχου του FDR. Τα περισσότερα από αυτά ήταν επίσης παρόντες στα 229 DE κορυφές που προσδιορίζονται από το προφίλ Κρόμγουελ, και το PO

DE

SC (

ν

PO

DE

SC) και PO

DE

MC (

ν

PO

DE

MC) τα αποτελέσματα ήταν 0,81 (0,62) και 0,96 (0,92), αντίστοιχα. Παρά το γεγονός ότι όλες οι κορυφές στην κατατομή SpecAlign συμπεριλήφθηκαν στο προφίλ Cromwell, περισσότερο από το 10% των επιλεγμένων κορυφών DE δεν περιελήφθησαν στις κορυφές DE βρέθηκαν στο προφίλ Cromwell. Αφού οι SNRs μειώθηκαν για SpecAlign και MSW /PRO, η συνοχή μεταξύ του DE κορυφές από αυτά τα δύο προφίλ κορυφής και εκείνων του προφίλ Cromwell μειώθηκε ελαφρά (Σχήμα 3Α και 3Β). Η συνοχή μεταξύ των 27 και 24 κορυφές DE εντοπίστηκαν στο SpecAlign και την ΑΣΑ /PRO προφίλ ήταν σχετικά χαμηλή, με μια ΟΠ

DE

MS (

ν

PO

DE

MS) βαθμολογία 0,54 (0,31). Ωστόσο, μετά την SNR μειώθηκε για SpecAlign, η βαθμολογία αυξήθηκε σε 0,79 (0,61), όπως περισσότερες κορυφές περιλήφθηκαν στη διευρυμένη προφίλ SpecAlign και ανιχνεύθηκαν ως DE κορυφές (Σχήμα 3C).

(Α), ( Β), (C) για τον καρκίνο του προστάτη και (D) για τον καρκίνο του μαστού. Αναπαραγωγιμότητα αξιολογήθηκε μεταξύ ενός αλγορίθμου (

x-άξονα

ετικέτα) με διάφορες SNRs και ενός άλλου (τίτλος) με την προεπιλεγμένη SNR. Οι προεπιλεγμένες SNRs για SpecAlign, MSW /PRO και Cromwell είναι 1,5, 3 και 5, αντίστοιχα. Οι κορυφές DE επιλέχθηκαν με 10% έλεγχο του FDR. Τα γεμισμένα διαμάντια αντιπροσωπεύουν τον αριθμό των DE κορυφές (δεξιά

y

-άξονα) ανιχνεύθηκε χρησιμοποιώντας τον αλγόριθμο που φαίνεται από το

x

-άξονα ετικέτα. Όλα PO

DE (

ν

PO

DE) τα αποτελέσματα ήταν σημαντικά υψηλότερο από ό, τι αναμένεται από την τύχη (

σ

& lt? 7.0E-3)

Η.

Για το σύνολο δεδομένων του καρκίνου του μαστού, με το 10% του ελέγχου του FDR, επιλέχθηκαν μόνο 2 DE κορυφές από το προφίλ SpecAlign, και είχαν συμπεριληφθεί στις κορυφές 8 DE επιλέγονται από την ΑΣΑ /PRO προφίλ με ένα PO

DE

SM (

ν

PO

DE

SM) βαθμολογία από 1 (1). Αφού το SNR μειώθηκε για SpecAlign, παρατηρήθηκαν παρόμοια αποτελέσματα (Εικόνα 3D). Ωστόσο, υπάρχουν κορυφές DE επιλέχθηκαν από το προφίλ Cromwell.

Δύο σημαντικοί παράγοντες που επηρεάζουν τη συνοχή της DE ταυτοποίησης κορυφής

Η ανάλυσή μας έδειξε δύο σημαντικοί παράγοντες που μπορούν να επηρεάσουν τη συνοχή της DE αναγνώρισης αιχμής χρησιμοποιώντας διαφορετικοί αλγόριθμοι προ-επεξεργασίας. Ο πρώτος παράγοντας είναι ότι ορισμένες κορυφές DE επιλέγεται από ένα προφίλ κορυφής που δεν μπορούν να συμπεριληφθούν σε ένα άλλο προφίλ αιχμής. Για παράδειγμα, για το σύνολο δεδομένων καρκίνο του προστάτη, με ένα 10% ελέγχου πτήσης, 11 από τα 24 DE κορυφές που προσδιορίζονται από το MSW /PRO προφίλ δεν συμπεριελήφθησαν στο προφίλ SpecAlign. Αξίζει να σημειωθεί ότι, μετά το SNR του SpecAlign μειώθηκε σε 1,27, 6 από τις 11 αυτές κορυφές DE περιλήφθηκαν στο προφίλ SpecAlign και επιλέγονται ως DE κορυφές, η οποία οδήγησε σε αυξημένη αναπαραγωγιμότητα (Σχήμα 3C). Προφανώς, αυτός ο παράγοντας επηρεάζει σε μεγάλο βαθμό τη συνοχή της DE αναγνώρισης αιχμής. Ο δεύτερος παράγοντας είναι ότι η στατιστική ισχύς του προσδιορισμού DE αιχμές σε διαφορετικά προφίλ κορυφή ποικίλλει. Έτσι, μερικές κορυφές είναι κοινά σε δύο προφίλ αιχμής θα μπορούσε να ανιχνεύεται ως DE κορυφώνεται σε ένα προφίλ, αλλά όχι σε κάποιο άλλο. Η στατιστική δύναμη μπορεί να επηρεαστεί από πολλές μεταβλητές, όπως αιχμή ποσοτικοποίηση, ο αριθμός των κορυφών για τις δοκιμές, το μέγεθος του δείγματος, το ποσοστό των αληθώς θετικά και το επίπεδο ελέγχου πτήσης [6], [26], [27], [28 ]. Εδώ, αναλύσαμε κυρίως τις επιδράσεις του αριθμού των δοκιμών και του μεγέθους του δείγματος στην εξουσία.

Πρώτον, χρησιμοποιήσαμε ένα παράδειγμα για να τονίσει την επίδραση του αριθμού των δοκιμών. Στο σύνολο δεδομένων καρκίνου του μαστού, σε ένα επίπεδο ελέγχου FDR 10%, δεν κορυφές DE ανιχνεύθηκαν σε όλη την κατατομή Cromwell, το οποίο αποτελούνταν από 287 κορυφές. Ωστόσο, κατά την εξέταση ένα υποπροφίλ του προφίλ Cromwell αποτελείται από όλες τις κορυφές που περιλαμβάνονται στα MSW /PRO προφίλ, 6 DE κορυφές ανιχνεύθηκαν και ήταν όλα περιλαμβάνονται στις κορυφές 8 DE προσδιορίζονται στην MSW /PRO προφίλ. Αξίζει να σημειωθεί ότι, η

t-test

σ

-τιμή αποκοπής για την κήρυξη σημασίας με βάση τη διαδικασία Benjamini-Hochberg FDR [37] ήταν 0.013, αλλά μειώθηκε στο 0,0003 σε ολόκληρο το προφίλ Cromwell, η οποία οδήγησε σε μηδενική ισχύ για την εύρεση κορυφές DE (δηλαδή, δεν κορυφές DE βρέθηκαν). Ομοίως, κατά την εξέταση ενός υποπροφίλ του προφίλ Cromwell που αποτελείται από το σύνολο των κορυφών του προφίλ SpecAlign, 2 DE κορυφές ανιχνεύτηκαν στο επίπεδο ελέγχου FDR 10%, και ήταν ταυτόσημες με τις κορυφές 2 DE προσδιορίζονται από το προφίλ SpecAlign.

Για να φανεί η επίδραση του μεγέθους του δείγματος, έχουμε τυχαία δειγματοληψία υποσύνολα σε διάφορα επίπεδα μεγέθους του δείγματος από το σύνολο δεδομένων του καρκίνου του προστάτη των 249 δειγμάτων. Σε κάθε επίπεδο του δείγματος μέγεθος, μπορούμε τυχαία δειγματοληψία 100 υποσύνολα με τις αναλογίες των φυσιολογικών και καρκινικών δειγμάτων σε κάθε υποσύνολο πραγματοποιήθηκε όμοια με εκείνα της πρώτης σύνολο δεδομένων. Καθώς το μέγεθος του δείγματος αυξήθηκε, ο αριθμός των κορυφών DE επιλέγονται με ένα 10% ελέγχου FDR στο προφίλ κορυφής που παράγεται από κάθε αλγόριθμος προ-επεξεργασίας αυξήθηκε, το οποίο δείχνει ότι η δύναμη για την ανίχνευση κορυφών DE αύξηση (σχήμα 4). Κατά συνέπεια, η συνοχή των κορυφών DE επιλέγονται χρησιμοποιώντας τους διαφορετικούς αλγόριθμους προεπεξεργασία αυξηθεί σε μεγάλο βαθμό.

Η προεπιλεγμένη SNR χρησιμοποιήθηκε για κάθε αλγόριθμο προεπεξεργασία. Σε κάθε μέγεθος του δείγματος, ο μέσος αριθμός των DE κορυφές ανιχνεύονται σε 10% έλεγχο FDR υπολογίσθηκε επί τη βάσει 100 υποσύνολα τυχαία δειγματοληψία. Τα μαύρα τετράγωνα, τρίγωνα και τα διαμάντια συμβολίζουν τον μέσο αριθμό των DE κορυφές (δεξιά

y

-άξονα) ανιχνεύεται χρησιμοποιώντας SpecAlign, MSW /PRO και Cromwell, αντίστοιχα.

Η

Η βελτίωση της αναπαραγωγιμότητας την αύξηση της στατιστικής

ισχύ

Όπως φαίνεται παραπάνω για το σύνολο δεδομένων του καρκίνου του μαστού, η παντελής έλλειψη στατιστικής ισχύος για τον προσδιορισμό DE αιχμές σε ορισμένες μεγάλες προφίλ κορυφή είναι ένας σημαντικός παράγοντας που επηρεάζει τη συνοχή του DE ανίχνευσης κορυφής. Ως απόδειξη της αρχής, αποδείξαμε ότι η ικανότητα να βρει DE αιχμές στο προφίλ Cromwell καρκίνου του μαστού θα μπορούσε να βελτιωθεί με την προσέγγιση στρωματοποιημένη ελέγχου του FDR, η οποία μπορεί να αυξήσει τη συνοχή μεταξύ των καθορισμένων κορυφών DE και εκείνων που επιλέγονται από την SpecAlign και MSW /PRO προφίλ. Χρησιμοποιώντας τις ομαδοποίηση κ-μέσων αλγόριθμο όπως περιγράφεται στο

Methods

, τα 287 κορυφές ανιχνεύθηκαν στο προφίλ Cromwell ομαδοποιήθηκαν σε 2 ομάδες. Μία ομάδα περιείχε 259 κορυφές με χαμηλές τιμές FC, και η άλλη ομάδα περιείχε 28 κορυφές με υψηλές τιμές FC. Με στρωματοποιημένο επίπεδο FDR 10%, συνολικά 16 κορυφές DE εντοπίστηκαν, η οποία περιελάμβανε περισσότερες από τις κορυφές DE ανιχνεύονται στα προφίλ SpecAlign και MSW /PRO χρησιμοποιώντας τις προεπιλεγμένες SNRs με PO

DE

SC (

ν

PO

DE

MC) και PO

DE

MC (

ν

PO

DE

MC) 1 (1) και 0,75 (0,74), αντίστοιχα. Μειώνοντας το SNRs για SpecAlign και MSW /PRO, παρόμοια αποτελέσματα γενικώς λαμβάνονται (Εικόνα 5). Ωστόσο, μετά το SNR μειώθηκε σε 1 για SpecAlign, η PO

DE

SC (

ν

PO

DE

SC) σκορ ήταν μόλις 0,5 (0,47). Αυτό το αποτέλεσμα δείχνει ότι η στρωματοποιημένη προσέγγιση ελέγχου FDR μπορεί να αυξήσει σημαντικά δύναμη ανίχνευσης, αλλά υπάρχει ακόμα περιθώριο για βελτίωση.

Χρησιμοποιώντας Κρόμγουελ στην προεπιλεγμένη SNR, η στρωματοποιημένη προσέγγιση ελέγχου FDR εντοπιστεί 16 DE κορυφώνεται στο 10% επίπεδο. Για SpecAlign και MSW /PRO, η απλή προσέγγιση ελέγχου FDR χρησιμοποιήθηκε για να επιλέξετε κορυφές DE. Όλα PO

DE (

ν

PO

DE) τα αποτελέσματα ήταν σημαντικά υψηλότερο από ό, τι αναμένεται από την τύχη (

σ

& lt? 0.013). Για μια λεπτομερή περιγραφή των στοιχείων δει ο θρύλος στην Εικόνα 3.

Η

Ωστόσο, με το προφίλ Cromwell καρκίνο του προστάτη, οι στρωματοποιημένη και απλές προσεγγίσεις ελέγχου FDR είχε την ίδια δύναμη (δηλαδή, ανίχνευσαν το ίδιο κορυφές DE). Αυτό το αποτέλεσμα μπορεί να είναι, επειδή η δύναμη του απλή προσέγγιση ελέγχου FDR για τον εντοπισμό κορυφές DE ήταν ήδη υψηλά.

Σύγκριση με βιοδείκτες που αναφέρονται στο

μελέτη αρχικού καρκίνου του μαστού

Ένα σύνολο από 5 DE κορυφές ήταν αναφερθεί στην αρχική μελέτη του συνόλου δεδομένων του καρκίνου του μαστού [32]. Εν συντομία, η διαδικασία προ-επεξεργασίας που χρησιμοποιούνται στο αρχικό έγγραφο περιλαμβάνεται το φίλτρο Savitzky-Golay, αφαίρεση της γραμμής βάσεως, εξομάλυνση με το ίδιο συνολικό ρεύμα ιόντων και εξόρυξη κορυφές με SNR δεν είναι λιγότερο από 3,0, και τις κορυφές DE επιλέχθηκαν με ένα

t

-statistic βαθμολογίας & gt? 3.5. Αξιολογήσαμε αν αυτά τα 5 DE κορυφές θα μπορούσαν να αναπαραχθούν με τη χρήση των τριών αλγορίθμων προ-επεξεργασία με τις προεπιλεγμένες SNRs τους. Όταν χρησιμοποιήθηκε ο αλγόριθμος SpecAlign, μόνο 2 από τα 5 κορυφές DE ανιχνεύθηκαν σαν κορυφές και στη συνέχεια να ανιχνεύεται ως DE κορυφές στις έλεγχο FDR 10%. Χρησιμοποιώντας τον /PRO αλγόριθμο ΑΣΑ, οι 5 DE κορυφές ταυτοποιήθηκαν ως κορυφές και στη συνέχεια να ανιχνεύεται ως κορυφές DE. Χρησιμοποιώντας τον αλγόριθμο Cromwell, όλοι οι 5 DE κορυφές ανιχνεύθηκαν ως κορυφές, αλλά κανένας δεν επιλέχθηκε ως αιχμή DE στο επίπεδο FDR 10% από την απλή προσέγγιση ελέγχου FDR. Ωστόσο, όλα τα 5 DE κορυφές που περιλαμβάνονται στις 16 DE κορυφές επιλέγονται χρησιμοποιώντας τον αλγόριθμο Cromwell στο επίπεδο FDR 10% όταν χρησιμοποιείται στρωματοποιημένη έλεγχο του FDR.

Συζήτηση

Η αναπαραγωγιμότητα είναι θεμελιώδους σημασίας για την η επικύρωση των βιολογικών ευρήματα από στοιχεία υψηλής απόδοσης. Σε μελέτες MS, αλγόριθμοι προ-επεξεργασία μπορεί να επηρεάσει σε μεγάλο βαθμό ανακάλυψης βιοδεικτών. Χρησιμοποιώντας βιολογικά δεδομένα για τον καρκίνο, η μελέτη μας έδειξε ότι ο αριθμός των κορυφών που προσδιορίζονται σε ένα σύνολο δεδομένων ποικίλλει ανάλογα με τη μέθοδο προ-επεξεργασίας. Αποκαλύφθηκε επίσης ότι η συνοχή του DE ταυτοποίησης κορυφής επηρεάζεται από δύο σημαντικούς παράγοντες, η απουσία κάποιου DE κορυφών σε ένα άλλο προφίλ κορυφής και της μειωμένης στατιστικής ισχύος DE ταυτοποίησης κορυφής στα προφίλ με ένα μεγάλο αριθμό κορυφών, αλλά ένα μικρό αριθμό δειγμάτων . Τα ευρήματά μας υποδεικνύουν ότι DE κορυφές που επιλέγονται από μικρό προφίλ κορυφή τείνουν να ανιχνευθούν επαναλήψιμα σε μεγάλο προφίλ όταν αρκετή ισχύ για τον εντοπισμό DE κορυφές σε μεγάλο προφίλ επιτυγχάνεται μέσω ισχυρών στατιστικές προσεγγίσεις, όπως η στρωματοποιημένη προσέγγιση ελέγχου FDR. Οι αναλύσεις σε αυτή τη μελέτη θα μπορούσε να επεκταθεί και σε άλλες τεχνολογίες πρωτεομικής MS-βάση. Για παράδειγμα, για την διαδοχική φασματομετρία μάζας (MS /MS), τη χρήση διαφορετικών αλγορίθμων προ-επεξεργασίας για την ανίχνευση κορυφής και διάφορες μηχανές αναζήτησης που ταιριάζουν πρωτεΐνες θα μπορούσαν να παράγουν ποικίλα πρωτεΐνη προφίλ [43]. Έτσι, οι δύο παράγοντες αποκάλυψε στη μελέτη αυτή θα μπορούσε επίσης να επηρεάσει τη συνοχή της ανίχνευσης βιοδεικτών σε μελέτες MS /MS.

Με βάση μια μελέτη προσομοίωσης, Cruz-Marcelo

et al

. [17] πρότειναν ότι ο συνδυασμός της MassSpecWavelet και διαδικασία προσφέρει υψηλή ευαισθησία με χαμηλή FDR για ανίχνευση κορυφών. Ωστόσο, με βάση την ανάλυσή μας για την αναπαραγωγιμότητα της αιχμής και DE ανίχνευσης κορυφής βασίζεται σε δύο πραγματικές σύνολα δεδομένων, η ΑΣΑ /PRO αλγόριθμο (δηλαδή ο συνδυασμός MassSpecWavelet και της διαδικασίας) έτειναν να ανιχνεύει λιγότερες κορυφές από Cromwell, η οποία έδειξε ότι θα μπορούσε να είναι λιγότερο ευαίσθητη για την ανίχνευση αιχμής και να χάσετε κάποια DE κορυφές ανιχνεύσιμες με τη χρήση Cromwell.

You must be logged into post a comment.