PLoS One: Ένα δίκτυο που βασίζεται Υπογραφή γονιδιακής έκφρασης Ενημερώνει πρόγνωση και θεραπεία για καρκίνο του παχέος εντέρου Patients


Αφηρημένο

Ιστορικό

Αρκετές μελέτες έχουν αναφέρει υπογραφές έκφραση των γονιδίων που προβλέπουν την επανάληψη των κινδύνων στο στάδιο II και ΙΙΙ καρκίνο του παχέος εντέρου (CRC) σε ασθενείς με ελάχιστη επικάλυψη των μελών του γονιδίου και απροσδιόριστη βιολογικό ενδιαφέρον. Ο στόχος αυτής της μελέτης ήταν να ερευνήσει τη βιολογική θέματα που διέπουν αυτές τις υπογραφές, να συναγάγει τα γονίδια των πιθανών μηχανιστική σημασίας για την επανεμφάνιση φαινότυπο CRC και να εξετάσει αν μπορεί να αναπτυχθεί ακριβή προγνωστικά μοντέλα που χρησιμοποιούν μηχανιστικά σημαντικά γονίδια.

Μέθοδοι και Ευρήματα

Ερευνήσαμε οκτώ δημοσιευθεί υπογραφές γονιδιακής έκφρασης CRC και δεν βρήκε κανένα λειτουργική σύγκλιση στην ανάλυση εμπλουτισμό γονιδιακή Οντολογία. Χρησιμοποιώντας ένα τυχαίο περίπατο προσέγγιση, έχουμε ενσωματώσει αυτές τις υπογραφές και δημοσίως διαθέσιμα δεδομένα σωματική μετάλλαξη σε ένα δίκτυο αλληλεπίδρασης πρωτεΐνης-πρωτεΐνης και συνήγαγε 487 γονίδια που ήταν εύλογο υποψήφιο μοριακό υπόβαθρο για το φαινότυπο υποτροπής CRC. Ονομάσαμε τον κατάλογο των 487 γονιδίων μια υπογραφή ΝΕΜ επειδή ολοκληρωμένη πληροφόρηση από το Δίκτυο, Έκφραση, και μετάλλαξης. Η υπογραφή έδειξε σημαντικό εμπλουτισμό σε τέσσερις βιολογικές διαδικασίες σχετίζονται στενά με την παθοφυσιολογία του καρκίνου και με την προϋπόθεση καλή κάλυψη των γνωστών ογκογόνων, καταστολείς όγκων, και CRC συνδέονται μονοπάτια σηματοδότησης. Μια ΝΕΜ signature-based Επιβίωση Support Vector Machine προγνωστικό μοντέλο είχε εκπαιδευτεί χρησιμοποιώντας ένα σύνολο δεδομένων γονιδιακής έκφρασης μικροσυστοιχιών και δοκιμαστεί σε ένα ανεξάρτητο σύνολο δεδομένων. Οι βαθμολογίες μοντέλο που βασίζεται έδειξαν 75,7% συμφωνία με τα πραγματικά δεδομένα επιβίωσης και διαχωρίζονται οι ασθενείς σε δύο ομάδες με σημαντικά διαφορετικές ελεύθερη υποτροπής επιβίωση (

σ

= 0,002). Παρόμοια αποτελέσματα ελήφθησαν με αντεστραμμένη την κατάρτιση και τη δοκιμή σύνολα δεδομένων (

σ

= 0,007). Επιπλέον, επικουρική χημειοθεραπεία ήταν σημαντικά σχετίζονται με παρατεταμένη επιβίωση των ασθενών υψηλού κινδύνου (

σ

= 0.006), αλλά δεν είναι επωφελής για τους ασθενείς χαμηλού κινδύνου (

σ

= 0.491).

Συμπεράσματα

Η υπογραφή ΝΕΜ αντανακλά όχι μόνο CRC βιολογία, αλλά ενημερώνει επίσης την πρόγνωση του ασθενούς και την ανταπόκριση στη θεραπεία. Έτσι, η μέθοδος ενοποίησης δεδομένων που βασίζεται σε δίκτυο παρέχει μια σύγκλιση μεταξύ βιολογική σημασία και κλινική χρησιμότητα στην ανάπτυξη γονίδιο υπογραφή

Παράθεση:. Shi M, Beauchamp RD, Zhang Β (2012) Ένα δίκτυο που βασίζεται Γονιδιακής Έκφρασης Ενημερώνει Υπογραφή πρόγνωση και θεραπεία για καρκίνο του παχέος εντέρου ασθενείς. PLoS ONE 7 (7): e41292. doi: 10.1371 /journal.pone.0041292

Συντάκτης: Valerie W. Hu, The George Washington University, Ηνωμένες Πολιτείες της Αμερικής

Ελήφθη: 3 Μάρ 2012? Αποδεκτές: 19 Ιουνίου του 2012? Δημοσιεύθηκε: 23 Ιούλ 2012

Copyright: © 2012 Shi et al. Αυτό είναι ένα άρθρο ανοικτής πρόσβασης διανέμεται υπό τους όρους της άδειας χρήσης Creative Commons Attribution, το οποίο επιτρέπει απεριόριστη χρήση, τη διανομή και την αναπαραγωγή σε οποιοδήποτε μέσο, ​​με την προϋπόθεση το αρχικό συγγραφέα και την πηγή πιστώνονται

Χρηματοδότηση:. Αυτό το έργο υποστηρίχθηκε από ΝΙΗ (https://www.nih.gov/) χορηγεί GM088822, CA069457, DK052334, και υποστήριξη από την Vanderbilt Ingram Cancer Center Support Grant CA068485 και Καρκίνος GI SPORE Grant CA095103. Οι χρηματοδότες δεν είχε κανένα ρόλο στο σχεδιασμό της μελέτης, τη συλλογή και ανάλυση των δεδομένων, η απόφαση για τη δημοσίευση, ή την προετοιμασία του χειρογράφου

Αντικρουόμενα συμφέροντα:.. Οι συγγραφείς έχουν δηλώσει ότι δεν υπάρχουν ανταγωνιστικά συμφέροντα

Εισαγωγή

Καρκίνος του παχέος εντέρου (CRC) είναι η τρίτη κύρια αιτία της παγκόσμιας θνησιμότητας του καρκίνου [1]. Σύμφωνα με τα στάδια που ορίζονται από την αμερικανική μεικτής επιτροπής για τον Καρκίνο (AJCC), τα ποσοστά επιβίωσης 5 ετών είναι 93,2% για το στάδιο I, 82,5% για τη φάση ΙΙ, το 59,5% για το στάδιο ΙΙΙ, και 8,1% για τους ασθενείς σταδίου IV CRC [2] . Επικουρική χημειοθεραπεία (CTX) για τη φάση ΙΙΙ ασθενείς CRC έδειξε όφελος στην επιβίωση? Ωστόσο, 42-44% των ασθενών που έλαβαν θεραπεία με χειρουργική επέμβαση από μόνη της δεν θα επαναληφθεί σε 5 χρόνια [3]. Από την άλλη πλευρά, αν και μεμονωμένες κλινικές δοκιμές έχουν συχνά απέτυχαν να αποδείξουν τα οφέλη του επικουρικού CTX για τους ασθενείς σταδίου ΙΙ, περίπου το 20% του σταδίου ΙΙ οι ασθενείς θα επαναληφθεί μέσα σε 5 χρόνια. Ως εκ τούτου, είναι σημαντικό να αναπτυχθεί μια ακριβής μέθοδος διαστρωμάτωσης σταδίου ΙΙ και ΙΙΙ CRC ασθενείς με κίνδυνο υποτροπής, έτσι ώστε επικουρική CTX μπορεί να χορηγηθεί σε ασθενείς υψηλού κινδύνου, ενώ οι ασθενείς χαμηλού κινδύνου μπορούν να παραιτηθούν από αυτές τις τοξικές θεραπείες για να αποφευχθούν πιθανές βλάβες, όπως καθώς και την οικονομική επιβάρυνση.

με βάση την άμεση σύγκριση των δεδομένων των μικροσυστοιχιών από άκρως επιθετικές και λιγότερο επιθετικούς όγκους CRC, αρκετές μελέτες έχουν αναφέρει υπογραφές έκφραση των γονιδίων που προβλέπουν την επανάληψη των κινδύνων στο στάδιο II και III ασθενείς CRC [4] , [5], [6], [7], [8], [9], με ελάχιστη επικάλυψη των καταλόγων γονιδίου τους [10]. Η έλλειψη αντιστοιχίας είναι μια κοινή παρατήρηση σε μελέτες υπογραφή γονιδιακή έκφραση [11], εγείροντας ερωτήματα σχετικά με τις κλινικές επιπτώσεις τους [12]. Ωστόσο, έχουν προγνωστική μοντέλα που βασίζονται σε μερικές υπογραφές γονιδιακή έκφραση CRC έχουν επικυρωθεί σε ανεξάρτητες ομάδες ασθενών [6], [7], [8]. Επιπλέον, μια πρώιμη μελέτη για τον καρκίνο του μαστού έδειξε ότι προφανώς διακριτά υπογραφές μπορεί να δείξει μια σημαντική συμφωνία στην πρόβλεψη αποτελέσματος [13]. Έχει προταθεί ότι διαφορετικές υπογραφές μπορούν να μοιράζονται κοινά βιολογικά θέματα που δεν είναι εμφανείς στο επίπεδο μεμονωμένων γονιδίων [12]. Ως εκ τούτου, οδός και οι μέθοδοι με βάση το δίκτυο έχουν αναπτυχθεί σε μια προσπάθεια να αποκαλύψουν βιολογικούς μηχανισμούς θεωρητικές συγκλίνουσες πρόγνωση μεταξύ διακριτών υπογραφές γονιδιακής έκφρασης σε καρκίνο του μαστού και του καρκίνου του προστάτη [14], [15], [16], [17].

η εύρεση κοινών βιολογικών θέματα που διέπουν τις υπογραφές της γονιδιακής έκφρασης μειωθεί νωρίτερα τις ανησυχίες σχετικά με τη βιολογική εγκυρότητα των γονιδίων υπογραφή [18]. Παρ ‘όλα αυτά, το γεγονός παραμένει ότι οι γονίδιο υπογραφές καθορίζεται από τα εποπτευόμενα ανάλυση των δεδομένων επηρεάζεται έντονα από την υποομάδα ασθενών που χρησιμοποιούνται για την επιλογή γονιδίων, και η σύνθεση ενός γονιδίου σε μια τέτοια υπογραφή δεν είναι ενδεικτική της σημασίας αυτού του γονιδίου στην παθολογία του καρκίνου [19 ]. Επειδή διαφορετικοί συνδυασμοί γονιδίων μπορούν να επιλεγούν για την κατασκευή ομοίως ακριβή μοντέλα πρόβλεψης [20], μια ενδιαφέρουσα αλλά αναπάντητο ερώτημα είναι αν περιορίζοντας γονιδιωματική χώρο για να μηχανιστικά σημαντικά γονίδια μπορεί να παράγει ακριβή προγνωστικά μοντέλα. Μια θετική απάντηση στο ερώτημα αυτό θα οδηγήσει σε καλύτερη σύγκλιση μεταξύ βιολογική σημασία και κλινική πρόγνωση, η οποία με τη σειρά της θα παρέχουν πληροφορίες για νέες στοχευμένες θεραπευτικές στρατηγικές.

Σε αυτήν την εργασία, μελετήσαμε τα βιολογικά θέματα υποκείμενα που δημοσιεύθηκε την έκφραση του γονιδίου CRC υπογραφές. Με την ενσωμάτωση υπογραφές έκφραση γονιδίων και δεδομένα σωματική μετάλλαξη σε ένα δίκτυο αλληλεπίδρασης πρωτεΐνης-πρωτεΐνης, δείχνουμε ότι ο φαινότυπος επανάληψη CRC περιλαμβάνει την απορύθμιση των πολλαπλών βιολογικών διεργασιών, και κάθε υπογραφή συλλαμβάνονται μόνο μερικά γονίδια σε αυτές τις διαδικασίες. Με βάση αυτές τις παρατηρήσεις, υποθέσαμε ότι ένα γονίδιο υπογραφή έκφρασης με μηχανιστικά σημαντικά γονίδια προκύπτει από την ανάλυση του δικτύου μπορεί να αντιπροσωπεύει καλύτερα υποκείμενη βιολογία και μπορεί να οδηγήσει σε προγνωστικά μοντέλα με βελτιωμένη απόδοση. Για το σκοπό αυτό, αναπτύξαμε μοντέλα επιβίωσης Support Vector Machine (SSVM) χρησιμοποιώντας δύο ανεξάρτητα σύνολα δεδομένων βασίζεται σε μια τέτοια υπογραφή και cross-δοκιμαστεί τις επιδόσεις τους. Τα αποτελέσματα δείχνουν ότι το μοντέλο μας μπορεί να προβλέψει με ακρίβεια CRC υποτροπή. Επιπλέον, η διαστρωμάτωση των ασθενών με βάση την προβλεπόμενη κίνδυνο υποτροπής παρέχει χρήσιμες πληροφορίες σχετικά με την επικουρική CTX όφελος για τους ασθενείς CRC.

Μέθοδοι

Δημοσιεύθηκε Έκφραση CRC Gene Υπογραφές

Μέσω εγχειρίδιο ανασκόπηση της βιβλιογραφίας στις εργασίες που δημοσιεύθηκαν μεταξύ 2000 και 2010, εντοπίστηκαν από επτά έγγραφα [4], [5], [6], [7], [8], [9], [21] οκτώ υπογραφές γονιδιακής έκφρασης που είναι σε θέση να διαχωρίσουν το στάδιο ασθενείς II και /ή σταδίου III CRC σε υποομάδες χαμηλού κινδύνου και υψηλού κινδύνου. Η υπογραφή στο Jorissen et al. [22] δεν περιλήφθηκε διότι τα σύνολα δεδομένων γονιδιακής έκφρασης που χρησιμοποιείται για την εξαγωγή των εν λόγω υπογραφή χρησιμοποιήθηκαν για την ανάπτυξη του μοντέλου και την αξιολόγηση στην παρούσα μελέτη. Οι οκτώ υπογραφές περιελάμβαναν συνολικά 208 γονίδια.

Τα γονίδια μεταλλαγμένα σε CRC

Χρησιμοποιώντας τη βάση δεδομένων CanProVar [23] (https://bioinfo.vanderbilt.edu/canprovar), θα ανακτηθούν 549 γονίδια με παρατηρούμενη σωματικές μεταλλάξεις σε δείγματα CRC.

είχαν κατεβάσει Ανθρώπινη πρωτεΐνη-πρωτεΐνη αλληλεπίδρασης Δίκτυο

δεδομένα αλληλεπίδρασης πρωτεϊνών και ολοκληρωμένα από BioGRID, μέντα, HPRD, REACTOME, DIP και δυόσμο, το 2010, ως περιγράφηκε προηγουμένως [24]. Το δίκτυο αλληλεπίδραση πρωτεΐνης που περιλαμβάνονται 94.066 αλληλεπιδράσεις μεταξύ 11.521 πρωτεϊνών

ογκογονίδια και τα ογκοκατασταλτικά γονίδια

Γνωστή ογκογονίδια και ογκοκατασταλτικά γονίδια είχαν κατεβάσει από CancerGenes [25] και GLAD4U (http:. //Bioinfo. vanderbilt.edu/glad4u). Για κάθε εργαλείο, θα ανακτηθεί δύο λίστες γονιδίων χρησιμοποιώντας το ερώτημα αφορά ογκογονιδίου και ογκοκατασταλτικών, αντίστοιχα.

Τα σύνολα δεδομένων γονιδιακής έκφρασης

Δύο σύνολα δεδομένων γονιδιακής έκφρασης των πρωτογενών όγκων του παχέως εντέρου (GSE17536 [8] και GSE14333 [22]) είχαν κατεβάσει από το Gene Expression Omnibus (GEO) της βάσης δεδομένων. δείγματα σταδίου Ι και σταδίου IV εξαιρέθηκαν από αυτή τη μελέτη. GSE14333 περιλαμβάνονται μερικά από τα δείγματα από GSE17536, τα οποία αφαιρέθηκαν από GSE14333 σε αυτή τη μελέτη. Κλινικά και παθολογικά πληροφορίες των δύο συνόλων δεδομένων παρουσιάζεται στον Πίνακα 1. Αμφότερα τα σύνολα δεδομένων παρήχθησαν στο Affymetrix U133 συν συστοιχία 2.0. cel αρχεία για τα σύνολα δεδομένων ομαλοποιήθηκαν χρησιμοποιώντας το Στιβαρή MultiChip Ανάλυση (RMA) αλγόριθμο [26], όπως εφαρμόζεται στο Bioconductor. Τα σύνολα δεδομένων υποβλήθηκαν σε επεξεργασία χωριστά για τη διασφάλιση της ανεξαρτησίας τους. σετ καθετήρα αναγνωριστικά (IDs) έχουν χαρτογραφηθεί σε σύμβολα γονίδιο με βάση τη χαρτογράφηση που παρέχονται από τη βάση δεδομένων GEO. σετ καθετήρα που αντιστοιχίζονται σε πολλαπλά γονίδια είχαν εξαλειφθεί. Όταν πολλαπλά σετ καθετήρα χαρτογραφήθηκαν στο ίδιο γονίδιο, ο καθετήρας που με επιλέχθηκε η μεγαλύτερη διατεταρτημοριακό εύρος (IQR) λόγω της υψηλής διακύμανσης της σε δείγματα. Για να κάνετε το επίπεδο έκφρασης συγκρίσιμα μεταξύ των γονιδίων, οι τιμές έκφρασης για κάθε γονίδιο τυποποιήθηκαν χρησιμοποιώντας ένα μετασχηματισμό Z-score. Σε αυτή τη μελέτη, κάθε σύνολο δεδομένων χρησιμοποιήθηκε ως εκπαίδευση-που με τη σειρά τους και να αναπτυχθούν προγνωστικά μοντέλα δοκιμάστηκαν ενάντια στο άλλο σύνολο δεδομένων.

Η

Ιεράρχηση δικτύου που βασίζεται

Εμείς χρησιμοποιείται μια τροποποιημένη έκδοση του προηγουμένως δημοσιευθεί αλγορίθμου NetWalker μας [24] για την ενσωμάτωση υπογραφές έκφραση και δημοσίως διαθέσιμα δεδομένα σωματική μετάλλαξη σε ένα δίκτυο αλληλεπίδρασης πρωτεΐνης-πρωτεΐνης, προκειμένου να προσδιοριστούν τα γονίδια των δυνητικών μηχανιστική σημασίας για την επανάληψη φαινότυπο CRC (Σχήμα 1). Netwalker βασίζεται στην τυχαία βόλτα με την τεχνική επανεκκίνηση [27]. Λαμβάνοντας υπόψη ένα δίκτυο και να αρχίσει τις πιθανότητες για κάθε κόμβο που αντιπροσωπεύει την προηγούμενη ενημέρωση σχετικά με τη σχετική σημασία τους, ο αλγόριθμος υπολογίζει μια τελική βαθμολογία προτεραιότητα για κάθε κόμβο με βάση τις πιθανότητες σταθερής κατάστασης. Τυχαίου περιπάτου με επανεκκίνηση επίσημα ορίζεται ως η ακόλουθη εξίσωση: όπου

r

είναι η πιθανότητα επανεκκίνηση,

W

είναι η στήλη κανονικοποιημένη πίνακας γειτνίασης του γραφήματος δικτύου, και

p

t

είναι ένα διάνυσμα μεγέθους ίσου με τον αριθμό των κόμβων στο γράφημα όπου η

i

οστό στοιχείο κατέχει την πιθανότητα να είναι στον κόμβο

i

σε χρονικό βήμα

t

.

Δημοσίευσης υπογραφές έκφραση γονιδίων και δεδομένα σωματική μετάλλαξη χαρτογραφήθηκαν σε ένα δίκτυο αλληλεπίδρασης πρωτεΐνης-πρωτεΐνης. Μέσα από την ενσωμάτωση πληροφοριών από μετάλλαξη, Έκφραση και Δικτύων, μια υπογραφή ΝΕΜ προέκυψε χρησιμοποιώντας τον αλγόριθμο NetWalker με βάση το τυχαίο περίπατο με την τεχνική επανεκκίνηση. Βιολογική σημασία της υπογραφής αξιολογήθηκε με βάση λειτουργικές πληροφορίες, συμπεριλαμβανομένων Gene Ontology, γνωστά γονίδια του καρκίνου και μονοπατιών σηματοδότησης. Κλινική σημασία της υπογραφής αξιολογήθηκε με την ανάπτυξη ενός μοντέλου επιβίωσης SVM βασίζεται σε ένα σύνολο δεδομένων γονιδιακής έκφρασης και τη δοκιμή σε ένα ανεξάρτητο σύνολο δεδομένων για την ακρίβεια της στην πρόγνωση και την πρόβλεψη της ανταπόκρισης στη θεραπεία.

Η

Αν και προηγούμενες εκδοχείς εφαρμογή μας μια πιθανότητα ίση ξεκίνημα για όλους τους κόμβους σπόρων, αυτή η τροποποιημένη έκδοση επιτρέπει διαφορετικές πιθανότητες ξεκίνημα για τους κόμβους σπόρων. Σε αυτή τη μελέτη, έχουμε δημιουργήσει τις πιθανότητες έναρξης για όλα τα γονίδια με βάση τη συμμετοχή τους στις υπογραφές έκφραση γονιδίων και το μεταλλαγμένο γονίδιο λίστα. Ίσες συνολικό βάρος δόθηκε στα δεδομένα της υπογραφής της γονιδιακής έκφρασης και των δεδομένων μετάλλαξης. Για γονιδιακή δεδομένων υπογραφή της έκφρασης, σχετικά μεγαλύτερο βάρος δόθηκε σε γονίδια που εμπλέκονται σε πολλαπλές υπογραφές. Για τα δεδομένα μετάλλαξη, σχετικά μεγαλύτερο βάρος δόθηκε σε γονίδια με περισσότερες παραλλαγές. Ξεκινήστε την πιθανότητα για γονιδιακή

i

() είναι επισήμως ορίζεται ως η ακόλουθη εξίσωση: όπου

s

i

είναι ο αριθμός των υπογραφών γονιδιακής έκφρασης CRC στα οποία το γονίδιο

i

είναι μέλος,

m

i

είναι ο αριθμός των γνωστών παραλλαγών μεταλλάξεων σε δείγματα CRC στο CanProVar για γονιδιακή

i

, και

ν

είναι ο συνολικός αριθμός γονιδίων στο δίκτυο αλληλεπίδρασης πρωτεΐνης.

για τον αλγόριθμο NetWalker, η πιθανότητα επανεκκίνηση ορίστηκε σε 0,5 και η σύγκλιση προσδιορίστηκε με όπου είναι η πιθανότητα για γονιδιακή

i

κατά τη

t

ου επανάληψη.

για την εκτίμηση της στατιστικής σημαντικότητας των βαθμολογιών για κάθε γονίδιο, κατασκευάσαμε 1000 σύνολα τυχαία Μετατεθειμένο πιθανότητες έναρξης και δημιουργούνται 1000 σύνολα τυχαία αποτελέσματα. Για κάθε γονίδιο στο δίκτυο, ένα τοπικό

σ

αξία υπολογίστηκε συγκρίνοντας την πραγματική βαθμολογία σε τυχαία αποτελέσματα από το ίδιο γονίδιο, και μια παγκόσμια

σ

αξία υπολογίστηκε συγκρίνοντας την πραγματική βαθμολογία σε τυχαία βαθμολογίες από όλα τα γονίδια [24]. Γονίδια με τόσο σε τοπικό όσο και σε παγκόσμιο

σ

τιμές μικρότερες από 0,05 θεωρήθηκαν σημαντικές γονίδια. Ονομάσαμε τον κατάλογο των σημαντικών γονιδίων μια υπογραφή ΝΕΜ επειδή ολοκληρωμένη πληροφόρηση από το Δίκτυο, Έκφραση, και μετάλλαξης.

Για σύγκριση, πραγματοποιήσαμε επίσης ιεράρχηση βασίζεται σε δίκτυο χρησιμοποιώντας πιθανότητες έναρξης ανατεθεί με βάση μόνο τα στοιχεία που την υπογραφή της γονιδιακής έκφρασης ή δεδομένων μετάλλαξης, αντιστοίχως, με αντίστοιχες σημαντικές λίστες γονίδιο που ονομάζεται ως ΝΕ υπογραφή ή NM υπογραφή.

γονιδιακή Οντολογία εμπλουτισμός ανάλυση

γονιδιακή Οντολογία (GO) εμπλουτισμός ανάλυση πραγματοποιήθηκε με τη χρήση WebGestalt [28]. Η προεπιλεγμένη μέθοδος πολλαπλών διόρθωση δοκιμές «Benjamini & amp? Hochberg «χρησιμοποιήθηκε για τον υπολογισμό του FDR. Για να ληφθεί υπόψη για την εξαρτημένη ένθετη δομή GO, WebGestalt παρουσιάζει εμπλουτισμένο κατηγορίες GO σε κατευθυνόμενου ακυκλικού γράφου (DAG) να διευκολύνει την γρήγορη ταυτοποίηση των μεγάλων μη απολυμένους εμπλουτισμένη βιολογική θέματα. Πραγματοποιήσαμε μια χειροκίνητη διερεύνηση του εμπλουτισμένου Δ.Σ.Ε. και ανέφερε τα πιο αντιπροσωπευτικά όρους για κάθε κλάδο.

Ανάπτυξη και Αξιολόγηση των SSVM Μοντέλο

Μια υλοποίηση R του survsvm διαθέσιμες στο πακέτο survpack [29 ], [30] χρησιμοποιήθηκε για την ανάπτυξη του μοντέλου SSVM, και χρησιμοποιήθηκε η συνάρτηση Gaussian πυρήνα. Η εφαρμογή της SSVM έχει δύο παραμέτρους c και σ, όπου c είναι το κόστος του λάθους στην προβλεπόμενη αλληλουχία των γεγονότων και σ είναι η παράμετρος της Gaussian πυρήνα. Σε αυτή τη μελέτη, αφήνουμε κάθε μία από τις παραμέτρους αυτές ποικίλλουν μεταξύ των υποψήφιων σύνολο {10

-5, 10

-4, 10

-3, 10

-2, 10

-1 , 10

0, 10

1, 10

2, 10

3, 10

4, 10

5} για να σχηματίσουν διαφορετικούς συνδυασμούς παραμέτρων. Πέντε φορές επικύρωση σταυρός χρησιμοποιήθηκε και επαναλήφθηκε πέντε φορές για να προσδιορίσει τις βελτιστοποιημένες παραμέτρους ανάλογα με την τιμή C-δείκτης (βλέπε παρακάτω για περιγραφή). Αναπτυχθεί πλήρως SSVM μοντέλο που βασίζεται στις βέλτιστες παραμέτρους στη συνέχεια αξιολογήθηκε στο ανεξάρτητο σύνολο δεδομένων όπου μια SSVM με βάση το σκορ προέκυψε για κάθε ασθενή.

Ανάλυση Επιβίωσης

Η σύνδεση μεταξύ της SSVM με βάση βαθμολογία και πραγματική πρόγνωση των ασθενών αξιολογήθηκε από τις τιμές C-δείκτη, οι καμπύλες επιβίωσης Kaplan-Meier και δοκιμασία log-rank. Το C-δείκτης είναι μια πιθανότητα της αντιστοιχίας μεταξύ της προβλεπόμενης και παρατήρησε την επιβίωση, με C-index = 0,5 για τυχαία προβλέψεις και C-index = 1 για μια τέλεια διακριτική μοντέλο. καμπύλες επιβίωσης πρότυπο Kaplan-Meier δημιουργήθηκαν για ομάδες ασθενών που σχηματίζονται με βάση τις βαθμολογίες SSVM, και η διαφορά επιβίωσης μεταξύ των ομάδων ήταν στατιστικά αξιολογήθηκε χρησιμοποιώντας τη δοκιμασία log-rank.

Αποτελέσματα

Εμπλουτισμός Ανάλυση Απέτυχε να αποκαλύψουν Λειτουργική σύγκλισης των υπογραφών

Ερευνήσαμε 8 υπογραφές γονιδιακής έκφρασης CRC (Πίνακας 2). Επτά από τα 8 υπογραφές αναπτύχθηκαν με βάση την σύγκριση των περιοδικών και μη επαναλαμβανόμενες όγκων, στην οποία ορισμένες μελέτες που περιλαμβάνονται όγκοι όλων των σταδίων, ενώ άλλοι περιλαμβάνονται μόνο οι όγκοι των επιλεγμένων στάδια. Η μελέτη από τους Smith et al. [8] ολοκληρωμένων δεδομένων όγκου ανθρώπου με δεδομένα από μοντέλα κυτταρική σειρά CRC ποντικιού στην ανάπτυξη της υπογραφής. Η μελέτη από Barrier et al. [21] χρησιμοποιούνται μη νεοπλασματικά βλεννογόνο από το στάδιο ασθενείς II αντί των όγκων. Η

t-test

και τις παραλλαγές του χρησιμοποιήθηκαν για την επιλογή της υπογραφής, στις περισσότερες από τις μελέτες, και διαφορετικές τεχνικές μηχανικής μάθησης χρησιμοποιήθηκαν για την κατασκευή των προγνωστικών μοντέλων. Παρά την τεχνική διαφορά σε πειραματικές και υπολογιστικές διαδικασίες, όλα τα προγνωστικά μοντέλα ήταν σε θέση να διαχωρίσει σταδίου ΙΙ ή /και το στάδιο ΙΙΙ τους ασθενείς σε ομάδες χαμηλού κινδύνου και υψηλού κινδύνου. Πολλά μοντέλα έχουν επικυρωθεί σε έναν ασθενή ομάδα ανεξάρτητη από εκείνη που χρησιμοποιείται για την υπογραφή και το μοντέλο ανάπτυξης.

Σύμφωνα με προηγούμενες αναφορές [10], βρήκαμε ελάχιστη επικάλυψη μεταξύ των υπογραφών αυτών γονιδιακής έκφρασης σε ατομικό επίπεδο γονιδίου (Σχήμα 2 ). Για να ελέγξετε αν οι υπογραφές αυτές συγκλίνουν σε κοινές βιολογικές διεργασίες, πραγματοποιήσαμε Gene Ontology (GO) εμπλουτισμός ανάλυση για κάθε υπογραφή χρησιμοποιώντας WebGestalt. Μόνο δύο υπογραφές έδειξαν εμπλουτισμένο βιολογικές διεργασίες σε επίπεδο σημαντικότητας του False Discovery Rate (FDR) μικρότερη από 0,01 (Εικόνα 2). Signature_3 εμπλουτίστηκε σε «μεταγραφική επιμήκυνση» (9 γονιδίων, FDR = 3.21e-12) και Signature_5 εμπλουτίστηκε σε «διαδικασία του ανοσοποιητικού συστήματος» (9 γονιδίων, FDR = 0,001) και «σηματοδότηση κυττάρου-κυττάρου» (6 γονίδια, FDR = 0,0067). Εμπλουτισμός αποτελέσματα από τις υπογραφές 3 και 5 προτείνει ότι διαφορετικές υπογραφές μπορεί να σχετίζεται με διαφορετικές βιολογικούς μηχανισμούς. Επιπλέον, η έλλειψη λειτουργικής αντιστοιχίας για άλλες υπογραφές ανέφεραν ότι διαφορετικά γονίδια σε μια υπογραφή μπορεί να αντιπροσωπεύουν διακριτές βιολογικές θέματα και πιθανώς, του θορύβου. Για να ελέγξετε περαιτέρω κατά πόσον κοινή βιολογική θέματα θα μπορούσαν να εντοπιστούν με το συνδυασμό όλων των υπογραφών, που πραγματοποιήθηκε εμπλουτισμός ανάλυση για όλα τα 208 γονίδια στα 8 υπογραφές. Εμπλουτισμένο βιολογικές διαδικασίες που προσδιορίζονται περιλαμβάνονται «μεταγραφική επιμήκυνση» (10 γονίδια, FDR = 4.0e-4) και «decidualization» (4 γονίδια, FDR = 0,0049). Ο πρώην προφανώς συνέβαλε κατά κύριο λόγο από signature_3. Έτσι, ο εμπλουτισμός ανάλυση απέτυχε να αποκαλύψει λειτουργική σύγκλιση των υπογραφών γονιδιακής έκφρασης CRC. Είναι ενδιαφέρον, αν και προηγούμενες μελέτες ανέφεραν ευρεία συμφωνία μεταξύ των βιολογικών διεργασιών συλληφθεί από διαφορετικά ο καρκίνος του μαστού προγνωστικών υπογραφές, μια πρόσφατη μελέτη [31] συγκρίνοντας δύο μηχανικής μάθησης καρκίνο του μαστού με βάση προγνωστικούς υπογραφές βρεθεί μόνο στατιστικά σημαντική συμφωνία με τον πολλαπλασιασμό των κυττάρων.

Κάθε κύκλος αντιπροσωπεύει μια υπογραφή γονιδιακής έκφρασης με τον αριθμό στις παρενθέσεις δείχνουν το μέγεθος της υπογραφής. Τα υπομνήματα σχολιάσετε εμπλουτισμένο βιολογικές διεργασίες, οι αριθμοί των γονιδίων που εμπλέκονται στις διαδικασίες, και τα αντίστοιχα ποσοστά ψευδών Discovery για τη σημασία του εμπλουτισμού.

Η

Ολοκληρωμένες Ανάλυση δίκτυο που ορίζεται Κοινή μηχανισμοί στους οποίους βασίζεται CRC Επανεμφάνιση

Προηγούμενες μελέτες προτείνουν ότι τα γονίδια είναι γνωστό ότι σχετίζονται με την ίδια ασθένεια φαινότυπο τείνουν να βρίσκονται κοντά ο ένας στον άλλο σε ένα δίκτυο αλληλεπίδρασης πρωτεΐνης-πρωτεΐνης [27], [32]. Επιπλέον, Chen et al. [16] έδειξε ότι τα γονίδια του καρκίνου του υπογραφή είναι πιο πιθανό να είναι κοντά σε γνωστά ογκογονίδια και κατασταλτικά όγκου σε ένα δίκτυο αλληλεπίδρασης πρωτεΐνης-πρωτεΐνης. Ως εκ τούτου, χρησιμοποιήσαμε μια προσέγγιση με βάση το δίκτυο να ενσωματώσει αυτές τις υπογραφές για το δίκτυο αλληλεπίδρασης πρωτεΐνης-πρωτεΐνης, σε μια προσπάθεια να εντοπίσει τα γονίδια των δυνητικών μηχανιστική σημασίας για τον φαινότυπο επανάληψη CRC. Εκτός από την αλλοίωση της έκφρασης γονιδίων, σωματικές μεταλλάξεις εις μηχανιστικά σημαντικά γονίδια μπορεί επίσης να οδηγήσει στο ίδιο φαινότυπο. Ως εκ τούτου, συλλέξαμε περαιτέρω 549 γονίδια με σωματικές μεταλλάξεις στο CRC από τη βάση δεδομένων CanProVar [23] για την ενίσχυση της αναλύσεως δικτύου χρησιμοποιώντας τον αλγόριθμο NetWalker [24]. Και οι δύο λίστες γονίδιο υπογραφή και το μεταλλαγμένο γονίδιο κατάλογο περιλαμβάνονται μηχανιστικά σημαντικά γονίδια (π.χ. μεταλλάξεις οδηγού και τελεστές) και άλλα γονίδια (π.χ. μεταλλάξεις των επιβατών και επιφαινόμενα). Επιπλέον, ορισμένες μηχανιστικά σημαντικών γονιδίων θα μπορούσε να λείπει σε αυτές τις λίστες. Ο αλγόριθμος NetWalker συνάγει γονίδια των πιθανών μηχανιστική σπουδαιότητα βασίζεται στην υπόθεση ότι αυτά τα γονίδια είναι πιθανό να σχηματίσουν σφικτά συνδεδεμένος συστάδες ενώ άλλα τείνουν να είναι τυχαία κατανεμημένα στο δίκτυο. Χρησιμοποιώντας τα γονίδια υπογραφή και τα μεταλλαγμένα γονίδια ως «σπόροι», ο αλγόριθμος υπολόγισε μια βαθμολογία για κάθε γονίδιο στο δίκτυο με βάση τη συνολική εγγύτητά του σε όλα τα γονίδια σπόρους, όπου η γειτνίαση μετριέται από την τυχαία ομοιότητα με τα πόδια [27]. Για να εκτιμηθεί η στατιστική σημασία των βαθμολογιών, κατασκευάσαμε 1000 σειρές γεννητριών τυχαίων και δημιουργούνται 1000 σετ τυχαίων βαθμολογίες. Για κάθε γονίδιο, εκτιμήσαμε ένα τοπικό

σ

αξία με βάση όλα τα τυχαία αποτελέσματα του ίδιου γονιδίου και ένα παγκόσμιο

σ

αξίας βασίζονται σε τυχαία βαθμολογίες για όλα τα γονίδια. Μια σημαντική παγκόσμια

σ

τιμή υποδεικνύει τη συνολική σημασία του γονιδίου σε σχέση με τους σπόρους εισόδου, ενώ ένα σημαντικό τοπικό

σ

αξία εξασφαλίζει ότι η σημασία δεν οφείλεται απλά σε τοπολογία του δικτύου [24 ]. Ένα σύνολο 487 γονιδίων με τόσο σε τοπικό όσο και σε παγκόσμιο

σ

τιμές μικρότερες από 0.05 θεωρήθηκαν ως σημαντικές γονίδια, συμπεριλαμβανομένων 464 από τις αρχικές λίστες και 23 προστίθενται από τον αλγόριθμο (Σχήμα 3Α). Ονομάσαμε τον κατάλογο των 487 γονιδίων η υπογραφή ΝΕΜ επειδή ολοκληρωμένες πληροφορίες από το δίκτυο, Έκφραση, και μετάλλαξης. Ο κατάλογος περιλαμβάνει γνωστά CRC που σχετίζονται με τα γονίδια, συμπεριλαμβανομένων των APC, CTNNB1, KRAS, TP53, BRAF, μεταξύ άλλων. Θα περιλαμβάνονται επίσης γονίδια με άγνωστη, αλλά δυνητική σημασία στο CRC υποτροπή. Ένας πλήρης κατάλογος των γονιδίων υπογραφής ΝΕΜ και

σ

τιμές τους είναι διαθέσιμα στον πίνακα S1. Για να δοκιμαστεί η ευρωστία της μεθόδου σε σχέση με διαφορετικές λίστες υπογραφή της γονιδιακής έκφρασης των εισροών, θα αφαιρείται κάθε υπογραφή της έκφρασης από τους σπόρους, ένα κάθε φορά, και δημιουργούνται 8 ΝΕΜ-7 υπογραφές (ονομάστηκε έτσι επειδή χρησιμοποιούνται μόνο 7 από 8 διαθέσιμο γονίδιο υπογραφές έκφραση). Αυτά τα πειράματα μεταβληθεί το συνολικό αριθμό των γονιδίων υπογραφή έκφρασης εισόδου από 4% (όταν signature_1 απομακρύνθηκε) έως 28% (όταν signature_2 αφαιρέθηκε). Συντελεστής τα ζάρια μεταξύ των ΝΕΜ-7 υπογραφές και την πρωτότυπη υπογραφή ΝΕΜ κυμάνθηκε 0,88 έως 0,96, με μέσο όρο 0,93, γεγονός που υποδηλώνει υψηλή ευρωστία της μεθόδου.

(Α) Επικάλυψη μεταξύ των δημοσιευμένων υπογραφές γονιδιακής έκφρασης ( 208 γονίδια), μεταλλαγμένα γονίδια (549 γονίδια), και η υπογραφή ΝΕΜ (487 γονίδια). (Β) Το ποσοστό των ογκογονιδίων και γονιδίων καταστολής όγκων στις δημοσιευμένες υπογραφές γονιδιακή έκφραση (α), μεταλλαγμένα γονίδια (β), και το ΝΕΜ υπογραφής (c), όπως σχολιάζονται με CancerGenes. (Γ) Το ποσοστό των ογκογονιδίων και ογκοκατασταλτικών γονιδίων στις δημοσιευμένες υπογραφές γονιδιακή έκφραση (α), μεταλλαγμένα γονίδια (β), και το ΝΕΜ υπογραφή (γ), όπως σχολιασμένη από GLAD4U.

Η

GO εμπλουτισμός ανάλυση της υπογραφής ΝΕΜ προσδιορίζονται τέσσερις κύριες βιολογικές διεργασίες με σημαντικό εμπλουτισμό (Πίνακας 3), συμπεριλαμβανομένων των «μεταγωγή σήματος» (186 γονίδια, FDR = 7.07e-11), «κυτταρικό πολλαπλασιασμό» (71 γονίδια, FDR = 3.03e-8 ), «προγραμματισμένος κυτταρικός θάνατος» (75 γονίδια, FDR = 1.83e-9), και «αναπτυξιακή διαδικασία» (158 γονίδια, FDR = 3.98e-9). Παρά το γεγονός ότι αυτές οι διαδικασίες είναι ευρεία και όχι κατ ‘ανάγκη ειδική για τον καρκίνο, αυτό είναι σύμφωνο με τα χαρακτηριστικά του καρκίνου [33]. Εκτός από Signature_1, όλες οι άλλες υπογραφές έκφραση περιλαμβάνεται ένας μικρός αριθμός γονιδίων σε μερικές ή όλες από αυτές τις βιολογικές διεργασίες (Πίνακας 3). Επιπλέον, όλες αυτές οι βιολογικές διεργασίες ήταν σημαντικά εμπλουτισμένη σε όλες τις ΝΕΜ-7 υπογραφές.

Η

Στη συνέχεια, υπολογίσαμε τις αναλογίες των γνωστών ογκογονιδίων και γονιδίων καταστολής του όγκου στην ένωση των δημοσιευμένων υπογραφών γονιδιακής έκφρασης, η σωματικών λίστα γονιδιακή μετάλλαξη, και η υπογραφή ΝΕΜ, με βάση τα σχόλια από δύο διαφορετικές πηγές, CancerGenes και GLAD4U. Επειδή πολλά από τα γνωστά ογκογονίδια και ογκοκατασταλτικά γονίδια είναι ταυτοποιείται με βάση την σωματική μετάλλαξη, δεν ήταν έκπληξη το γεγονός ότι το σωματικό κατάλογος γονιδιακή μετάλλαξη είχαν υψηλότερο ποσοστό αυτών των γονιδίων από τις υπογραφές γονιδιακής έκφρασης. Ωστόσο, ήταν ενδιαφέρον να δούμε ότι η υπογραφή ΝΕΜ είχε το υψηλότερο ποσοστό των γνωστών ογκογονιδίων και γονιδίων καταστολής όγκου (Σχήμα 3, Β-Γ). Για να κατανοήσουμε καλύτερα την συμμετοχή των γονιδίων ΝΕΜ υπογραφή σε ειδική για τον καρκίνο μονοπάτια, τους αντιστοιχίζεται με τον χάρτη πορείας του καρκίνου σε επιμέλεια KEGG. Όπως φαίνεται στο Σχήμα S1, ο κατάλογος γονίδιο χαρτογραφείται σε σχεδόν όλες από τις οδούς σχετίζονται με τον καρκίνο, με σαφή εμπλουτισμό στο μονοπάτι Wnt σηματοδότηση, την οδό ΤΟΡ-β σηματοδότηση, και της οδού σηματοδότησης ErbB, τα πιο σημαντικά μονοπάτια που έχουν απορρυθμισμένη σε CRC [34]. Συνοπτικά, η υπογραφή ΝΕΜ έδειξε σημαντικό εμπλουτισμό σε τέσσερις βιολογικές διαδικασίες σχετίζονται στενά με την παθοφυσιολογία του καρκίνου και με την προϋπόθεση καλή κάλυψη των γνωστών ογκογόνων, καταστολείς όγκων, και CRC συνδέονται μονοπάτια σηματοδότησης, καταδεικνύοντας έτσι ένα υψηλό ενδιαφέρον για CRC βιολογία.

Οι ΝΕΜ υπογραφή βασίζεται σε προγνωστικές μοντέλα αποτελεσματικά Προβλεπόμενη CRC επανεμφάνιση

για να ελέγξετε αν η υπογραφή ΝΕΜ με γονίδια επικεντρώνεται σε λειτουργικά σημαντικά δίκτυα μπορεί να προβλέψει CRC υποτροπή, έχουμε αναπτύξει προγνωστικά μοντέλα που χρησιμοποιούν αυτά τα γονίδια και τα χαρακτηριστικά και αξιολογούνται επιδόσεις του μοντέλα σε ανεξάρτητες ομάδες ασθενών.

Κατ ‘αρχάς, έχουμε εκπαιδευτεί ένα προγνωστικό μοντέλο SSVM χρησιμοποιώντας το σύνολο δεδομένων γονιδιακής έκφρασης GSE17536 και δοκιμάστηκε την απόδοσή του σε ένα ανεξάρτητο σύνολο δεδομένων GSE14333. Μεταξύ των 487 γονιδίων στην υπογραφή ΝΕΜ, μόνο τα 467 γονίδια στο σύνολο δεδομένων χρησιμοποιήθηκαν για να εκπαιδεύσουν το μοντέλο. Πέντε φορές την επικύρωση σταυρός χρησιμοποιήθηκε και επαναλήφθηκε 5 φορές για να βελτιστοποιήσει τις παραμέτρους για τον αλγόριθμο SSVM, και ένα πλήρες μοντέλο που βασίζεται στην πλήρη δέσμη στοιχείων αναπτύχθηκε χρησιμοποιώντας τις βέλτιστες παραμέτρους. Για δοκιμή σε GSE14333, SSVM βαθμολογίες υπολογίστηκαν για μεμονωμένα δείγματα, με υψηλότερη βαθμολογία δείχνει υψηλότερο κίνδυνο και μικρότερο χρόνο επιβίωσης. Οι υπολογιζόμενες βαθμολογίες SSVM και τα πραγματικά δεδομένα επιβίωσης έδειξαν 75,7% συμφωνία (C-index = 0.757). Με βάση τις βαθμολογίες SSVM, οι ασθενείς χωρίστηκαν σε δύο ομάδες, μια «χαμηλού κινδύνου» ομάδα με κάτω-μεσαίο σκορ και μια ομάδα «υψηλού κινδύνου» με άνω-διάμεσο σκορ. Όπως φαίνεται στο Σχήμα 4Α, η ομάδα υψηλού κινδύνου είχαν σημαντικά χειρότερη ελεύθερη υποτροπής επιβίωση (Αναλογία κινδύνου [HR], 7,47? 95% διάστημα εμπιστοσύνης [CI], 1,64 – 34,0? P = 0,002) από ό, τι στην ομάδα χαμηλού κινδύνου. Η υποτροπή επιβίωση χωρίς στα 3 χρόνια ήταν 96,9% για την ομάδα χαμηλού κινδύνου σε σύγκριση με 69,3% για την ομάδα υψηλού κινδύνου.

Οι καμπύλες επιβίωσης Kaplan-Meier για τις υποομάδες ασθενών που προσδιορίζονται στο GSE14333 χρησιμοποιώντας μοντέλα που αναπτύχθηκαν με βάση GSE17536 με διαφορετικά σύνολα γονιδίων. (Α) Η υπογραφή ΝΕΜ με βάση την ανάλυση του δικτύου με τους κόμβους σπόρων συμπεριλαμβανομένων 208 γονίδια σε δημοσιευθεί υπογραφές και 549 μεταλλαγμένα γονίδια, Ν = 487? (Β) Η υπογραφή ΒΑ βασίζεται στην ανάλυση του δικτύου με τους κόμβους σπόρων συμπεριλαμβανομένων 208 γονίδια σε δημοσιευθεί υπογραφές, Ν = 546? (Γ) Τα γονίδια υπογραφή NM με βάση την ανάλυση του δικτύου με τους κόμβους σπόρων συμπεριλαμβανομένων 549 μεταλλαγμένων γονιδίων, N = 435? (Δ) η ένωση των 208 γονιδίων σε δημοσιευμένες υπογραφές και 549 μεταλλαγμένα γονίδια, Ν = 753? (Ε) 208 γονίδια σε δημοσιευμένες υπογραφές, N = 208? (F) 549 μεταλλαγμένα γονίδια από CanProVar, Ν = 549.

Η

Οι καμπύλες επιβίωσης Kaplan-Meier για τις υποομάδες ασθενών που προσδιορίζονται στο GSE17536 χρησιμοποιώντας μοντέλα που αναπτύχθηκαν με βάση GSE14333 με διαφορετικά σύνολα γονιδίων. (Α) Η υπογραφή ΝΕΜ με βάση την ανάλυση του δικτύου με τους κόμβους σπόρων συμπεριλαμβανομένων 208 γονίδια σε δημοσιευθεί υπογραφές και 549 μεταλλαγμένα γονίδια, Ν = 487? (Β) Η υπογραφή ΒΑ βασίζεται στην ανάλυση του δικτύου με τους κόμβους σπόρων συμπεριλαμβανομένων 208 γονίδια σε δημοσιευθεί υπογραφές, Ν = 546? (Γ) Τα γονίδια υπογραφή NM με βάση την ανάλυση του δικτύου με τους κόμβους σπόρων συμπεριλαμβανομένων 549 μεταλλαγμένων γονιδίων, N = 435? (Δ) η ένωση των 208 γονιδίων σε δημοσιευμένες υπογραφές και 549 μεταλλαγμένα γονίδια, Ν = 753? (Ε) 208 γονίδια σε δημοσιευμένες υπογραφές, N = 208? (F) 549 μεταλλαγμένα γονίδια από CanProVar, Ν = 549.

Η

Μια πρόσφατη μελέτη δείχνει ότι οι περισσότερες υπογραφές έκφραση τυχαίο γονίδιο που σχετίζεται σημαντικά με την έκβαση του καρκίνου του μαστού [35]. Ως εκ τούτου, επαναλαμβανόμενες αναλύσεις μας χρησιμοποιώντας 10 σύνολα τυχαία επιλεγμένα 487 γονίδια. Όταν τα μοντέλα εκπαιδεύονται για GSE17536 ελέγχθηκαν για GSE14333, πήραν μια μέση C-δείκτης των 0.546 και διάμεση τιμή Ρ 0,568. Έτσι, τυχαία γονίδιο υπογραφές δεν φαίνεται να εργαστούν σε CRC πρόγνωση.

Μια εκτίμηση είναι ότι 487 γονίδια μπορεί να είναι πάρα πολλά για πρακτική κλινική εφαρμογή. Ως εκ τούτου, προσπαθήσαμε διαφορετικές τιμές αποκοπής στη διαδικασία ιεράρχησης με βάση το δίκτυο να αλλάξει τον αριθμό των επιλεγμένων γονιδίων. Χρησιμοποιώντας διαφορετικά

αποκοπές σ

αξία, συμπεριλαμβανομένων 0.005, 0.01, και 0.1, εντοπίσαμε 45, 105 και 810 γονίδια, αντίστοιχα. Χρησιμοποιώντας τις παραμέτρους που επιλέγονται βάσει των αποτελεσμάτων της διασταυρωμένης επικύρωσης, τρία μοντέλα SSVM αναπτύχθηκαν σε GSE17536 και δοκιμαστεί σε GSE14333 αντίστοιχα. Όπως φαίνεται στο Σχήμα S2, η απόδοση του μοντέλου 810 γονίδιο ήταν συγκρίσιμη με εκείνη του μοντέλου 487 γονίδιο, ενώ τα μοντέλα γονίδιο 105 και 45 έδειξαν μικρή δύναμη πρόβλεψης. Ως εκ τούτου, η περαιτέρω μείωση της γονιδιωματικής χώρο φαίνεται προβληματική, πιθανόν να οφείλεται στην υποκείμενη πολυπλοκότητα της CRC.

(Α) καμπύλες επιβίωσης Kaplan-Meier για τους ασθενείς υψηλού κινδύνου GSE17536 και GSE14333, με (CTX) και χωρίς ( ΟΧΙ CTX) ανοσοενισχυτικό CTX? (Β) Οι καμπύλες επιβίωσης Kaplan-Meier για τους ασθενείς χαμηλού κινδύνου σε GSE17536 και GSE14333, με και χωρίς ανοσοενισχυτικό CTX.

Η

Επειδή το ΝΕΜ υπογραφή ολοκληρωμένων πληροφοριών από μεταλλάξεις, υπογραφές γονιδιακής έκφρασης, και το σε πρωτεΐνες δικτύου πρωτεϊνικών αλληλεπιδράσεων, προσπαθήσαμε να αναλύσουμε ατομική συμβολή τους στην παρατηρούμενη απόδοση. υπογραφές Network προκύπτουν χρησιμοποιώντας την ίδια μέθοδο ιεράρχησης δικτύου, αλλά με βάση είτε οι υπογραφές γονιδιακή έκφραση μόνο του (ΝΕ υπογραφή με 546 γονίδια, Εικόνα 4Β) ή τα μεταλλαγμένα γονίδια μόνο (NM υπογραφή με 435 γονίδια, Σχήμα 4C) δεν οδήγησε σε συγκρίσιμες επιδόσεις, όπως ότι από την υπογραφή ΝΕΜ (Σχήμα 4Α). Συγκεκριμένα, το C-δείκτη για το μοντέλο ΝΕΜ signature-based ήταν 27% υψηλότερο από ότι για το μοντέλο ΝΕ signature-based και 13% υψηλότερη από ότι για το μοντέλο που βασίζεται NM υπογραφή. Από την άλλη πλευρά, τα τρία μοντέλα που προέρχονται από υπογραφές δίκτυο (Σχήμα 4Α-C) απέδωσε καλύτερα από τους συναδέλφους τους χωρίς δίκτυο που βασίζεται προτεραιοτήτων (Εικόνα 4D-F). Για παράδειγμα, η C-δείκτη για το μοντέλο ΝΕΜ signature-based ήταν 28% υψηλότερο από ότι για το μοντέλο με βάση την ένωση όλων των υπογραφών των γονιδίων και μεταλλαγμένα γονίδια.

You must be logged into post a comment.