PLoS One: SPARCoC: ένα νέο πλαίσιο για Μοριακής Pattern Discovery and Cancer Gene Ταυτοποίηση


Αφηρημένο

Είναι δύσκολο να συγκεντρωθούν ασθενείς με καρκίνο του έναν ορισμένο τύπο ιστοπαθολογικών σε μοριακό υποτύπους της κλινικής σημασίας και να εντοπίσει τις υπογραφές γονιδίων που σχετίζονται άμεσα με τους υποτύπους. Οι τρέχουσες προσεγγίσεις ομαδοποίησης έχουν εγγενείς περιορισμούς, που τους εμποδίζουν να εκτιμηθεί η λεπτή ετερογένεια των μοριακών υποτύπων. Στην εργασία αυτή παρουσιάζουμε ένα νέο πλαίσιο: SPARCoC (Αραιά-CoClust), η οποία βασίζεται σε ένα μυθιστόρημα Κοινή υπόβαθρο και Αραιή-προσκήνιο Διάσπασης (CSD) μοντέλο και η μέγιστη Block Βελτίωσης (MBI) τεχνική συν-ομαδοποίησης. SPARCoC έχει σαφή πλεονεκτήματα σε σύγκριση με το ευρέως χρησιμοποιούμενο εναλλακτικές προσεγγίσεις: ιεραρχική ομαδοποίηση (Hclust) και μη αρνητική παραγοντοποίηση της μήτρας (NMF). Εφαρμόζουμε SPARCoC στη μελέτη του αδενοκαρκινώματος του πνεύμονα (ADCA), ένα εξαιρετικά ετερογενές ιστολογικό τύπο, και μια σημαντική πρόκληση για τη μοριακή υποτύπου. Δοκιμών και επαληθεύσεων, χρησιμοποιούμε υψηλής ποιότητας γονιδιακής έκφρασης προφίλ των δεδομένων των ασθενών του πνεύμονα ADCA, και να προσδιορίσει προγνωστική υπογραφές γονίδιο, το οποίο θα μπορούσε να συγκεντρώνονται οι ασθενείς σε υποομάδες που διαφέρουν σημαντικά στη συνολική επιβίωση τους (με τιμές p ) Οι «ενδιαφέρουσα» γονίδια δεν είναι εύκολο να εντοπιστεί από τη δεδομένη μήτρα Μ με βάση τις τρέχουσες δημοφιλείς μεθόδους ομαδοποίησης, π.χ., NMF ή Hclust. Ωστόσο, θα μπορούσαμε να δούμε ξεκάθαρα την «νέα στοιχεία» (ένα συν-cluster μεγέθους 5 × 5, εμφανίζεται με πράσινο χρώμα της μήτρας Υ) μετά την distractive «φόντο» μήτρα Χ αφαιρείται μέσω της αποσύνθεσης. Οι «ενδιαφέρουσα» γονίδια (σειρές 10-14) εκφράζονται διαφορικά για τα δείγματα /στήλες 10-14 της μήτρας Υ. (Β) Το νέο πλαίσιο ομαδοποίησης. Αυτό το νέο πλαίσιο περιλαμβάνει δύο ενότητες: το κοινό υπόβαθρο και την αποσύνθεση αραιά-προσκήνιο (CSD) και η μέγιστη Block Βελτίωσης (MBI) συν-ομαδοποίησης. Λαμβάνοντας υπόψη ένα πλέγμα Μ, η μονάδα CSD θα αποσυντεθούν Μ και να δημιουργήσουν μια «νέα στοιχεία» μήτρα Υ? Στη συνέχεια, η μονάδα συν-ομαδοποίησης MBI θα εργαστεί στη μήτρα Υ και εξόδου των συν-συστάδες, παρέχοντας τις πληροφορίες των ομάδων των δειγμάτων και ομάδων γονιδίων που σχετίζονται με ορισμένες ομάδες δειγμάτων.

πλαίσιο ομαδοποίησης μας διεξάγει ομαδοποίησης από «αραιά-προσκήνιο» κοινά

,

, ενώ πολλές από τις σημερινές μεθόδους ομαδοποίησης διεξάγει συνήθως ομαδοποίησης με «φόντο» τα κοινά

.

Η

Αξιολογούμε Αυτό το νέο πλαίσιο για τη μελέτη αδενοκαρκίνωμα του πνεύμονα (ADCA), που είναι μια ακραία ετερογενής καρκίνο του πνεύμονα ιστολογικός τύπος (https://www.cancer.gov/cancertopics/) και το οποίο είναι τώρα ένα παράδειγμα για μοριακή υποτύπου. Οι μελέτες του καρκίνου του πνεύμονα από πολλούς ερευνητές έχουν ήδη δείξει το εφικτό της ταξινόμησης του καρκίνου (κατηγορία ανακάλυψη και την πρόβλεψη τάξη) βασίζεται σε προφίλ γονιδιακής έκφρασης των ασθενών με καρκίνο [20-24, 13, 14]. Πολλές μελέτες διεξαγωγή γονιδιακής ομαδοποίησης έκφρασης και την αναζήτηση για υπογραφές γονιδιακής έκφρασης? Ωστόσο, τα δημοσιευμένα προγνωστικά γονίδιο υπογραφές από διαφορετικές μελέτες δεν έχουν (ή, πολύ λίγοι) γονίδια στο κοινό [25]. Αυτή η έλλειψη επικαλύψεις μπορούν να αναφέρουν ότι πολλά γονίδια που εμπλέκονται στην παθολογία καρκίνου του πνεύμονα? εξίσου πιθανόν μπορεί επίσης να είναι συνέπεια απρόβλεπτων παγίδες με ομαδοποίηση βασίζεται σε ένα μικρό αριθμό γονιδίων μετά την κοπή και την προεπεξεργασία.

Έχουμε εφαρμόσει SPARCoC να αναλύσουμε την έκφραση του γονιδίου σε ολόκληρο το γονιδίωμα προφίλ δεδομένων των ασθενών του πνεύμονα ADCA. Αυτά τα σύνολα δεδομένων (συλλογικά με προφίλ για περισσότερες από 600 δείγματα πνεύμονα ADCA ασθενή) είναι υψηλής ποιότητας και συλλέγονται με εκτεταμένες κλινικές πληροφορίες των ασθενών. SPARCoC μπορούσε σύμπλεγμα των πνευμόνων ADCA και το στάδιο Ι του πνεύμονα ασθενείς ADCA με βάση τα προφίλ της γονιδιακής έκφρασης τους σε υποομάδες με σημαντικά διαφορετικά αποτελέσματα κλινικών επιβίωσης, και οι εντοπίστηκαν υπογραφές γονιδίου, όταν επαληθεύεται με χρησιμοποίηση εντελώς ανεξάρτητα σύνολα δεδομένων προφίλ των ασθενών, θα μπορούσε να διαχωρίσει τους ασθενείς σε υποομάδες των διακριτών αποτελέσματα επιβίωσης . Συγκεκριμένα, Kaplan-Meier ανάλυση της συνολικής επιβίωσης των πνευμόνων ADCA και οι ασθενείς ADCA το στάδιο Ι του πνεύμονα με το εντοπίστηκαν 128-γονιδίου υπογραφή κατέδειξε ότι οι ομάδες υψηλού και χαμηλού κινδύνου διαφέρουν σημαντικά στη συνολική επιβίωση τους (με τιμές p Μία από τις σημαντικότερες ανακαλύψεις μέσα από τη μελέτη μας δείχνει ότι αντιπροσωπεύουν τη «νέα στοιχεία» της γονιδιακής έκφρασης των δεδομένων των ασθενών, συνήθως κρύβεται μέσα στο «παρασκήνιο» της έναν ωκεανό των δεδομένων γονιδιακής έκφρασης θορυβώδες. Η προσπάθεια των νέων μας πλαισίου ομαδοποίηση με βάση την αποσύνθεση CSD και ΜΒΙ συν-ομαδοποίησης είναι να καθορίσει ξεχωριστή μοριακή υποομάδες των ασθενών και να βοηθήσει μόνο τα σημαντικά γονίδια των επιπτώσεων αποφάσεων «νέα στοιχεία» από το θόρυβο υποβάθρου τους.

Σημειώστε ότι σχεδόν όλες οι άλλες μέθοδοι τρέχουσα ομαδοποίηση και συν-ομαδοποίησης βασίζονται στην έννοια του προσδιορισμού του κοινά? Έτσι, αυτά είναι παγιδευμένοι από τα σχέδια του φόντου

,

, αντί να εστιάζουν στο «προσκήνιο» πλούσιο σε πληροφορίες του

δεδομένων γονιδιακής έκφρασης (βλέπε Εικ. 1Α).

Η CSD ενότητα αποσύνθεση διευκολύνει την επίδραση των σημαντικών «ενδιαφέρουσα» γονίδια για να ξεχωρίζουν από το «παρασκήνιο», έτσι να βοηθήσει στον εντοπισμό των γονιδίων του καρκίνου και λεπτή λεπτομερή μοριακή υποτύπους, η οποία θα είναι διαφορετικά αδύνατο να ανιχνευθούν (βλέπε 1Α, Πίνακας 1).

Η μονάδα ΜΒΙ συν-ομαδοποίησης, ως μια προσέγγιση σκακιέρας συν-ομαδοποίησης, μπορεί να δημιουργήσει τόσο σειρά ομαδοποίηση και ομαδοποίηση στήλη ταυτόχρονα, και έτσι να βοηθήσει στον εντοπισμό των γονιδίων του καρκίνου (σειρές) τον ορισμό των διαφόρων μοριακών συμπλεγμάτων /υποομάδες ασθενείς (στήλες) (βλ. Σχήμα 2).

Η προσέγγισή μας μπορεί να εφαρμοστεί σε μεγάλη κλίμακα σύνολα δεδομένων γονιδιωματικής των χαρακτηριστικών των ασθενών χωρίς κανένα γονίδιο κόψιμο ή επιλογή χαρακτηριστικό. Αποδεικνύεται ότι είναι πολύ αποτελεσματική και τρέχει σε σύνολα δεδομένων γονιδιακής έκφρασης σε ολόκληρο το γονιδίωμα, καθώς και άλλα σύνολα δεδομένων, όπως η μετάλλαξη, ο αριθμός αντιτύπων, miRNA, μεθυλίωση, αλληλουχίας exome και την αντίστροφη σειρά φράση πρωτεΐνη κλπ Είναι σε θέση να εντοπίζουν δυνητικά νέων μοριακών υποτύπους του καρκίνου και τα γονίδια του καρκίνου ή μοτίβα γονιδίων.

Η

Η

. Για τα σύνολα δεδομένων γονιδιακής έκφρασης που μελετήθηκαν εδώ, ΜΒΙ συν-ομαδοποίησης παρέχει ταυτόχρονα τις γονιδίου (σειρά) ομάδες και το δείγμα (στήλη) ομάδες, τον εντοπισμό των γονιδίων που σχετίζονται με τους διαφορετικούς τύπους ή υποτύπους. (Α) χάρτης θερμότητας εμφανίζει σαφείς συν-clusters που προσδιορίζονται από MBI. Η πλοκή βασίζεται στις πραγματικές τιμές της Y μήτρα της γονιδιακής έκφρασης προφίλ δεδομένων (δεδομένων1 με τρεις τύπους: COID /20, CM /13, NL /17? Ανατρέξτε στην S1 αρχείου). Κάθε γραμμή αντιστοιχεί σε ένα γονίδιο? κάθε στήλη αντιστοιχεί σε ένα δείγμα. Αυτός ο χάρτης θερμότητας εμφανίζει τις τιμές έκφραση 100 γονιδίων σε όλους τους 3 διαφορετικούς τύπους. (Β) χάρτης θερμότητας εμφανίζει σαφείς συν-clusters που προσδιορίζονται από MBI. Η πλοκή βασίζεται στις αξίες της μήτρας Υ για τον Καναδά stage1 σύνολο δεδομένων (θερμότητα χάρτη για τον Καναδά stage1 σύνολο δεδομένων με 562 γονίδια με k

1 = 100 και k

2 = 2. Οι δύο ομάδες που χωρίζονται από ένα παχύ μαύρο κάθετη γραμμή).

η

δείτε τα αποτελέσματα δοκιμών που παρέχονται εδώ και στα δικαιολογητικά πληροφοριών (

δείτε

S1 αρχείου

για πρόσθετα αποτελέσματα δοκιμών

), τα οποία καταδεικνύουν τα σαφή πλεονεκτήματα των νέων μας πλαίσιο ομαδοποίησης. Τα αποτελέσματα των δοκιμών δείχνουν ότι: (1) η προσέγγιση CSD διευκολύνει τον εντοπισμό των δεικτών γονιδίου, καθιστώντας το δυναμικό των δεικτών γονιδίου ξεχωρίζουν από το «φόντο»? (2) Η προσέγγιση ΜΒΙ αποδίδει καλύτερα για Y έναντι επί Μ, όπου Μ είναι η αρχική μήτρα γονιδιακής έκφρασης και το Υ είναι η αραιή μήτρα που δημιουργείται μέσω της αποσύνθεσης CSD? (3) νέο πλαίσιο ομαδοποίησης μας αποδίδει πολύ καλύτερα σε σύγκριση με τα ευρέως χρησιμοποιούμενα προσεγγίσεις ομαδοποίησης, π.χ., Hclust και NMF (βλέπε επίσης σχήμα 3Α και 3Β, Σχήμα 3C και 3D?.. Τις μικρότερες τιμές p από δοκιμασία log rank (Εικ . 3? Πίνακας 2) και τα χαμηλότερα ποσοστά των 3 ετών συνολική επιβίωση των ομάδων υψηλού κινδύνου (

επίσης να δείτε

S1 αρχείου

για πρόσθετα αποτελέσματα δοκιμών

) εμπλέκουν CSD μας + μοντέλο MBI είναι ένα καλύτερο μοντέλο ομαδοποίησης).

(α) και (β). Σύγκριση των οικοπέδων επιβίωσης Kaplan-Meier με βάση τις χωρίς επίβλεψη συστάδες Ιεραρχική ομαδοποίηση (Hclust) και του ΜΒΙ, όταν δίνεται η ίδια μήτρα γονιδιακή έκφραση M (του πνεύμονα ADCA Καναδά σύνολο δεδομένων από Shedden et al. [7]. (Α) Kaplan- οικόπεδο Meier επιβίωσης με βάση Hclust. (β) οικόπεδο επιβίωσης Kaplan-Meier με βάση την MBI ομαδοποίησης (με την άδεια-one-out-διασταυρωμένης επικύρωσης (LOOCV) ~ 99% ακρίβεια). ΜΒΙ δείχνει ένα καλύτερο διαχωρισμό της επιθετικής υποομάδας από το άλλες δύο υποομάδες σε σύγκριση με το Hclust Bryant et al [6] Οι p-τιμές που υπολογίζονται από δοκιμασία log-rank?.. Η LOOCV έγινε χρησιμοποιώντας το PAM [18] (γ) και (δ) σύγκριση των Kaplan-Meier.. οικόπεδα επιβίωσης με βάση την μη επιβλεπόμενη ομαδοποίηση των NMF (γ) και των MBI (δ), όταν δόθηκε η ίδια μήτρα γονιδιακή έκφραση M (του πνεύμονα ADCA Καναδά σύνολο δεδομένων από Shedden et al. [7]). όταν δόθηκε η ίδια δοκιμή γονιδιακής έκφρασης δεδομένων, οι καμπύλες επιβίωσης από MBI ομαδοποίησης δείχνει μια πιο σημαντική χωρισμό από εκείνα NMF ομαδοποίησης. οι τιμές p υπολογίζεται από δοκιμασία log-rank.

η

σε σύγκριση με τις άλλες μέθοδοι ομαδοποίησης, νέο πλαίσιο ομαδοποίησης μας πραγματοποιεί δυναμικά στο σύνολό τους, και καταδεικνύει ουσιαστικά βελτιωμένο αποτέλεσμα ομαδοποίησης σε ορισμένα σύνολα δεδομένων. Πράγματι, η απόδοση ενός αλγορίθμου ομαδοποίησης μπορεί να επηρεαστεί σημαντικά από τα σύνολα δεδομένων: ορισμένα σύνολα δεδομένων με διαφορετικούς τύπους, όπως οι τύποι «μήλο και πορτοκάλι», ενώ κάποια άλλα σύνολα δεδομένων με τύπους που έχουν πολύ λεπτή διαφορά ως διαφορετικοί τύποι «μήλο». Ο σκοπός της παρούσας εργασίας είναι στην πραγματικότητα να προτείνει ένα προσεκτικά σχεδιασμένο νέο αποτελεσματικό πλαίσιο ομαδοποίησης, προκειμένου να αντιμετωπιστούν οι προκλήσεις στον καρκίνο ετερογενή μοριακά υποκατηγοριών (διαφοροποίηση διακριτικά αλλαγμένη «μήλο» είδη). Στη συνέχεια, εφαρμόζουμε νέο πλαίσιο μας για να μελετήσει το πολύ δύσκολο, ακραία αδενοκαρκίνωμα ετερογενή καρκίνο του πνεύμονα (πνευμονική ΑϋΟΑ και το στάδιο Ι ADCA πνεύμονα).

Αποτελέσματα

Σε αυτό το τμήμα έχουμε αναλύσει υψηλής γονιδιακής έκφρασης -Ποιότητα προφίλ δεδομένα συλλογικά ~ 600 δείγματα ασθενών, και η μέθοδος μας παρέχει εύκολα συμπλέγματα των ασθενών πνεύμονα ADCA με διακριτά αποτελέσματα κλινικών επιβίωση και προσδιορίζει τις υπογραφές γονίδιο, το οποίο, όταν επαληθεύεται με χρησιμοποίηση εντελώς ανεξάρτητη συνόλων δεδομένων, είναι σε θέση να διακρίνουν τους ασθενείς πνευμόνων ADCA σε υποομάδες με σημαντικά διαφορετική συνολική επιβίωση (ρ-τιμές & lt? 0,05). Θα μπορούσαμε να αναπαράγουν τα ευρήματά μας χρησιμοποιώντας εντελώς ανεξάρτητα σύνολα δεδομένων. Οι στατιστικές αναλύσεις που να αποδεικνύουν την ορθότητα των αποτελεσμάτων.

Χρησιμοποιούμε SPARCoC να αναλύσουμε τα προφίλ γονιδιακής έκφρασης του αδενοκαρκινώματος του πνεύμονα (ADCA) ασθενείς και να παρουσιάσουν τα αποτελέσματά μας μοριακής υποκατηγοριών και προγνωστική ανακάλυψη του γονιδίου της υπογραφής. Βασισμένο σε ολόκληρο το γονιδίωμα προφίλ γονιδιακής έκφρασης των ασθενών πνεύμονα ADCA, συστάδες SPARCoC οι ασθενείς σε διακριτές υποομάδες? και συνολική επιβίωση των ασθενών είναι σημαντικά διαφορετική μεταξύ των υποομάδων. Βοηθά τον εντοπισμό υπογραφές γονίδιο του καρκίνου, η οποία, όταν επαληθεύονται με δεδομένα προφίλ εντελώς ανεξάρτητη έκφραση των γονιδίων, θα μπορούσε να διαχωρίσει ασθενείς με πνευμονική ADCA και το στάδιο Ι του πνεύμονα ADCA σε υποομάδες με διαφορετικά αποτελέσματα κλινικών επιβίωσης.

Σημειώστε ότι τα αποτελέσματα που παρουσιάζονται εδώ με βάση μόνο το προφίλ της γονιδιακής έκφρασης ανάλυση των δεδομένων, χωρίς να ενσωματώνει οποιαδήποτε άλλη επιλογή χαρακτηριστικών, ή κλινικές πληροφορίες, οι οποίες είναι διαφορετικές από τις άλλες ανάλυση στη βιβλιογραφία (π.χ., [34, 35, 15] ). Ωστόσο, ακόμα μπορούμε να δούμε ότι είμαστε σε θέση να αναπαράγουν τα ευρήματά μας με εντελώς ανεξάρτητα σύνολα δεδομένων

.

Για τον έλεγχο και την εξακρίβωση, που χρησιμοποιούμε στη μελέτη μας τα ακόλουθα σύνολα δεδομένων με τα προφίλ γονιδιακής έκφρασης του κοινού πάνω από 600 δείγματα ασθενών πνεύμονα ADCA? Αυτά τα μεγάλα σύνολα δεδομένων είναι υψηλής ποιότητας και συλλέγονται με εκτενή κλινικά στοιχεία των ασθενών με καρκίνο.

Σύνολα δεδομένων που χρησιμοποιούνται

Ιακώβ σύνολο δεδομένων.

442 δείγματα ADCA, με την έκφραση γονιδίων και κλινικά δεδομένα από το Εθνικό Ίδρυμα Καρκίνου (NCI) διευθυντή Challenge κοινοπραξία [11]. Αυτό το σύνολο δεδομένων αποτελείται από 4 διαφορετικές ομάδες ασθενών, συμπεριλαμβανομένων των Τορόντο /Καναδά (TC, n = 82, με το στάδιο Ι n = 57), Memorial Sloan-Kettering, (MSKCC, n = 104, με το στάδιο Ι n = 62), Η . Lee MOFFIT Cancer Center (HLM, n = 79, με το στάδιο Ι n = 41), και το Πανεπιστήμιο του Michigan Αντικαρκινικού Κέντρου (UM, n = 177, με το στάδιο Ι n = 116). Παρόμοια όπως στο [15], σύνολα δεδομένων TC και MSKCC συνδυάζονται ονομάζεται TM (n = 186), και σύνολα δεδομένων HLM και UM συνδυάζονται μαζί ονομάζεται HM (n = 256).

ACC σύνολο δεδομένων.

117 δείγματα ADCA του Aichi Κέντρο Καρκίνου, που λαμβάνονται από https://www.ncbi.nlm.nih.gov/geo, αριθμός ένταξης GSE13213 [36].

GSE5843 σύνολο δεδομένων.

46 δείγματα ADCA (στάδιο ΙΑ 16 δείγματα? σταδίου ΙΒ 30 δείγματα)., που λαμβάνονται από https://www.ncbi.nlm.nih.gov/geo, αριθμός ένταξης GSE5843 [37]

είναι γνωστό ότι καρκίνος του πνεύμονα είναι η κύρια αιτία θανάτου από καρκίνο σχετίζονται με όλο τον κόσμο (https://seer.cancer.gov/statfacts/). Σχεδόν το 50% των ασθενών με φάσεις Ι και ΙΙ μη μικροκυτταρικό καρκίνο του πνεύμονα (NSCLC), τελικά πεθαίνουν από υποτροπή της νόσου παρά τη χειρουργική εκτομή. Είναι ουσιαστικό να ανακαλύψει τον καρκίνο του πνεύμονα μοριακή υποτύπων με διακριτές κλινικές εκβάσεις έτσι ώστε κάθε μοριακό υπότυπο έχει προτείνει κατευθυντήριες γραμμές θεραπείας που περιλαμβάνουν ειδικές δοκιμασίες, στοχευμένες θεραπείες και κλινικές δοκιμές. Ωστόσο, είναι δύσκολο να μελετήσουμε τις λεπτές ετερογενή διαφορές των μοριακών υποτύπων του αδενοκαρκινώματος του πνεύμονα (ADCA) και ιδιαίτερα εκείνα του σταδίου Ι του πνεύμονα ADCA, χωρίς πρόσβαση σε συστάδες από ισχυρό μη επιβλεπόμενη ομαδοποίηση προσεγγίσεις, όπως το μυθιστόρημα SPARCoC πλαίσιο ομαδοποίησης που αναπτύχθηκε εδώ (ανατρέξτε στην η σύγκριση των επιδόσεων της προσέγγισης ομαδοποίησης μας και NMF ή Hclust στην προηγούμενη ενότητα και S1 αρχείου).

ομαδοποίηση πνεύμονα αδενοκαρκίνωμα (ADCA) ασθενείς

Διακριτές υποομάδες ασθενών TM και HM σύνολα δεδομένων.

Η TM και σύνολα δεδομένων HM χρησιμοποιήθηκαν ως σύνολα δεδομένων εκπαίδευσης για την ανάλυσή μας. Πίνακας S2. Σύκο. Σύκο. Σύκο.

You must be logged into post a comment.