PLoS One: Ολοκληρωμένες Gene Κατασκευή Δικτύων για να αναλύσει επανεμφάνισης του καρκίνου Χρησιμοποιώντας ημι-επίβλεψη Learning


Αφηρημένο

Ιστορικό

Η πρόγνωση της υποτροπής του καρκίνου είναι ένας σημαντικός τομέας της έρευνας στην βιοπληροφορική και αποτελεί πρόκληση λόγω της τα μικρά μεγέθη των δειγμάτων σε σύγκριση με τον τεράστιο αριθμό των γονιδίων. Υπήρξαν αρκετές προσπάθειες για την πρόβλεψη υποτροπής του καρκίνου. Οι περισσότερες μελέτες που απασχολούνται μια επιβλεπόμενη προσέγγιση, η οποία χρησιμοποιεί μόνο λίγα σημασμένα δείγματα. Ημι-εποπτευόμενης μάθησης μπορεί να είναι μια μεγάλη εναλλακτική λύση για την επίλυση αυτού του προβλήματος. Υπήρξαν μερικές προσπάθειες με βάση την πολλαπλή παραδοχές για να αποκαλύψει τις λεπτομέρειες ρόλους των ταυτοποιημένων γονιδίων του καρκίνου σε υποτροπή.

Αποτελέσματα

Για να προβλέψει επανεμφάνιση του καρκίνου, προτείναμε ένα νέο αλγόριθμο ημι-εποπτευόμενης μάθησης βασίζεται σε μια προσέγγιση γράφημα νομιμοποίησης. Έχουμε μετατραπεί τα δεδομένα γονιδιακής έκφρασης σε μια δομή γράφημα για ημι-εποπτεύονται μάθησης και ολοκληρωμένη δεδομένων πρωτεϊνικών αλληλεπιδράσεων με τα δεδομένα γονιδιακής έκφρασης για να επιλέξετε λειτουργικά σχετίζονται ζεύγη γονιδίων. Στη συνέχεια, είχαμε προβλέψει την υποτροπή του καρκίνου με την εφαρμογή μιας προσέγγισης νομιμοποίηση της κατασκευασμένης γράφημα που περιέχει και χωρίς ετικέτες κόμβων.

Συμπεράσματα

Ο μέσος ρυθμός βελτίωσης της ακρίβειας για τρία διαφορετικά σύνολα δεδομένων καρκίνου ήταν 24,9 % σε σύγκριση με το υπάρχον εποπτευόμενη και ημι-εποπτεύονται μεθόδους. Εμείς λειτουργικό εμπλουτισμό στα δίκτυα γονίδιο που χρησιμοποιούνται για τη μάθηση. Εντοπίσαμε ότι τα εν λόγω δίκτυα γονιδίων που σχετίζονται σημαντικά με τον καρκίνο υποτροπής που σχετίζονται με βιολογικές λειτουργίες. Ο αλγόριθμός μας αναπτύχθηκε με το πρότυπο C ++ και είναι διαθέσιμο σε μορφές Linux και MS Windows στη βιβλιοθήκη STL. Το εκτελέσιμο πρόγραμμα είναι ελεύθερα διαθέσιμο στη διεύθυνση:. https://embio.yonsei.ac.kr/~Park/ssl.php

Παράθεση: Πάρκο C, Ahn J, Kim H, Πάρκο S (2014) Ολοκληρωμένες γονίδιο Κατασκευή Δικτύων για να αναλύσει επανεμφάνισης του καρκίνου Χρησιμοποιώντας ημι-επίβλεψη Μάθηση. PLoS ONE 9 (1): e86309. doi: 10.1371 /journal.pone.0086309

Επιμέλεια: Πέτρος Csermely, Πανεπιστήμιο Semmelweis, Ουγγαρία

Ελήφθη: 3 Ιουλίου, 2013? Αποδεκτές: 9 Δεκεμβρίου του 2013? Δημοσιεύθηκε: 31 Ιαν, 2014

Copyright: © 2014 Πάρκο et al. Αυτό είναι ένα άρθρο ανοικτής πρόσβασης διανέμεται υπό τους όρους της άδειας χρήσης Creative Commons Attribution, το οποίο επιτρέπει απεριόριστη χρήση, τη διανομή και την αναπαραγωγή σε οποιοδήποτε μέσο, ​​με την προϋπόθεση το αρχικό συγγραφέα και την πηγή πιστώνονται

Χρηματοδότηση:. Αυτό το έργο υποστηρίχθηκε από το Εθνικό Ίδρυμα Ερευνών της Κορέας (NRF) επιχορήγηση που χρηματοδοτείται από την κυβέρνηση της Κορέας (MSIP) (NRF-2012R1A2A1A01010775). Οι χρηματοδότες δεν είχε κανένα ρόλο στο σχεδιασμό της μελέτης, τη συλλογή και ανάλυση των δεδομένων, η απόφαση για τη δημοσίευση, ή την προετοιμασία του χειρογράφου

Αντικρουόμενα συμφέροντα:.. Οι συγγραφείς έχουν δηλώσει ότι δεν υπάρχουν ανταγωνιστικά συμφέροντα

Εισαγωγή

Ο εντοπισμός βιοδείκτες του καρκίνου για τη διάγνωση και την πρόγνωση είναι ένα από τα πιο σημαντικά πεδία έρευνας στην βιοπληροφορική. Η χρήση των ακριβών βιοδείκτες του καρκίνου μπορεί να βοηθήσει να καθορίσει την κατάλληλη θεραπεία με βάση την κατάσταση του ασθενούς. Αυτές οι βιοδείκτες μπορούν να παρουσιαστούν ως μια λίστα των γονιδίων ή της δομής του δικτύου γονιδίων. γονιδιακής έκφρασης με βάση μικροσυστοιχιών έχει χρησιμοποιηθεί για τον εντοπισμό αυτών των βιοδεικτών [1], [2], [3]. Επιπλέον, αρκετές πρόσφατες μελέτες έχουν χρησιμοποιήσει όχι μόνο τα δεδομένα γονιδιακής έκφρασης, αλλά επίσης interactome δεδομένα για την ενίσχυση της πρόβλεψης της απόδοσης. Γνωστά γονίδια που σχετίζονται καρκίνος δεν διακρίνονται μόνο από το επίπεδο γονιδιακής έκφρασης. Chuang

et al

. απέδειξε ότι η ενσωμάτωση των δεδομένων interactome και μεταγραφικό ήταν χρήσιμη για την ταυτοποίηση των λειτουργικών συνεκφράστηκε υπο-δίκτυα, και οι αλληλεπιδράσεις των υπο-δίκτυα έδρασε ως ένας δείκτης με υψηλότερη ακρίβεια ταξινόμησης [4]. Taylor

et al

. αναλύονται παγκόσμιας σπονδυλωτής σε δίκτυα αλληλεπίδρασης πρωτεϊνών και αποκάλυψε ότι η intermodular κόμβο, έναν από τους δύο τύπους κόμβων, ήταν πιο συχνά σχετίζονται με ογκογένεση [5]. Ahn

et al

. πρότεινε μια νέα και ακριβή μέθοδο της κατάταξης σύμφωνα με την ενσωμάτωση και των δύο στοιχείων interactome και μεταγραφικό [6]. Μπορούν επίσης κατασκευασμένα δίκτυα γονίδιο ειδική για τον καρκίνο που προέρχεται από τη μέθοδο ταξινόμησή τους και αποκάλυψε ότι σχετίζονται με τον καρκίνο γονιδίων σε ένα δίκτυο να διαδραματίσει σημαντικό ρόλο στον καρκίνο [6].

Αν και η έκφραση των γονιδίων και δεδομένα interactome είναι πολύ χρήσιμα για τον καρκίνο έρευνα, ο σχετικά μικρός αριθμός των δειγμάτων σε σύγκριση με τον αριθμό των γονιδίων οδηγεί σε προκλήσεις στην ανάλυση [7]. Η αξιοπιστία της ανακάλυψης γονιδίων διαφορικά εκφραζόμενων σε δύο διαφορετικές συνθήκες μειώνεται με μικρά μεγέθη δείγματος. Έχουν γίνει προσπάθειες για να ξεπεραστεί αυτός ο περιορισμός των δεδομένων γονιδιακής έκφρασης που βασίζεται σε μικροδιάταξη [8]. Shi

et al

. αναφέρουν ότι η λήψη δεδομένων μικροσυστοιχιών με κλινικές πληροφορίες παρακολούθηση είναι χρονοβόρα, δαπανηρή, και περιορίζεται από τη διαθεσιμότητα του δείγματος [9]. Τα ευρήματα αυτά υποδηλώνουν ότι οι υφιστάμενοι υπό την εποπτεία μάθησης που βασίζεται σε προσεγγίσεις που χρησιμοποιούν μόνο επισημαίνονται τα δεδομένα εξακολουθούν να έχουν περιορισμούς.

Μία προσέγγιση για τη συμπλήρωση των μικρών ποσοτήτων επισημαίνονται τα δεδομένα είναι ημι-υπό την εποπτεία μάθησης, η οποία είναι ένας συνδυασμός των υπερ- vised και χωρίς επίβλεψη μεθόδους. Ημι-εποπτευόμενης μάθησης συνδυάζει επισημαίνονται και μη επισημασμένη δεδομένα για να κατασκευάσει ένα μοντέλο μάθησης με βελτιωμένη ακρίβεια [10]. Σε γενικές γραμμές, ημι-επιβλεπόμενη ταξινόμηση χρησιμοποιείται όταν υπάρχουν περισσότερα μη επισημασμένα δεδομένα από την ένδειξη των δεδομένων. Σε μια τέτοια περίπτωση, θεωρείται ότι η γνώση των μη επισημασμένη δεδομένα θα είναι χρήσιμα στο συμπέρασμα ακριβών κανόνων κατάταξης κατά τη διάρκεια της μαθησιακής διαδικασίας.

Πρόσφατα, ημι-εποπτεύεται μαθησιακές προσεγγίσεις που βασίζονται έχουν εφαρμοστεί ευρέως σε βιολογικές ανάλυση των δεδομένων συμπεριλαμβανομένων των γενετικών αλληλεπιδράσεων. Μπορείτε

et al

. ανέπτυξε ένα γράφημα που βασίζεται σε ημι-εποπτεύονται μάθησης ταξινομητής που μπορεί να προβλέψει κατά ζεύγη συνθετικό γενετικό αλληλεπιδράσεις [11]. Επειδή γενετική προφίλ αλληλεπίδραση μπορεί να δημιουργηθεί μια καλύτερη κατανόηση των δεσμών μεταξύ των γονιδίων και λειτουργικών μονοπατιών, ένας ακριβής αλγόριθμος για την πρόβλεψη γενετικές αλληλεπιδράσεις είναι ιδιαίτερα επιθυμητό παρά την έλλειψη ενός δικτύου λειτουργικό γονίδιο υψηλής ακρίβειας. Ημι-εποπτεύονται προσεγγίσεις μάθησης έχουν εφαρμοστεί επίσης σε μελέτες που σχετίζονται με την πρόγνωση. Nguyen

et al

. πρότεινε ένα ημι-εποπτεύονται μάθησης με βάση τη μέθοδο για την πρόβλεψη γονιδίων που εμπλέκονται στη νόσο συνάγοντας τα δύο γονίδια της νόσου και τους γείτονές τους μέσω δικτύων πρωτεϊνικών αλληλεπιδράσεων [12]. Bair

et al

. προτείνει τη χρήση τόσο διαθέσιμα κλινικά δεδομένα και τα δεδομένα γονιδιακής έκφρασης για τον προσδιορισμό του υποσύνολο των γονιδίων που χρησιμοποιούνται για την εκτέλεση ημι-εποπτεύονται ομαδοποίησης [13]. μέθοδος τους χρησιμοποιήθηκε για να αποκαλύψει τους υποτύπους του καρκίνου και για την πρόβλεψη της επιβίωσης των ασθενών. Joshua Smith

et al

. μεταχειρισμένα προφίλ γονιδιακής έκφρασης για την ταυτοποίηση ενός γονιδίου ταξινομητή συνδέεται με υψηλό κίνδυνο μετάστασης και θανάτου από καρκίνο του παχέος εντέρου [14].

Όπως προαναφέρθηκε, ημι-εποπτεύεται προσεγγίσεις μπορούν να συμπληρώσουν τα όρια της γονιδιακής έκφρασης ανάλυσης δεδομένων, όπως όπως η έλλειψη ενός ανατεθεί κλινική κατηγορία για κάθε ασθενή. Shi

et al

. πρότεινε ένα ημι-εποπτεύονται ταξινομητή που βασίζεται σε χαμηλή διαχωρισμό πυκνότητας που μπορεί να προσδιορίσει υψηλού κινδύνου και οι ασθενείς χαμηλού κινδύνου [9]. Η μελέτη, η οποία χρησιμοποίησε επισημαίνονται και τα δείγματα έκφρασης του γονιδίου μη επισημασμένη, έδειξαν αυξημένη ακρίβεια σε σύγκριση με τις υπάρχουσες προσεγγίσεις που βασίζονται στην εποπτευόμενη μάθηση. Ωστόσο, δεν έχει υπάρξει μια προσπάθεια να εφαρμόσει τόσο ημι-εποπτευόμενης μάθησης και την ενσωμάτωση των δεδομένων interactome και μεταγραφικό να ξεπεράσουν τον μικρό αριθμό των σημασμένα δείγματα και να βελτιωθεί η απόδοση της κατηγοριοποίησης και πρόβλεψης. Η ενοποίηση των ετερογενών δεδομένων μπορεί να βοηθήσει να διακρίνει πιο σημαντικά γονίδια από τα δεδομένα γονιδιακής έκφρασης που χρησιμοποιούνται για την κατασκευή ταξινομητές, όπως αναφέρθηκε παραπάνω.

Σε αυτό το άρθρο, χρησιμοποιήσαμε γράφημα νομιμοποίηση και ενσωμάτωση των δεδομένων μεταγραφικό και interactome για την οικοδόμηση μιας νέα ημι-εποπτεύονται ταξινομητής μάθησης που βασίζεται για τον καρκίνο του ανθρώπου, και κατασκεύασε ένα δίκτυο γονιδίων ειδική για τον καρκίνο. Η νομιμοποίηση γράφημα βασίζεται στην «πολλαπλή υπόθεση,« όπου η κατασκευή των μοντέλων γράφημα είναι μια σημαντική φάση. Στο σχεδιασμό του μοντέλου γράφημα για την ταξινόμηση, κατασκευάσαμε το γράφημα χρησιμοποιώντας επισημασμένο και μη επισημασμένο δείγματα ως κόμβοι. Η σύνδεση μεταξύ δύο δειγμάτων υπολογίστηκε χρησιμοποιώντας το επιλεγμένο ζεύγη κατατοπιστική γονίδιο. Κατά την επιλογή των χρήσιμων ζεύγη γονίδιο, θα ενσωματωθεί αλληλεπίδρασης πρωτεΐνης-πρωτεΐνης (ΡΡΙ) δεδομένων με δεδομένα γονιδιακής έκφρασης. δεδομένων ΠΠΑ παρέχονται πληροφορίες σχετικά με τη λειτουργική σχέση μεταξύ των πρωτεϊνών και εφαρμόστηκε σε γονίδια που συνδέονται με PPIs. Μετά την επιλογή ζεύγη γονιδίων, θα εφαρμοστεί ένα σύστημα βαθμολόγησης που προτείνονται στο προηγούμενο έγγραφο [6]. Εστιάσαμε στο στήθος, του παχέος εντέρου, και καρκίνους του προστάτη για την πρόβλεψη υποτροπής του καρκίνου. στοιχεία έκφρασης mRNA τρεις ασθενείς με καρκίνο »περιλαμβάνονται τόσο μη επισημασμένη και η επισήμανση των δειγμάτων.

Έχουμε αποδείξει ότι (i) η προτεινόμενη ημι-εποπτευόμενης μάθησης με βάση την κατάταξη βελτιωμένες επιδόσεις πρόβλεψη σε σχέση με τις υπάρχουσες μεθόδους, συμπεριλαμβανομένων των TSVM, το οποίο είναι ένα ημι- εποπτεύεται εκμάθηση εκδοχή του SVM, (ii) η προτεινόμενη μέθοδος έχει εφαρμογή σε διαφορετικές μορφές καρκίνου, (iii) η προτεινόμενη μέθοδος ήταν εύρωστη ανεξάρτητα από το λόγο σήματος τάξη και (iv) την ειδική για τον καρκίνο του δικτύου γονίδιο που προέρχεται από το ταξινομητή ήταν βιολογικά σημαντική, και τα καρκινικά-ειδικά γονίδια αυτού του δικτύου έπαιξε ρόλο ως μέλη των πολύπλοκων βιολογικών διεργασιών.

Μέθοδοι

Για να οικοδομήσουμε μια ημι-εποπτεύονται μάθησης ταξινομητή, η πρώτη μας ολοκληρωμένη δεδομένων γονιδιακής έκφρασης με PPI και προσδιορίζονται κατατοπιστική ζεύγη γονιδίων με τα επισημασμένα δείγματα. Δεύτερον, κατασκευάσαμε ένα μοντέλο γράφημα βάσει δείγματος με τη χρήση επιλεγμένων ενημερωτικών γονίδια, προκειμένου να χτίσει ένα ταξινομητή.

Δεδομένα Περιγραφή

Έχουμε κατεβάσει τα σύνολα δεδομένων γονιδιακής έκφρασης των τριών καρκίνων από τον Gene Expression Omnibus (GEO ) της βάσης δεδομένων. Ο Πίνακας 1 συνοψίζει τις λεπτομερείς προδιαγραφές των συνόλων δεδομένων. Η έκφραση του γονιδίου σύνολο δεδομένων GSE2990 αποτελούνταν από 125 επεμβατική δείγματα καρκίνου του μαστού ταξινομούνται σε δύο ομάδες, υψηλό και χαμηλό κίνδυνο υποτροπής? 64 δείγματα δεν είχε μια ετικέτα κατηγορίας. Το σύνολο των δεδομένων γονιδιακής έκφρασης GSE17536 αποτελούνταν από 177 ασθενείς με καρκίνο του παχέος εντέρου. Τα δείγματα ταξινομήθηκαν σε τρεις ομάδες:. ‘Υποτροπή,’ ‘δεν θα επαναληφθούν, »και« μη επισημασμένη »βασίζεται στην παρατήρηση της υποτροπής μέσα σε πέντε χρόνια παρακολούθησης, οι ετικέτες είχαν ανατεθεί σε δείγματα. Οι μη επισημασμένη δείγματα δεν είχαν κλινικά δεδομένα παρακολούθησης. Η έκφραση του γονιδίου σύνολο δεδομένων GSE17538 αποτελούνταν από 213 δείγματα καρκίνου του παχέος εντέρου, η οποία ήταν επίσης ταξινομούνται σε τρεις ομάδες που αναφέρονται παραπάνω. Μια πιο λεπτομερής περιγραφή των συνόλων δεδομένων σύμφωνα με την πειραματική πλατφόρμα παρουσιάζεται στον Πίνακα S2 σε S1 αρχείου.

Η

Εμείς επίσης αγόρασαν 194.988 ανθρώπινη PPIs από τη βάση δεδομένων Ι2Δ, η οποία περιελάμβανε γνωστό, πειραματικά, και προέβλεψε PPIs . Επειδή οι πρωτεΐνες σε αυτά τα PPIs χαρτογραφήθηκαν σε σύμβολα γονιδίου που χρησιμοποιούν το Universal Resource Πρωτεΐνη (UniProt), πήραμε 108.544 PPIs μετά την αφαίρεση διπλές PPIs και PPIs που περιείχαν πρωτεΐνες που δεν αντιστοιχίζονται σε ένα σύμβολο γονίδιο.

Επισκόπηση συστήματος

Αυτή η ενότητα περιγράφει μια νέα ημι-εποπτεύονται αλγόριθμο μάθησης γράφημα που βασίζεται για την πρόγνωση του καρκίνου. Το γράφημα αποτελείται από κόμβους και τις ακμές που αντιστοιχούν σε δείγματα και οι αλληλεπιδράσεις μεταξύ δύο δειγμάτων, αντίστοιχα. Το γράφημα είναι κατασκευασμένο με και χωρίς ετικέτες δείγματα των δεδομένων γονιδιακής έκφρασης, και οι μη επισημασμένα δείγματα στη συνέχεια επισημαίνονται με βάση την γεωμετρία της δομής γραφήματος. Ως εκ τούτου, είναι πολύ σημαντικό να δημιουργήσετε ένα γράφημα δείγμα που βασίζεται από τη δεδομένη σύνολο δεδομένων. Προτείνουμε μια νέα μέθοδο κατασκευής γράφημα που ειδικεύεται για ένα σύνολο δεδομένων μικροσυστοιχιών. Με βάση αυτή τη μέθοδο κατασκευής γράφημα, έχουμε αναπτύξει μια ημι-εποπτεύονται αλγόριθμο μάθησης που χρησιμοποιεί γράφημα νομιμοποίησης.

Στην προσέγγιση αυτή, το ίδιο το γράφημα είναι ένα ταξινομητή. Έτσι, οι παράμετροι για την κατασκευή του γραφήματος σημαίνει ότι είναι οι βασικοί παράγοντες του ταξινομητή. Τα αποτελέσματα της ταξινόμησης εξαρτώνται από τις παραμέτρους. Ημι-εποπτευόμενης μάθησης χρησιμοποιεί γενικά τη λειτουργία ή την υποκείμενη πληροφορίες μη επισημασμένων στοιχείων. Η προσέγγιση αυτή υποθέτει ότι μη επισημασμένη δεδομένων είναι σε θέση να ενισχύσει την απόδοση ταξινόμησης. Σύμφωνα με αυτό το χαρακτηριστικό της ημι-εποπτεύονται μάθησης, μπορούμε να επωφεληθούν από μη επισημασμένη στοιχεία για την οικοδόμηση ενός ταξινομητή.

Η προτεινόμενη μέθοδος έχει δύο φάσεις. Η πρώτη φάση είναι να καθοριστούν οι βέλτιστες παράμετροι υποψήφιος για γράφημα νομιμοποίησης μεταβολή των ορίων των παραμέτρων στο

k

φορές σε σταυρό επικύρωσης. Μετά από αυτή τη φάση, κατασκευάζουμε το γράφημα με και χωρίς ετικέτες δείγματα. Στη συνέχεια, έχουμε προσδιορίσει κατά πόσον τα αποτελέσματα της κατάταξης από το γράφημα νομιμοποίησης αλλάξει ή να συγκλίνει. Αν έχουν αλλάξει, θεωρούμε τις διαβαθμισμένες μη επισημασμένη δεδομένων, όπως πρόσφατα επισημαίνονται τα δεδομένα και να τα χρησιμοποιούν για να καθορίσουν τις βέλτιστες υποψήφιος παραμέτρους. Σε αυτή την επαναληπτική διαδικασία, παρέχεται η πληροφόρηση των μη επισημασμένων δειγμάτων. Η προηγούμενη μέθοδος ημι-εποπτευόμενης μάθησης που προτείνεται στο [9] χρησιμοποιείται επίσης μη επισημασμένη δείγματα για την κατασκευή ενός ταξινομητή που βασίζεται σε χαμηλό διαχωρισμό πυκνότητας (LDS). Το σχήμα 1 δείχνει το σύνολο της ροής εργασίας συμπεριλαμβανομένης της μονάδας μάθησης ημι-εποπτεύεται για τον καθορισμό των βέλτιστων παραμέτρων της μεθόδου μας.

Κατ ‘αρχάς, θα κατασκευάσουμε ένα γράφημα για νομιμοποίηση μόνο με την ένδειξη δείγματα μεταβάλλοντας δύο παραμέτρους. Σε αυτή τη φάση, χρησιμοποιούμε

k

φορές σε σταυρό επικύρωσης για να προσδιοριστεί η βέλτιστη σετ παραμέτρων. Μπορούμε στη συνέχεια να εφαρμόσει ημι-εποπτεύονται μάθηση με το ληφθέν βέλτιστο σύνολο παραμέτρων και να προβλέψει τις ετικέτες των άγνωστων δειγμάτων. Η προτεινόμενη μέθοδος χρησιμοποιεί μη σημασμένο πληροφορίες δείγματος για την κατασκευή ενός ταξινομητή με την επανάληψη της διαδικασίας.

Η

Οι λεπτομέρειες της μονάδας μάθησης ημι-εποπτεύονται σε αυτή τη ροή εργασιών που περιγράφονται στις ακόλουθες ενότητες. Η ενότητα αυτή αποτελείται από τα ακόλουθα τρία βασικά στάδια: (1) την αναγνώριση των ζευγαριών πληροφοριακό γονίδιο, (2) την κατασκευή γραφημάτων δείγματος με επιλεγμένα γονίδια, και (3) νομιμοποίηση του γραφήματος και την πρόβλεψη των ετικετών των μη επισημασμένων δειγμάτων. Η ροή εργασίας της μονάδας ημι-εποπτεύονται μάθησης φαίνεται στο Σχήμα 2.

Εφαρμόζουμε μια προσέγγιση νομιμοποίησης γράφημα για ημι-εποπτεύεται μάθησης, και ο σκοπός της προτεινόμενης μεθόδου είναι να προβλέψουμε τις ετικέτες των μη επισημασμένων δειγμάτων.

Αναγνώριση Ενημερωτική Gene Ζεύγη

υπάρχουν δεκάδες χιλιάδες γονιδίων σε σύνολα δεδομένων μικροσυστοιχιών, και μόνο μερικά από αυτά είναι ειδικά για τον χαρακτηρισμό του δείγματος. Ενημερωτική ζεύγη γονιδίων δείχνουν αλληλεπιδράσεις που έχουν διακριτικά στις δύο αντίθετες τάξεις των επισημασμένων δειγμάτων. Εμείς εγκρίνονται και τροποποιούνται προηγουμένως προτεινόμενο σύστημα μας για τον εντοπισμό των αλληλεπιδράσεων στο σύνολο δεδομένων γονιδιακής έκφρασης [6]. Στην εν λόγω μελέτη, αποδείξαμε ότι η ένταση κάποιων αλληλεπιδράσεων μπορεί να είναι διαφορετική μεταξύ φυσιολογικών κυττάρων και κυττάρων όγκου. Μπορούμε διευκρινιστεί επίσης ότι μεταβολές στο επίπεδο αλληλεπίδραση θα μπορούσε να είναι η αιτία ή το αποτέλεσμα της ογκογένεσης, και ότι η τροποποίηση των συμπλοκών πρωτεΐνης θα μπορούσε να επηρεάσει διάφορες αλληλεπιδράσεις, ως αποτέλεσμα της ογκογένεσης.

Η μέτρηση των μεταβολών των αλληλεπιδράσεων μπορεί να θεωρηθεί ως αναγνώριση του βαθμού εξάρτησης μεταξύ δύο γονιδίων. Μια μεγάλη τιμή συσχέτισης μεταξύ δύο γονιδίων ως ένα βαθμό αλλαγής δείχνει ότι υπάρχει ισχυρή εξάρτηση μεταξύ των δύο γονιδίων. Με βάση αυτό το σκεπτικό, προτείνουμε ένα σύστημα βαθμολόγησης για να υπολογιστεί η αντοχή της σύνδεσης μεταξύ δύο γονίδια που συνδέονται με PPIs. Χρησιμοποιώντας αυτό το μέτρο, μπορούμε να διευκολύνουμε την επιλογή των ενημερωτικών αλληλεπιδράσεις από σύνολα δεδομένων γονιδιακής έκφρασης, δεδομένου ότι το συγκεκριμένο δίκτυο καρκίνο κατασκευάστηκε με βάση μια παρόμοια λειτουργία βαθμολόγησης. Με άλλα λόγια, μπορούμε να επιλέξουμε τις αλληλεπιδράσεις που ορίζονται για την επανεμφάνιση του όγκου χρησιμοποιώντας το προτεινόμενο σύστημα βαθμολόγησης. Η βαθμολογία των δύο γονιδίων υπολογίζεται από την ακόλουθη εξίσωση: όπου

g

iC

1 και

g

iC

2 είναι φορείς της έκφρασης του mRNA αξία των γονιδίων

i

σε δείγματα της κατηγορίας 1 και της κατηγορίας 2, αντίστοιχα, και

g

jC

1 και

g

jC

2 είναι φορείς της αξίας έκφραση του mRNA του γονιδίου

ι

σε δείγματα της κατηγορίας 1 και της κατηγορίας 2. Μόνο τα ζεύγη γονιδίων με αξία βαθμολόγησης μεγαλύτερη από

όριο

g

θεωρούνται ως σημαντικά διαφορετική μεταξύ των δύο κατηγοριών. Αυτό το σύστημα βαθμολόγησης γίνεται μόνο με τα επισημασμένα δείγματα στο σύνολο δεδομένων γονιδιακής έκφρασης. Ένα απλό παράδειγμα υπολογισμού των τιμών Score φαίνεται στο Σχήμα S1 στο S1 αρχείου.

Κατασκευή του δείγματος με βάση Γράφημα

Κατασκευάσαμε ένα γράφημα δείγμα με βάση νομιμοποίησης. Το βάρος ενός ζεύγους δείγματος υπολογίζεται από το συντελεστή συσχέτισης Pearson (PCC) μεταξύ δύο διανυσμάτων δείγμα που αποτελείται από τα γονίδια ως στοιχεία, όπου τα γονίδια που λαμβάνονται από ενημερωτικό ζεύγη γονίδιο. Τόσο ετικέτες, και μη επισημασμένα δείγματα που χρησιμοποιούνται στο γράφημα. Η λειτουργία του βάρους έχει ως εξής: όπου

S

*

i

και

S

*

ι

είναι φορείς της αξίας έκφρασης του mRNA του δείγματος

i

και δείγμα

j

, αντίστοιχα, από τα επιλεγμένα ζεύγη γονιδίων με τιμές μεγαλύτερες από

κατώφλι

s

. Υποθέτουμε ότι υπάρχει μια σημαντική σχέση μεταξύ δύο δειγμάτων όταν είναι ιδιαίτερα σχετίζεται με κάθε άλλο με μια θετική ή αρνητική μοτίβο. Μπορούμε να μετατρέψει το σύνολο δεδομένων γονιδιακής έκφρασης σε μια δομή γράφημα που μπορεί να τακτοποιηθεί. Ένα απλό παράδειγμα υπολογισμού της αξίας Βάρος φαίνεται στο Σχήμα S1 στο S1 αρχείου.

τακτοποίηση των Γράφημα

Με βάση το δείγμα που βασίζεται σε δομή γράφημα που προέρχεται από τη μέθοδο που αναφέρθηκε παραπάνω, οι ετικέτες καταχωρούνται στα μη επισημασμένο κόμβους. Για να επιτευχθεί αυτό, χρησιμοποιούμε μια βασική προσέγγιση νομιμοποίηση. Για την τακτοποίηση του γραφήματος, εκτιμούμε ένα πλαίσιο νομιμοποίησης βάση τις πολλαπλές υποθέσεις. Η συνάρτηση κόστους για νομιμοποίηση, έχει ως εξής: όπου

y

και

Y

δείχνουν αντίστοιχα τις αρχικές ετικέτες και τις εκτιμώμενες ετικέτες για με και χωρίς ετικέτες δεδομένων.

W

ij

δείχνει το βάρος μεταξύ του κόμβου

i

και τον κόμβο

ι

. Ο συνολικός αριθμός των και χωρίς ετικέτες κόμβων είναι

n

, και ο αριθμός των κόμβων είναι επισημασμένο

l

. Στο πρόβλημά μας,

y

δείχνει να επισημαίνονται και να μη επισημασμένη δείγματα του συνόλου δεδομένων καρκίνου, και

W

ij

επιτυγχάνεται με τη χρήση της συνάρτησης βάρους ορίζεται στο παραπάνω κεφάλαιο. Χρησιμοποιώντας τη συνάρτηση κόστους, μετράμε τη συνέπεια με την αρχική επισήμανση με τη χρήση του πρώτου όρου, και μπορούμε να εκχωρήσετε μια ποινή για την τακτοποίηση χρησιμοποιώντας τη δεύτερη θητεία. Χρησιμοποιώντας τη δεύτερη θητεία, έχουμε υπολογίσει το σταθμισμένο διαφορά μεταξύ δύο κόμβων, χωρίς να εξετάζεται κατά πόσον ή όχι επισήμανση. Ο κύριος σκοπός αυτής της συνάρτησης κόστους είναι να ελαχιστοποιήσουμε το σταθμισμένο διαφορά μεταξύ όλων των κόμβων. Αυτή η διαδικασία αναφέρεται σε νομιμοποίησης και είναι ισοδύναμη με τον αλγόριθμο διάδοσης ετικέτα. Στην περίπτωσή μας, είναι περιττό να εκχωρήσετε εκ νέου ετικέτες στα επισημασμένα δεδομένα, επειδή έχουν ήδη κλινικά επαληθευτεί. Ως εκ τούτου, κατά την πρώτη θητεία της συνάρτησης κόστους,

Y

i

περιορίζεται να είναι ίσο με το

y

i

. Ως αποτέλεσμα, η συνάρτηση κόστους μπορεί να μετατραπεί σε ακόλουθη συνάρτηση με ένα γράφημα Laplacian.

όπου

L

είναι το un-κανονικοποιημένη γράφημα Laplacian και

D

είναι ένα διαγώνιος πίνακας της μήτρας βάρους

W

. Αυτή η λειτουργία τιμωρεί αλλαγές ταχεία ετικέτα

Y

μεταξύ δύο κοντά σημεία δεδομένων, σύμφωνα με τη δεδομένη μήτρα βάρους. Διάφορες προσεγγίσεις έχουν προταθεί για να ελαχιστοποιηθεί αυτή η λειτουργία πάνω από

Y

u

, όπου

Y

u

δείχνει την εκτιμώμενη ετικέτα για μη επισημασμένη δεδομένων και

Y

l

δείχνει τα επισημασμένα δεδομένα. Ελαχιστοποιώντας τη λειτουργία σε σχέση με το

Y

u

το μετατρέπει στην ακόλουθη λειτουργία.

Έχουμε προβλέψει τις ετικέτες για τα μη επισημασμένα δεδομένα χρησιμοποιώντας αυτόν τον υπολογισμό. Από τη στιγμή που δεν επικεντρώνονται στην ανάπτυξη νέων αλγόριθμο μάθησης ημι-εποπτεύονται, απασχολούμε μια γενική προσέγγιση νομιμοποίησης για το γράφημα σταθμισμένο δείγμα, και αρκεί να ισχύει η γενική προσέγγιση για το πρόβλημά μας.

Αποτελέσματα

Πραγματοποιήσαμε πειράματα για να ληφθεί το βέλτιστο συνδυασμό δύο όρια για το σκορ ενός ζεύγους γονιδίων και το βάρος του γραφήματος που βασίζεται δείγμα. Στη συνέχεια, σε σύγκριση μέθοδος μας με διάφορες υπάρχουσες μεθόδους, προκειμένου να αξιολογήσει τις επιδόσεις του. Τέλος, αναλύσαμε το δίκτυο που προέρχεται από τη μέθοδο μας με την γνωστή λίστα γονίδιο που σχετίζονται με τον καρκίνο.

Απόκτηση οι παράμετροι Βέλτιστη

Χρησιμοποιήσαμε δύο παραμέτρους τόσο για τον εντοπισμό ενημερωτικό ζεύγη γονιδίων και να εκχωρήσετε τα βάρη για να δοκιμάσετε ζεύγη . Για να βρείτε τη βέλτιστη συνδυασμούς αυτών των δύο παραμέτρων, μετρήσαμε την ακρίβεια του προτεινόμενου μοντέλου ταξινόμησης χρησιμοποιώντας το

k

φορές σε σταυρό επικύρωση μεταβάλλοντας αυτές τις δύο παραμέτρους. Αλλάξαμε το

όριο

g

αξίας 0,15 έως 0,6 σε διαστήματα των 0,05 και το

όριο

s

αξίας 0,72 έως 0,9 σε διαστήματα των 0,02. Συνολικά, πραγματοποιήθηκαν 100 διαφορετικά πειράματα, μεταβάλλοντας αυτά τα δύο όρια και μετρώντας την ακρίβεια της κάθε πείραμα με μέσο όρο το

k

ακρίβειες που δημιουργούνται κατά τη διάρκεια της

k

φορές σε σταυρό επικύρωσης. Εικόνα S2 στο αρχείο S1 απεικονίζει τη ροή της αξιολόγησης της μεθόδου μας. Για να μετρηθεί η ακρίβεια της μεθόδου εκμάθησης ημι-εποπτεύεται, χρησιμοποιήσαμε μόνο σημασμένα δείγματα και υπέθεσε ότι ορισμένα από τα δείγματα ήταν μη επισημασμένο. Χρησιμοποιώντας αυτές τις δύο ομάδες να επισημαίνονται και να μη επισημασμένη δείγματα, κατασκευάσαμε το γράφημα και εκτελούνται νομιμοποίησης.

Για να προσδιοριστεί η κατάταξη των μη επισημασμένων δειγμάτων, εφαρμόσαμε μια ευρετική μέθοδο που ονομάζεται κανονικοποίηση Μαζικής Class (CMN) προτείνει [15]. Σε γενικές γραμμές, ο κανόνας απόφασης αναθέτει την ετικέτα 1 έως κόμβο

i

αν η υπολογιζόμενη τιμή μετά την τακτοποίηση είναι μεγαλύτερη από 0,5, και ετικέτα 0 διαφορετικά. Ωστόσο, η προσέγγιση αυτή απόφαση είναι αποτελεσματική μόνο όταν οι τάξεις είναι καλά διαχωρισμένα. Από τα δεδομένα γονιδιακής έκφρασης δεν έχουν πάντα τον ίδιο αριθμό δειγμάτων για κάθε κατηγορία, υιοθετήσαμε CMN να προσδιορίσει την τελική επισήμανση τάξη. CMN ρυθμίζει το κριτήριο για τον προσδιορισμό της ετικέτας της κατηγορίας σύμφωνα με την αναλογία της μάζας των τάξεων.

Τα πειραματικά αποτελέσματα που ελήφθησαν από ποικίλες παραμέτρους που φαίνεται στο Σχήμα 3. Πραγματοποιήσαμε 100 διαφορετικά πειράματα, μεταβάλλοντας τις δύο τιμές κατωφλίου για κάθε σύνολο δεδομένων. Για κάθε πείραμα, πραγματοποιήσαμε

k

φορές σε σταυρό επικύρωση και κατά μέσο όρο τα

k

ακρίβειες. Ο σκοπός αυτής της διαδικασίας ήταν η σύγκριση της ακρίβειας της ταξινόμησης σε 100 διαφορετικά πειράματα. Μπορούμε επίσης να διεξάγονται τα ίδια πειράματα με προσαρμοσμένη δέσμη στοιχείων, η οποία είχε τον ίδιο αριθμό δειγμάτων τόσο για υποτροπή και μη επανεμφάνιση ομάδες αφού διαφορετικές αναλογίες των ετικετών τάξη μπορεί να επηρεάσει την απόδοση του ταξινομητή. Η μέθοδος μας χρησιμοποιεί ημι-εποπτευόμενης μάθησης που βασίζεται σε γράφημα νομιμοποίησης, η οποία επηρεάζεται από τη γεωμετρική δομή του γραφήματος, για να χαρακτηρίσει την ετικέτα. Εάν οι σχετικές αναλογίες των δύο τάξεων διαφέρουν σημαντικά, οι ετικέτες του μικρού αριθμού δειγμάτων δεν μπορεί να αναπαραχθεί μέσω του γραφήματος. Αυτό μπορεί να επηρεάσει την κατάταξη των επιδόσεων. Όλα τα επιλεγμένα σύνολα δεδομένων καρκίνο χωρίστηκαν σε πρωτότυπο και προσαρμοσμένο ομάδες του δείγματος. Στο υπόλοιπο αυτού του άρθρου, περιγράφουμε ένα πείραμα διεξήχθη με αυτές τις δύο ομάδες. Έχουμε λάβει δύο τιμές βέλτιστο όριο στη μέγιστη ακρίβεια για κάθε σύνολο δεδομένων, όπως φαίνεται στο Σχήμα 3. Βρήκαμε επίσης τα βέλτιστα όρια κατά την αλλαγή του

k

αξία των διασυνοριακών επικύρωσης. Τα πειραματικά αποτελέσματα του

k

= 5 και

k

= 20 περιγράφονται στον Πίνακα S5 στο S1 αρχείου. Τα πειραματικά αποτελέσματα φαίνονται στον Πίνακα 2. Για να δείχνουν την αποτελεσματικότητα των μη επισημασμένου δεδομένων, εκτελείται επίσης των πειραμάτων μεταβάλλοντας τον αριθμό των μη επισημασμένων δειγμάτων. Το πειραματικό αποτέλεσμα τεκμηριώθηκε ότι η ακρίβεια βελτιώθηκε σύμφωνα με την αύξηση του αριθμού των μη επισημασμένου δειγμάτων. Αυτό πειραματικά αποτελέσματα φαίνονται στον πίνακα S6 στο S1 αρχείου.

Πραγματοποιήσαμε 100 διαφορετικά πειράματα, ενώ αλλάζει δύο τιμές κατωφλίου και έλαβε 100 μέση ακρίβειες για κάθε σύνολο δεδομένων χρησιμοποιώντας επικύρωσης 10 φορές σταυρό. Βρήκαμε το μέγιστο, ελάχιστο, και η μέση ακρίβεια για κάθε σύνολο δεδομένων σε δύο περιπτώσεις. (1) Είναι διεξάγεται 10 φορές εγκάρσιας επικύρωσης πάνω από 100 φορές, μεταβάλλοντας τις δύο κατώτατα όρια των αρχικών δειγμάτων, όπως φαίνεται στον Πίνακα 1. (2) Επίσης, διεξάγεται 10 φορές επικύρωση σταυρό πάνω από 100 φορές, μεταβάλλοντας τις δύο κατώφλια μετά εξισορρόπηση του αριθμού των δειγμάτων σε δύο τάξεις. Εμείς τυχαία αφαιρούνται δείγματα 27, 73, και 83 από τα μη επανάληψης ομάδες GSE2990, GSE17536 και GSE17538, αντίστοιχα.

Η

Η σύγκριση με τις υπάρχουσες μεθόδους

συγκριθεί η προτεινόμενη μέθοδος με τρεις χαρακτηριστικές εποπτευόμενους αλγορίθμων ταξινόμησης εφαρμόζονται σε Weka 3.6.8, δηλαδή Support Vector Machine (SVM) [16], Naïve Bayesian [17], και Τυχαία δάση [18]. Επιπλέον, έχουμε επίσης σε σύγκριση μέθοδος μας με TSVM, το οποίο είναι ένα ημι-εποπτεύονται εκμάθηση έκδοση της SVM και υλοποιήθηκε σε SVM-light.

Συγκρίναμε τα ακρίβειες, συμπεριλαμβανομένων των ευαισθησιών και ιδιαιτεροτήτων, της προτεινόμενης μεθόδου και άλλες μέθοδοι που χρησιμοποιούν 10-πλάσια σταυρό επικύρωσης. Εμείς χωρίζεται το σύνολο δεδομένων σε δύο ομάδες, όπως προαναφέρθηκε, και επανέλαβε το πείραμα 15 φορές το καθένα για τρεις τύπους καρκίνου. Υπολογίσαμε τις μέσες τιμές της ακρίβειας, της ευαισθησίας και ειδικότητας για κάθε σύνολο δεδομένων στην προσαρμοσμένη ομάδα. Η ευαισθησία και η ειδικότητα της TSVM δεν μπορούσε να υπολογιστεί αφού TSVM του SVM-φωτός υπό την προϋπόθεση ακρίβεια, και ανάκληση. Ο Πίνακας 3 συνοψίζει τα αποτελέσματα αυτών των δοκιμών. Στην αρχική ομάδα, η ακρίβεια της μεθόδου μας ήταν γενικά καλύτερη από εκείνη των συγκριτικών μεθόδων. Ειδικότερα, η διαφορά απόδοσης μεταξύ της προτεινόμενης μεθόδου και άλλους αλγορίθμους στην προσαρμοσμένη ομάδα ήταν μεγαλύτερη σε σχέση με την αρχική ομάδα. Αν το ποσοστό των ετικετών κλάσης πολώνεται σε ένα σύνολο δεδομένων εκπαίδευσης, ο ταξινομητής μπορεί να είναι πάνω-τοποθετηθεί προς μια μεγαλύτερη ετικέτα. Η αναλογία των ετικετών κατηγορίας στην αρχική ομάδα ωθείται προς ετικέτας μη-επανάληψης, «-1». Ως εκ τούτου, η ευαισθησία και η ειδικότητα των περισσοτέρων από τις μεθόδους που συγκρίνονται, συμπεριλαμβανομένης της μεθόδου μας, ήταν διαφορετικά. Δεδομένου ότι η πρόβλεψη των δύο σημάτων είναι σημαντική στην πρόβλεψη της επανεμφάνισης του καρκίνου, υψηλότερη ευαισθησία και ειδικότητα ταξινόμηση είναι καλύτερα. Στην προσαρμοσμένη ομάδα, μέθοδος μας είχε υψηλότερη ευαισθησία, ειδικότητα, και ακρίβεια από τις μεθόδους σύγκρισης. Γενικά, επιβεβαιώσαμε ότι η προτεινόμενη μέθοδος είχε απόδοση ανώτερη από εκείνη των άλλων μεθόδων.

Η

Η μέση ακρίβεια αυξήθηκε 24,9% σε σύγκριση με τις τέσσερις υπάρχουσες μεθόδους. Για παράδειγμα, όπως φαίνεται στον Πίνακα 3, η ακρίβεια της προτεινόμενης μεθόδου ήταν 0.725 και η ακρίβεια των TSVM ήταν 0,543 για το σύνολο δεδομένων του καρκίνου του μαστού, χωρίς ρύθμιση της αναλογίας ετικέτα τάξη, μια κατά προσέγγιση 33% βελτίωση. Η μέση αναλογία βελτίωση για όλα τα σύνολα δεδομένων ήταν 24,9%. Πέντε από έξι πειραματικές σειρές δεδομένων περιλαμβάνονται τα προσαρμοσμένα δείγμα ομάδες, και η ακρίβεια της προτεινόμενης μεθόδου ήταν υψηλότερες από τις υπάρχουσες μεθόδους. Η μέση διαφορά στην ακρίβεια της προτεινόμενης μεθόδου και των ανταγωνιστών της ήταν 0.139. Έχουμε λάβει, επίσης, οι τιμές AUC για κάθε πειραματικό σύνολο δεδομένων. Όπως φαίνεται στο Σχήμα 4, η προτεινόμενη μέθοδος έδειξε ιδιαίτερα υψηλότερη τιμή AUC για το σύνολο δεδομένων του καρκίνου του μαστού και μια υψηλότερη τιμή AUC σε σύγκριση με άλλες υπάρχουσες μεθόδους για τέσσερα από τα έξι πειραματικές σειρές δεδομένων.

Συγκρίναμε τιμές AUC της προτεινόμενη μέθοδος και άλλων αλγορίθμων εποπτευόμενης μάθησης.

η

Επιπλέον, πραγματοποιήσαμε μια ανεξάρτητη δοκιμή όπου εφαρμόστηκε ανακούφιση-F για να επιλέξετε ενημερωτικό γονίδια αντί του PPI. Μπορούμε επίσης να διεξαχθεί μια στατιστική ανάλυση των σημαντική διαφορά στην ακρίβεια για τη σύγκριση μεταξύ των μεθόδων. Τα λεπτομερή πειραματικά αποτελέσματα που περιγράφονται στην υποστήριξη των πληροφοριών του Πίνακα S1, Πίνακας S3 και S4 πίνακα στο S1 αρχείου.

Συζήτηση

Η απόδοση μιας μεθόδου ταξινόμησης επηρεάζεται από την αναλογία της κατάρτισης δεδομένων σε κάθε κατηγορία. Η υπολογιστική συμβολή της προτεινόμενης μεθόδου είναι ο προσδιορισμός της συνεκτικής ακρίβεια των διαφορών στην τάξη αναλογία. Αυτό είναι πλεονεκτικό καθώς ο αριθμός των δειγμάτων για κάθε κατηγορία δεν μπορεί να ρυθμιστεί κατά ανεξάρτητων δοκιμών. Επιπλέον, αν και ταξινόμηση βάσει ημι-εποπτευόμενης μάθησης έχει εφαρμοστεί σε σύνολα δεδομένων μικροσυστοιχιών, τα αποτελέσματα της προτεινόμενης μεθόδου αποδεικνύουν ότι η προσέγγιση που βασίζεται στην «υπόθεση ομαλότητα» ήταν επαρκής για κλινική εφαρμογή.

Για να μειωθεί η διάσταση των δεδομένων των μικροσυστοιχιών, επιλέξαμε το γονίδιο σύνολα με ισχυρές βιολογικές αλληλεπιδράσεις. Ως εκ τούτου, το γράφημα δείγμα με βάση νομιμοποίησης κατασκευάστηκε με βάση την βιολογική γνώση. Το επιλεγμένο σετ γονίδιο μπορεί να αναφέρεται ως ένα δίκτυο γονίδιο επανάληψη ειδικών. Η ανάλυσή μας έδειξε ότι το δίκτυο αυτό το γονίδιο ήταν βιολογικά σημαντική όσον αφορά την υποτροπή του καρκίνου. Να αναλύσει το δίκτυο γονίδιο του καρκίνου-υποτροπή ειδικά, εμπλουτίσαμε το πληροφοριακό σύνολο γονίδιο που προέρχεται από το βέλτιστο σύνολο παραμέτρων που χρησιμοποιούν τη βάση δεδομένων Gene Ontology (GO) και μπίνγκο [19]. Μεταξύ των πολλών εμπλουτίζεται όρους GO, επικεντρωθήκαμε σε εκείνους που σχετίζονται με την επανεμφάνιση του καρκίνου. Μεταξύ των διαφόρων όρων που σχετίζονται με την επανάληψη, που επικεντρώθηκε σε όρους GO σχετικές με το «πολλαπλασιασμός» και ανέλυσε τα δίκτυα υπο-γονίδιο για όσους GO όρων, που αναφέρονται στη βιβλιογραφία. Για να αναλύσουμε καλύτερα τις λεπτομέρειες των επιμέρους δικτύων που συνδέονται με τον πολλαπλασιασμό σε κάθε καρκίνο, εμείς απεικονίζεται στα δίκτυα που χρησιμοποιούν Cytoscape [20], όπως φαίνεται στο Σχήμα 5, το Σχήμα S3 σε File S1, και το Σχήμα S4 στο File S1.

Οι κόμβοι πορτοκαλί χρώματος είναι ογκογονίδια.

η

η προτεινόμενη μέθοδος εντοπιστεί το δίκτυο υπο-γονίδιο αποτελούμενο από BRCA1, CCND1, STAT1, και CCNB1, που φαίνεται στο Σχήμα 4, όπου συνδέθηκε ο πρωταρχικός BRCA1 ογκογονίδιο με άλλο ογκογονίδιο CCND1 και δύο γονίδια hub-δομημένη, CCNB1 και STAT1. Υποθέσαμε ότι αυτοί οι γονίδιο υπο-δίκτυα που σχετίζονται με την επανεμφάνιση του καρκίνου του μαστού. Τα γονίδια CCND1, CCNB1, και STAT1 γειτονική BRCA1 έχουν επίσης αναφερθεί ότι έχουν σημαντικούς ρόλους στην υποτροπή του καρκίνου του μαστού. CCND1 είναι ένα πρωτεύον γονίδιο στη ρύθμιση της προόδου του κυτταρικού κύκλου, και Shu

κ.ά.

. ανέφερε μια συσχέτιση μεταξύ του κινδύνου καρκίνου του μαστού και την επιβίωση βασίζεται σε πολυμορφισμούς CCND1 [21]. CCNB1 ένα Oncotype DX γονίδιο αναφέρθηκε ότι STAT1 ήταν σημαντικά σχετίζονται με την ενεργοποίηση της ΙΡΝ-γ και κατά του όγκου αποτελέσματα του [22], [23]. Εάν η STAT1 εξαρτώμενη έκφραση των πρωτεϊνών MHC είναι ενισχυμένη, τον πολλαπλασιασμό και την επιβίωση του όγκου αναστέλλονται από την ενεργοποίηση των IFN-γ. Desmedt

et al

. κατέληξε στο συμπέρασμα ότι η ενεργοποίηση των STAT1 παίζει σημαντικό ρόλο στο θάνατο των καρκινικών κυττάρων και την ενεργοποίηση των αποπτωτικών γονιδίων [23].

Συμπεράσματα

Σε αυτή τη μελέτη, προτείναμε μια νέα ημι-εποπτευόμενης μάθησης μέθοδος που βασίζεται στο γράφημα νομιμοποίησης, προκειμένου να προβλέψει επανεμφάνιση του καρκίνου. Δείξαμε επίσης ότι οι επανεμφάνιση ειδικά δίκτυα γονίδιο που προέρχεται από την προτεινόμενη μέθοδο να περιλαμβάνει πολλά γονίδια υποτροπής που σχετίζονται με. Έχουμε ενσωματωθεί τα στοιχεία ΠΠΑ με τα δεδομένα γονιδιακής έκφρασης για να παράγει μια ενημερωτική σύνολο γονιδίων και να αναλυθεί η βιολογική διαδικασία που σχετίζονται με την υποτροπή.

You must be logged into post a comment.