PLoS One: Multi-Class Ομαδοποίηση των Καρκίνο υπότυποι μέσω SVM Βασισμένο Ensemble της κατά Pareto βέλτιστες λύσεις για γονίδιο δείκτη αναγνώρισης


Αφηρημένο

Με την πρόοδο της τεχνολογίας των μικροσυστοιχιών, είναι τώρα δυνατό να μελετήσει τα προφίλ έκφρασης χιλιάδων γονιδίων σε διαφορετικές πειραματικές συνθήκες ή τα δείγματα ιστού ταυτόχρονα. Μικροσυστοιχιών σύνολα δεδομένων καρκίνου, οργανωμένη ως δείγματα σε σχέση με τα γονίδια της μόδας, που χρησιμοποιούνται για την ταξινόμηση των δειγμάτων ιστού σε καλοήθεις και κακοήθεις ή τους υποτύπους. Είναι επίσης χρήσιμες για τον εντοπισμό πιθανών δεικτών γονίδιο για κάθε υπότυπο του καρκίνου, η οποία βοηθά στην έγκαιρη διάγνωση της ύπαρξης συγκεκριμένων τύπων καρκίνου. Σε αυτό το άρθρο, έχουμε παρουσιάσει μια ανεξέλεγκτη τεχνική ταξινόμηση του καρκίνου βασίζεται σε πολυκριτηριακή γενετική ομαδοποίηση των δειγμάτων ιστού. Από την άποψη αυτή, ένα πραγματικό κωδικοποιημένα κωδικοποίηση των κέντρων συμπλέγματος χρησιμοποιείται και συμπαγές σύμπλεγμα και διαχωρισμό ταυτόχρονα βελτιστοποιηθεί. Η προκύπτουσα σύνολο σχεδόν κατά Pareto βέλτιστων λύσεων περιέχει μια σειρά από μη-κυριαρχούμενων λύσεων. Μια νέα προσέγγιση για να συνδυάσει τις πληροφορίες ομαδοποίησης που κατέχονται από μη-κυριαρχούμενων λύσεων μέσω Support Vector Machine έχει προταθεί (SVM). Τελική ομαδοποίηση επιτυγχάνεται με συναίνεση μεταξύ των clusterings απέδωσε με διαφορετικές λειτουργίες του πυρήνα. Η απόδοση της προτεινόμενης μεθόδου πολυκριτηριακής ομαδοποίησης έχει συγκριθεί με εκείνη των πολλών άλλων αλγορίθμων μικροσυστοιχιών ομαδοποίησης για τρεις διαθέσιμες στο κοινό σημείο αναφοράς σύνολα δεδομένων του καρκίνου. Επιπλέον, οι δοκιμές στατιστική σημασία έχουν διεξαχθεί για να καθοριστεί η στατιστική υπεροχή της προτεινόμενης μεθόδου ομαδοποίησης. Επιπλέον, οι σχετικές δείκτες γονιδίου έχουν ταυτοποιηθεί χρησιμοποιώντας το αποτέλεσμα ομαδοποίησης που παράγεται από την προτεινόμενη μέθοδο ομαδοποίησης και αποδεικνύεται οπτικά. Βιολογικές σχέσεις μεταξύ των δεικτών του γονιδίου είναι επίσης μελετηθεί με βάση το γονίδιο οντολογία. Τα αποτελέσματα που προέκυψαν βρέθηκε να είναι πολλά υποσχόμενη και μπορεί ενδεχομένως να έχουν σημαντικές επιπτώσεις στον τομέα των μη επιβλεπόμενη ταξινόμηση του καρκίνου, καθώς και ταυτοποίηση δείκτη γονίδιο για πολλούς υποτύπους του καρκίνου

Παράθεση:. Mukhopadhyay Α, Bandyopadhyay S, Maulik U (2010 ) Multi-Class Ομαδοποίηση των Καρκίνο υπότυποι μέσω SVM Βασισμένο Ensemble της κατά Pareto βέλτιστες λύσεις για γονίδιο σήμανσης αναγνώρισης. PLoS ONE 5 (11): e13803. doi: 10.1371 /journal.pone.0013803

Επιμέλεια: Alfons Navarro, Πανεπιστήμιο της Βαρκελώνης, Ισπανία

Ελήφθη: May 26, 2009? Αποδεκτές: 28 του Σεπτέμβρη 2010? Δημοσιεύθηκε: 12 Νοεμ 2010

Copyright: © 2010 Mukhopadhyay et al. Αυτό είναι ένα άρθρο ανοικτής πρόσβασης διανέμεται υπό τους όρους της άδειας χρήσης Creative Commons Attribution, το οποίο επιτρέπει απεριόριστη χρήση, τη διανομή και την αναπαραγωγή σε οποιοδήποτε μέσο, ​​με την προϋπόθεση το αρχικό συγγραφέα και την πηγή πιστώνονται

Χρηματοδότηση:. SB και UM αναγνωρίζουν Τμήμα Επιστήμης και Τεχνολογίας, την Ινδία (Grant Νο DST /INT /MEX /RPO-04/2008 (ii)) για την εν μέρει την υποστήριξη αυτού του έργου. Οι χρηματοδότες δεν είχε κανένα ρόλο στο σχεδιασμό της μελέτης, τη συλλογή και ανάλυση των δεδομένων, η απόφαση για τη δημοσίευση, ή την προετοιμασία του χειρογράφου

Αντικρουόμενα συμφέροντα:.. Οι συγγραφείς έχουν δηλώσει ότι δεν υπάρχουν ανταγωνιστικά συμφέροντα

Εισαγωγή

η έλευση της τεχνολογίας των μικροσυστοιχιών έχει καταστήσει δυνατή η μελέτη του προφίλ έκφρασης ενός τεράστιου αριθμού γονιδίων σε διαφορετικές πειραματικές συνθήκες ή τα δείγματα ιστού ταυτόχρονα. Αυτό έχει σημαντικές επιπτώσεις στην έρευνα για τον καρκίνο. η τεχνολογία των μικροσυστοιχιών είναι να χρησιμοποιηθεί στη διάγνωση του καρκίνου μέσω της ταξινόμησης των δειγμάτων ιστού. Όταν τα σύνολα δεδομένων μικροσυστοιχιών οργανώνονται ως δείγματα σε σχέση με το γονίδιο της μόδας, τότε είναι πολύ χρήσιμη για την ταξινόμηση των διαφορετικών τύπων ιστών και την ταυτοποίηση αυτών των γονιδίων των οποίων τα επίπεδα έκφρασης είναι καλό διαγνωστικών δεικτών. Τα σύνολα δεδομένων μικροσυστοιχίας, όπου τα δείγματα ιστού αντιπροσωπεύουν τα δείγματα από καρκινικό (κακοήθη) και μη-καρκινικές (καλοήθης) κύτταρα, η ταξινόμηση των οποίων θα οδηγήσει σε δυαδική ταξινόμηση του καρκίνου. Από την άλλη πλευρά, αν τα δείγματα είναι από διαφορετικούς υποτύπους του καρκίνου, τότε γίνεται το πρόβλημα της ταξινόμησης του καρκίνου multi-κατηγορίας. Multi-class ταξινόμηση και ανίχνευση των δεικτών γονιδίου για κάθε υπότυπο καρκίνος καρκίνος είναι ένα πιο δύσκολο έργο σε σχέση με το δυαδικό ταξινόμηση.

Οι περισσότερες από τις έρευνες στον τομέα της διάγνωσης του καρκίνου έχουν επικεντρωθεί σε εποπτευόμενη ταξινόμηση των συνόλων δεδομένων καρκίνου μέσω την κατάρτιση, την επικύρωση και τη δοκιμή για να ταξινομήσει τα δείγματα όγκων ως κακοήθεις ή καλοήθεις ή υποτύπους τους [1] – [6]. Ωστόσο, μη επιβλεπόμενη ταξινόμηση ή ομαδοποίηση των δειγμάτων ιστού πρέπει επίσης να μελετηθεί δεδομένου ότι σε πολλές περιπτώσεις, επισημαίνονται τα δείγματα ιστού δεν είναι διαθέσιμα. Σε αυτό το άρθρο, έχουμε διερευνήσει την εφαρμογή της πολυκριτηριακής γενετικής ομαδοποίησης για μη επιβλεπόμενη ταξινόμηση των δειγμάτων ιστού στα δεδομένα του καρκίνου multi-class.

Ένα σύνολο δεδομένων γονιδιακής έκφρασης μικροσυστοιχιών που αποτελείται από τα γονίδια και τα δείγματα ιστού συνήθως οργανώνονται σε ένα 2D μήτρα του μεγέθους. Κάθε στοιχείο αντιπροσωπεύει το επίπεδο έκφρασης του γονιδίου ου για ου δείγμα ιστού. Clustering [7], [8], ένα σημαντικό εργαλείο ανάλυσης μικροσυστοιχιών, χρησιμοποιείται για την επιβλεπόμενη ταξινόμηση των δειγμάτων ιστού. μέθοδοι ομαδοποίησης στεγανοποιήσει ένα σύνολο αντικειμένων σε ομάδες με βάση κάποια ομοιότητα /ανομοιότητα μετρικούς όπου η αξία του μπορεί ή δεν μπορεί να είναι γνωστή

a priori

.

Γενετικοί αλγόριθμοι (φυσικό αέριο) [9] έχουν πράγματι χρησιμοποιηθεί για την ανάπτυξη αποτελεσματικών τεχνικών ομαδοποίησης [10], [11]. Οι τεχνικές αυτές χρησιμοποιούν ένα ενιαίο μέτρο εγκυρότητας συστάδας ως συνάρτηση καταλληλότητας ώστε να αντικατοπτρίζει την καλοσύνη ενός κωδικοποιημένου ομαδοποίησης. Ωστόσο, ένα μόνο μέτρο κύρους του συμπλέγματος είναι σπάνια το ίδιο ισχύει για τις διάφορες ιδιότητες δεδομένων. Αυτό το άρθρο θέτει το πρόβλημα της ομαδοποίησης ως πολυκριτηριακή βελτιστοποίηση (MOO) [12] – [15] πρόβλημα. Σε αντίθεση με μοναδικό στόχο τη βελτιστοποίηση, σε MOO, αναζήτηση γίνεται μέσω ενός αριθμού, συχνά αντικρουόμενες, αντικειμενικές συναρτήσεις. Το τελικό σύνολο διάλυμα περιέχει μια σειρά κατά Pareto βέλτιστων λύσεων, καμία από τις οποίες μπορεί να βελτιωθεί περαιτέρω σε κάθε ένα στόχο χωρίς να υποβαθμίζεται σε ένα άλλο. Μη κυριαρχείται Διαλογής Αλγόριθμος Γενετική-ΙΙ (NSGA-II) [15], ένα δημοφιλές εξελικτική πολυστοχικής εργαλείο βελτιστοποίησης, έχει εφαρμοστεί με επιτυχία στον τομέα της ομαδοποίησης και ταξινόμησης των δεδομένων γονιδιακής έκφρασης μικροσυστοιχιών [16] – [18]. Σε αυτό το άρθρο, επίσης, μια πολυκριτηριακή αλγόριθμο NSGA-ΙΙ-based clustering [13] έχει υιοθετηθεί η οποία βελτιστοποιεί την πυκνότητα του συμπλέγματος και ο διαχωρισμός του συμπλέγματος ταυτόχρονα. Ένα προκλητικό θέμα ΜΟΥΓΚΡΗΤΟΥ είναι η απόκτηση μιας τελικής λύσης από το σύνολο των κατά Pareto βέλτιστων λύσεων. Σε αυτό το πλαίσιο, μια νέα μέθοδος που χρησιμοποιεί Support Vector Machine (SVM) [19] ταξινομητή περιγράφεται σε αυτό το άρθρο. Η διαδικασία χρησιμοποιεί τα σημεία, για τα οποία οι περισσότεροι από τους μη-κυριαρχούμενων λύσεων παράγουν ίδιες ετικέτες τάξης να εκπαιδεύσει τον ταξινομητή SVM με ένα συγκεκριμένο πυρήνα. Υπόλοιπα σημεία είναι ταξινομημένα από το εκπαιδευμένο ταξινομητή. Τελική κατάταξη επιτυγχάνεται με συναίνεση μεταξύ των λύσεων ομαδοποίησης απέδωσε με διαφορετικές λειτουργίες του πυρήνα.

Επιπλέον, η λύση ομαδοποίηση που παράγεται από την προτεινόμενη τεχνική MOGASVM ομαδοποίηση έχει χρησιμοποιηθεί για τον προσδιορισμό των δεικτών του γονιδίου που είναι κυρίως υπεύθυνη για τη διάκριση ενός συγκεκριμένου τάξης του όγκου από τις υπόλοιπες. Σήματος προς θόρυβο (SNR) στατιστική που βασίζεται σε γονίδιο κατάταξη έχει χρησιμοποιηθεί για το σκοπό αυτό.

Η απόδοση της προτεινόμενης τεχνικής MOGASVM ομαδοποίηση έχει αποδειχθεί σε τρεις διαθέσιμες στο κοινό σημείο αναφοράς σύνολα δεδομένων καρκίνου, δηλ., SRBCT , Ενηλίκων κακοήθειας και των όγκων του εγκεφάλου. Η ανωτερότητα της προτεινόμενης τεχνικής, σε σύγκριση με Κ-means clustering [7], Προσδοκία Μεγιστοποίηση (ΕΜ) clustering [20], και μόνο στόχο την ομαδοποίηση GA-based που βελτιστοποιεί το συνδυασμό του συμπαγούς διασποράς και διαχωρισμού (SGA), ιεραρχική μέσο σύνδεσης clustering [7], Self Οργανωτική Χάρτης (SOM) clustering [21], συναίνεση clustering [22] και πρότεινε πρόσφατα η τεχνική ομαδοποίησης που ονομάζεται Simm-TS [12], αποδεικνύεται τόσο ποσοτικά όσο και οπτικά. Η ανωτερότητα της τεχνικής MOGASVM ομαδοποίησης έχει επίσης αποδειχθεί ότι είναι στατιστικά σημαντική με δοκιμές στατιστική σημασία. Τέλος, έχει αποδειχθεί πως η ομαδοποίηση αποτέλεσμα MOGASVM μπορεί να χρησιμοποιηθεί για τον προσδιορισμό των σχετικών δεικτών γονίδιο για τα σύνολα δεδομένων SRBCT. Επίσης, μια μελέτη της βιολογικής σημασίας των δεικτών του γονιδίου έχουν διεξαχθεί με βάση το γονίδιο οντολογία.

Υλικά και Μέθοδοι

πολυστοχική βελτιστοποίηση χρήση Γενετικών Αλγορίθμων

Σε πολλές καταστάσεις του πραγματικού κόσμου υπάρχει μπορεί να είναι αρκετές στόχους που πρέπει να βελτιστοποιηθεί ταυτόχρονα, για να λύσει ένα συγκεκριμένο πρόβλημα. Αυτό έρχεται σε αντίθεση με τα προβλήματα που αντιμετωπίζονται με συμβατικές αερίου, οι οποίες αφορούν τη βελτιστοποίηση του ένα μόνο κριτήριο. Η κύρια δυσκολία κατά την εξέταση πολυστοχικής βελτιστοποίηση είναι ότι δεν υπάρχει αποδεκτός ορισμός της βέλτιστης στην περίπτωση αυτή, και ως εκ τούτου είναι δύσκολο να συγκρίνουμε μία λύση με ένα άλλο. Σε γενικές γραμμές, τα προβλήματα αυτά παραδέχονται πολλαπλές λύσεις, καθένα από τα οποία θεωρείται αποδεκτή και ισοδύναμα, όταν η σχετική σημασία των στόχων είναι άγνωστη. Η καλύτερη λύση είναι υποκειμενική και εξαρτάται από την ανάγκη του σχεδιαστή ή της απόφασης maker.

Οι παραδοσιακές μέθοδοι αναζήτησης και βελτιστοποίησης, όπως η κλίση αναζήτησης καθόδου, και άλλα μη συμβατικά αυτά, όπως η προσομοιωμένη ανόπτηση είναι δύσκολο να επεκταθεί, όπως είναι για η πολυκριτηριακή περίπτωση, δεδομένου ότι ο βασικός σχεδιασμός τους αποκλείει την εξέταση των πολλαπλών λύσεων. Αντίθετα, οι μέθοδοι που βασίζονται πληθυσμού, όπως εξελικτικών αλγορίθμων είναι κατάλληλοι για το χειρισμό τέτοιων καταστάσεων. Η πολυκριτηριακή βελτιστοποίηση μπορεί να αναφέρεται επίσημα ως [23], [24]. Βρείτε το διάνυσμα των μεταβλητών απόφασης που ικανοποιεί τους περιορισμούς ανισότητας: (1) περιορισμούς ισότητας (2) και βελτιστοποιεί τη λειτουργία φορέα (3) Οι περιορισμοί που αναφέρονται στο Eqns. (1) και (2) καθορίζουν την εφικτή περιοχή η οποία περιέχει όλες τις αποδεκτές λύσεις. Οποιαδήποτε λύση έξω από την περιοχή αυτή είναι απαράδεκτη, δεδομένου ότι παραβιάζει έναν ή περισσότερους περιορισμούς. Ο φορέας υποδηλώνει μια βέλτιστη λύση σε. Στο πλαίσιο της πολυκριτηριακής βελτιστοποίησης, η δυσκολία έγκειται στον ορισμό του βέλτιστου, δεδομένου ότι είναι μόνο σπάνια ότι θα βρούμε μια κατάσταση όπου ένας μόνο φορέας αντιπροσωπεύει τη βέλτιστη λύση για όλες τις αντικειμενικές λειτουργίες.

Η έννοια της

κατά Pareto βέλτιστη

είναι χρήσιμη στον τομέα της πολυκριτηριακής βελτιστοποίησης. Ένα επίσημο ορισμό της Pareto-βέλτιστη από την άποψη του προβλήματος ελαχιστοποίησης μπορεί να δοθεί ως εξής. Ένας φορέας απόφαση ονομάζεται Pareto-βέλτιστη αν και μόνο αν δεν υπάρχει που κυριαρχεί, δηλαδή, δεν υπάρχει τέτοιο thatIn άλλα λόγια, είναι κατά Pareto βέλτιστη, εάν δεν υπάρχει εφικτή φορέα που προκαλεί μείωση σε κάποιο κριτήριο, χωρίς ταυτόχρονη αύξηση του τουλάχιστον ένα άλλο. Στο πλαίσιο αυτό, δύο άλλες έννοιες δηλ.,

ασθενώς μη κυριαρχείται

και

έντονα μη κυριαρχείται

λύσεις ορίζονται [23]. Ένα σημείο είναι ένα ασθενώς λύση μη κυριαρχούμενων, αν δεν υπάρχει τέτοια ώστε, για. Ένα σημείο είναι έντονα μη κυριαρχούμενων λύση, αν δεν υπάρχει τέτοια ώστε, για, και για τουλάχιστον ένα,. Σε γενικές γραμμές, Pareto βέλτιστη παραδέχεται μια σειρά από λύσεις που ονομάζεται

μη κυριαρχείται

λύσεις.

Υπάρχουν διαφορετικές προσεγγίσεις για την επίλυση των προβλημάτων πολυκριτηριακής βελτιστοποίησης [23], [24], π.χ., τη συγκέντρωση, ο πληθυσμός με βάση μη-Pareto και τεχνικές Pareto-based. Στην άθροιση τεχνικές, οι διάφοροι στόχοι είναι γενικά συνδυάζονται σε μία χρησιμοποιώντας στάθμισης ή στόχο μέθοδο που βασίζεται. Vector Αξιολογηθείσες Γενετικός Αλγόριθμος (VEGA) είναι μια τεχνική στην προσέγγιση μη-Pareto του πληθυσμού στο οποίο διαφορετικές υποπληθυσμών που χρησιμοποιούνται για τους διάφορους στόχους. Πολλαπλές Στόχος GA (MOGA), Μη-κυριαρχείται Διαλογής GA (NSGA), niched Pareto GA (NPGA) αποτελούν μια σειρά από τεχνικές κάτω από τις προσεγγίσεις κατά Pareto βάση. Ωστόσο, όλες αυτές οι τεχνικές, που περιγράφονται στο [24], είναι ουσιαστικά μη ελιτίστικο χαρακτήρα. NSGA-II [15], τη δύναμη Pareto Εξελικτική Αλγόριθμος (SPEA) [25] και SPEA2 [26] είναι μερικές πιο πρόσφατες ελιτίστικη τεχνικές. NSGA-II είναι μια βελτίωση σε σχέση με την προηγούμενη έκδοση του NSGA στο χρόνο όρους υπολογισμού. Επιπλέον, NSGA-ΙΙ εισάγει ένα νέο ελιτίστικο μοντέλο με το συνδυασμό των γονέα και το παιδί τους πληθυσμούς και πολλαπλασιαστικού των μη κυριαρχούμενων λύσεων από τον συνολικό πληθυσμό στην επόμενη γενιά εξασφαλίζοντας καλύτερο ποσοστό σύγκλισης προς την παγκόσμια βέλτιστη μέτωπο Pareto. Επίσης, προτείνει μια κατάμεστη μέθοδο σύγκρισης για δυαδική επιλογή τουρνουά που παρέχει καλύτερη ποικιλομορφία στο μέτωπο Pareto. Στο [15], έχει αποδειχθεί ότι NSGA-ΙΙ αποδίδει καλύτερα σε σύγκριση με πολλές άλλες τεχνικές ΜΟΟ. Εξ ου και η πολυκριτηριακή τεχνική ομαδοποίησης που εξετάζονται στην παρούσα εργασία χρησιμοποιεί NSGA-ΙΙ, ως υποκείμενο πλαίσιο βελτιστοποίησης. Ωστόσο, θα μπορούσε να έχει χρησιμοποιηθεί οποιαδήποτε άλλη εξελικτική πολυκριτηριακής βελτιστοποίησης εργαλείο.

Ομαδοποίηση πολλών στόχων NSGA-ΙΙ με βάση

Σε αυτό το τμήμα, έχουμε περιγράψει την χρήση NSGA-II για την εξέλιξη μια σειρά από κοντά -Pareto-βέλτιστες λύσεις clustering [13]. Cluster συμπαγές και ο διαχωρισμός του συμπλέγματος θεωρούνται ως οι αντικειμενικές λειτουργίες που έχουν βελτιστοποιηθεί ταυτόχρονα. Η τεχνική περιγράφεται παρακάτω με λεπτομέρεια.

String Εκπροσώπηση και Πληθυσμού Αρχικοποίηση.

Στη βάση ομαδοποίηση NSGA-ΙΙ, τα χρωμοσώματα αποτελούνται από τους πραγματικούς αριθμούς που αντιπροσωπεύουν τις συντεταγμένες των κέντρων των οι συστάδες. Ας υποθέσουμε ότι το μέγεθος του συνόλου δεδομένων είναι, δηλαδή, τα δείγματα ιστού συστάδες αλγόριθμος καθένα από τα οποία περιγράφεται από γονίδια (χαρακτηριστικά). Για συμπλέγματα, κάθε χρωμόσωμα έχει έτσι ένα μήκος, όπου είναι η διάσταση των δεδομένων (ο αριθμός των γονιδίων σε αυτήν την περίπτωση). Όπως έχουμε χρησιμοποιήσει 200 ​​γονίδια που έχουν μεγαλύτερες διαφορές μεταξύ των δειγμάτων, η διάσταση είναι, επομένως, 200 για κάθε σύνολο δεδομένων. Τα κέντρα κωδικοποιούνται σε ένα χρωμόσωμα στο αρχικό πληθυσμό που επιλέγονται τυχαία διαφορετικά σημεία από το σύνολο δεδομένων.

Υπολογισμό των στόχων.

Για τον υπολογισμό των αντικειμενικών συναρτήσεων, πρώτα τα κέντρα κωδικοποιούνται σε ένα συγκεκριμένο χρωμόσωμα είναι εξάγεται. Στη συνέχεια, κάθε σημείο δεδομένων έχει εκχωρηθεί σε πλησιέστερο κέντρο διασποράς και τα κέντρα συμπλέγματος ενημερώνονται από το μέσο όρο των σημείων που του έχουν ανατεθεί. Τα σημεία στη συνέχεια επέστρεψαν στην πλησιέστερη κέντρα διασποράς τους. Το χρωμόσωμα είναι επίσης ενημερώνεται με τα νέα κέντρα διασποράς

Η παγκόσμια πυκνότητα του διαλύματος ομαδοποίησης ορίζεται ως εξής:. (4), όπου δηλώνει την απόσταση μεταξύ του σημείου ου και ου το κέντρο της συστάδας. δηλώνει την ου συμπλέγματος. Σημειώστε ότι η χαμηλή τιμή του δείχνει ότι οι συστάδες είναι εξαιρετικά συμπαγής. Ως εκ τούτου, ο στόχος είναι να ελαχιστοποιηθεί.

Ο δεύτερος στόχος είναι ο διαχωρισμός του συμπλέγματος. Αυτό ορίζεται ως εξής: (5) Για να ληφθεί καλά διαχωρισμένες συστάδες, ο στόχος είναι να μεγιστοποιηθεί. Ως εδώ NSGA-II διαμορφώνεται ως πρόβλημα ελαχιστοποίησης, ο δεύτερος στόχος λαμβάνεται ως το αντίστροφο.

Γενετική Επιχειρήσεων.

Οι ευρέως χρησιμοποιείται γενετικές λειτουργίες είναι

επιλογή ,

crossover

και

μετάλλαξη

. Η λειτουργία επιλογής που χρησιμοποιείται εδώ είναι το συνωστισμό δυαδική επιλογή τουρνουά που χρησιμοποιούνται σε NSGA-II [15]. Μετά την επιλογή, οι επιλεγμένες χρωμοσώματα εκτέλεσε το πισίνα ζευγαρώματος και συμβατικά ενιαίο σημείο διασταύρωσης εκτελείται με βάση την πιθανότητα διασταύρωσης. Μετά από αυτό, κάθε χρωμόσωμα υφίσταται μετάλλαξη ανάλογα με την πιθανότητα μετάλλαξης, όπου μια τυχαία κέντρο του συμπλέγματος επιλέγεται από αυτό και στη συνέχεια μεταφέρθηκε ελαφρά.

Το πιο χαρακτηριστικό μέρος της NSGA-II είναι η λειτουργία ελιτισμό του, όταν η μητρική και οι πληθυσμοί των παιδιών σε συνδυασμό και οι μη-κυριαρχούμενων λύσεων από τον συνολικό πληθυσμό διαδίδεται στην επόμενη γενιά. Για λεπτομέρειες σχετικά με τις διαφορετικές γενετικές διαδικασίες, οι αναγνώστες μπορούν να προσφεύγουν στο [15]. Οι σχεδόν κατά Pareto βέλτιστη χορδές της τελευταίας γενιάς παρέχουν τις διαφορετικές λύσεις στο πρόβλημα ομαδοποίησης.

Support Vector Machine Classifier

φορέα υποστήριξης του μηχανήματος (SVM) ταξινομητές εμπνευσμένο από τη θεωρία στατιστική μάθηση και εκτελούν ελαχιστοποίηση των διαρθρωτικών κινδύνων σε ένα ένθετο σύνολο δομή του διαχωρισμού υπερεπίπεδα [19], [27]. Προβολή των δεδομένων εισόδου ως δύο σύνολα διανυσμάτων σε ένα διάστατο χώρο, ένα SVM κατασκευάζει ένα διαχωριστικό υπερεπίπεδο σε αυτό το χώρο, η οποία μεγιστοποιεί το περιθώριο μεταξύ των δύο κατηγοριών των σημείων. Για να υπολογιστεί το περιθώριο, οι δύο παράλληλες υπερεπίπεδα κατασκευαστεί σε κάθε πλευρά του διαχωριστικού ένα, το οποίο είναι «ωθούνται επάνω ενάντια» των δύο κατηγοριών των σημείων. Διαισθητικά, ένας καλός διαχωρισμός επιτυγχάνεται με την υπερεπίπεδο που έχει τη μεγαλύτερη απόσταση από τις γειτονικές σημεία δεδομένων και των δυο κατηγοριών. Μεγαλύτερο περιθώριο ή την απόσταση μεταξύ αυτών των παράλληλων υπερεπίπεδα δείχνει καλύτερη σφάλμα γενίκευσης του ταξινομητή. Ουσιαστικά, ο ταξινομητής SVM έχει σχεδιαστεί για προβλήματα δύο κατηγοριών. Μπορεί να επεκταθεί για να χειριστεί τα προβλήματα multi-class σχεδιάζοντας μια σειρά ένας-εναντίον-όλα ή ένα-εναντίον-ενός δύο-class SVMs.

Ας υποθέσουμε ότι ένα σύνολο δεδομένων αποτελείται από διανύσματα χαρακτηριστικών, όπου, δηλώνει ο ετικέτα κατηγορίας για το σημείο δεδομένων. Το πρόβλημα της εύρεσης του διανύσματος βάρους μπορεί να μορφοποιηθούν ως ελαχιστοποιώντας την ακόλουθη συνάρτηση: (6) υπόκεινται σε (7) Εδώ, είναι η προκατάληψη και η συνάρτηση αντιστοιχίζει το διάνυσμα εισόδου προς το φορέα χαρακτηριστικό. Η διπλή σύνθεση δίνεται μεγιστοποιώντας τα εξής: (8) υπόκεινται σε (9) Μόνο ένα μικρό κλάσμα των συντελεστών είναι μη μηδενικά. Τα αντίστοιχα ζεύγη των καταχωρήσεων είναι γνωστά ως φορείς υποστήριξης και καθορίζουν πλήρως τη λειτουργία λήψης. Γεωμετρικά, οι φορείς στήριξης είναι τα σημεία που βρίσκονται κοντά στο διαχωριστικό υπερεπίπεδο. Εδώ λέγεται

συνάρτησης πυρήνα

.

Λειτουργίες

Kernel βοηθήσει να χαρτογραφήσει το χώρο των χαρακτηριστικών σε υψηλότερες διαστάσεις. Η λειτουργία του πυρήνα μπορεί να είναι γραμμική ή μη γραμμική, όπως πολυώνυμο, σιγμοειδές, συναρτήσεις ακτινικής βάσης (RBF), κ.λπ. Οι τέσσερις λειτουργίες του πυρήνα που χρησιμοποιείται σε αυτό το άρθρο έχουν ως εξής:

Γραμμική:

πολυώνυμο:

Σιγμοειδή:

Radial Basis Function (RBF):.

Η εκτεταμένη έκδοση του SVM δύο κατηγοριών που ασχολείται με multi-class πρόβλημα ταξινόμησης με το σχεδιασμό ένας αριθμός του ενός εναντίον όλων-SVMs δύο κατηγοριών [27] χρησιμοποιείται εδώ. Για παράδειγμα, ένα -θα θεωρεί το πρόβλημα αντιμετωπίζεται με SVMs δύο κατηγοριών, καθένα από τα οποία χρησιμοποιείται για να διαχωρίσει μια κατηγορία σημείων από όλα τα υπόλοιπα σημεία.

Η λήψη της τελικής ομαδοποίησης από τις μη-κυριαρχούμενων λύσεων

Καθώς η πολυκριτηριακή ομαδοποίησης παράγει ένα σύνολο μη κυριαρχούμενων λύσεων στον τελικό γενιάς, είναι υποχρεωμένη να εφαρμόσει κάποια τεχνική για να ληφθεί η τελική λύση clustering από αυτό το σύνολο. Αυτή η ενότητα περιγράφει το προτεινόμενο σύστημα για το συνδυασμό του NSGA-ΙΙ-based αλγορίθμου ομαδοποίησης πολυκριτηριακή με τον ταξινομητή SVM για το σκοπό αυτό. Στη συνδυασμένη προσέγγιση, που ονομάζεται MOGASVM, κάθε λύση που δεν κυριαρχείται δίνεται ίση σημασία και μια τεχνική πλειοψηφίας εφαρμόζεται. Αυτό δικαιολογείται από το γεγονός ότι λόγω της παρουσίας των σημείων κατάρτισης, υπό την επίβλεψη ταξινόμηση συνήθως αποδίδει καλύτερα από την μη επιβλεπόμενη ταξινόμηση ή ομαδοποίηση. Εδώ έχουμε αξιοποιηθεί αυτό το πλεονέκτημα, ενώ επιλέγοντας κάποια σημεία της κατάρτισης με χρήση ψηφοφορίας με ειδική πλειοψηφία για τις μη κυριαρχούμενων λύσεων που παράγονται από την πολυκριτηριακή ομαδοποίησης. Η τεχνική της πλειοψηφίας δίνει ένα σύνολο σημείων, για τα οποία οι περισσότεροι από τους μη-κυριαρχούμενων λύσεων εκχωρήσει τις ίδιες ετικέτες κατηγορίας. Ως εκ τούτου, αυτά τα σημεία μπορεί να θεωρηθεί να συγκεντρώνονται σωστά και έτσι μπορούν να χρησιμοποιηθούν ως τα σημεία εκπαίδευση του ταξινομητή SVM. Στη συνέχεια, τα υπόλοιπα σημεία χαμηλής εμπιστοσύνης που ταξινομούνται χρησιμοποιώντας το εκπαιδευμένο ταξινομητή. Η διαδικασία επαναλαμβάνεται για διάφορες λειτουργίες του πυρήνα και η τελική ομαδοποίηση επιτυγχάνεται μέσω της πλειοψηφίας μεταξύ των διανυσμάτων σήματος σύμπλεγμα που παράγονται από τις διαφορετικές λειτουργίες του πυρήνα. Τα βήματα της MOGASVM περιγράφονται παρακάτω

Βήμα 1:. Εκτελέστε MOGA ομαδοποίησης για να αποκτήσετε ένα σετ,, των μη κυριαρχούμενων χορδές διάλυμα που αποτελείται από κέντρα διασποράς

Βήμα 2:. Decode κάθε λύση και αποκτήστε το διάνυσμα ετικέτα cluster για κάθε λύση αναθέτοντας σε κάθε σημείο στο πλησιέστερο κέντρο του συμπλέγματος της

Βήμα 3:. Αναδιοργάνωση των φορέων ετικέτα συμπλέγματος για να γίνουν συνεπείς, δηλαδή, cluster στην πρώτη λύση θα πρέπει να αντιστοιχεί σε σύμπλεγμα σε όλα άλλες λύσεις. Για παράδειγμα, το διάνυσμα ετικέτα συμπλέγματος είναι ισοδύναμη με

Βήμα 4:. Σημειώστε τα σημεία που έχουν την ίδια ετικέτα κατηγορίας για τουλάχιστον λύσεις, όπως τα σημεία εκπαίδευσης, όπου,, είναι το όριο της πλειοψηφίας. Οι ετικέτες κατηγορίας των σημείων θα είναι τάξη

Βήμα 5:.. Εκπαίδευσε την ταξινομητή SVM με κάποια λειτουργία πυρήνα με τα σημεία κατάρτισης

Βήμα 6: Δημιουργήστε τις ετικέτες κατηγορίας για τα υπόλοιπα σημεία, χρησιμοποιώντας το εκπαιδευμένο ταξινομητή SVM

Βήμα 7:.. Επαναλάβετε τα βήματα 5-6 για τις τέσσερις λειτουργίες του πυρήνα θεωρείται εδώ και να λάβει τα διανύσματα ετικέτα τέσσερις σύμπλεγμα

Βήμα 8: Συνδυάστε τα τέσσερα διανύσματα ετικέτα ομαδοποίηση μέσω πλειοψηφία σύνολο της ψηφοφορίας, δηλαδή, κάθε σημείο έχει εκχωρηθεί μια ετικέτα τάξη που αποκτά το μέγιστο αριθμό των ψήφων μεταξύ των τεσσάρων λύσεων ομαδοποίησης. Οι δεσμοί σπάσει τυχαία.

Τα μεγέθη της εκπαίδευσης και της εξέτασης σύνολα εξαρτώνται από την παράμετρο (όριο πλειοψηφία), η οποία καθορίζει τον ελάχιστο αριθμό των μη κυριαρχούμενων λύσεων που πρέπει να συμφωνήσουν μεταξύ τους στο πλαίσιο της ψηφοφορίας. Αν έχει μια υψηλή τιμή, το μέγεθος του συνόλου εκπαίδευσης είναι μικρό. Ωστόσο, αυτό σημαίνει ότι περισσότερο τον αριθμό των μη κυριαρχούμενων λύσεων συμφωνήσουν μεταξύ τους και έτσι την εμπιστοσύνη του συνόλου εκπαίδευσης είναι υψηλό. Αντιθέτως, αν έχει χαμηλή τιμή, το μέγεθος του σετ εκπαίδευσης είναι μεγάλο. Αλλά αυτό δείχνει ότι λιγότερο αριθμός των μη-κυριαρχούμενων λύσεων έχουν συνάψει μεταξύ τους συμφωνία και το σύνολο εκπαίδευσης έχει χαμηλό επίπεδο εμπιστοσύνης. Κατά τη διάρκεια του πειραματισμού, έχουμε δοκιμάσει διαφορετικές τιμές για και διαπίστωσε ότι η απόδοση του MOGASVM είναι σε γενικές γραμμές καλύτερα όταν είναι στην περιοχή μεταξύ 0,4 και 0,6. Αυτό έχει παρατηρηθεί για όλα τα σύνολα δεδομένων εξετάζονται εδώ. Ως εκ τούτου, για να επιτευχθεί μια αντίστροφη σχέση μεταξύ του μεγέθους και της εμπιστοσύνης του συνόλου εκπαίδευσης, μετά από διάφορα πειράματα, έχουμε θέσει την παράμετρο στην τιμή των 0,5. Ωστόσο, αυτή η παράμετρος μπορεί να εκτεθεί στον χρήστη ο οποίος μπορεί να συντονιστείτε ανάλογα με τις ανάγκες του /της.

Αριθμός Clusters

Για τον καθορισμό του αριθμού των συστάδων, χρησιμοποιείται

δείκτης σιλουέτα [28] . Ορίζεται ως εξής. Ας υποθέσουμε ότι αντιπροσωπεύει τη μέση απόσταση ενός σημείου από τα άλλα σημεία της συστάδας στην οποία έχει εκχωρηθεί το σημείο, και αντιπροσωπεύει το ελάχιστο των μέσες αποστάσεις του σημείου από τα σημεία των άλλων ομάδων. Τώρα το πλάτος σιλουέτα του σημείου ορίζεται ως εξής: (10) δείκτης Silhouette είναι το μέσο πλάτος σιλουέτα όλων των σημείων δεδομένων (δείγματα όγκου) και αντανακλά την πυκνότητα και διαχωρισμός των συμπλεγμάτων. Η τιμή του δείκτη σιλουέτα ποικίλλει -1 έως 1 και υψηλότερη τιμή υποδεικνύει καλύτερο αποτέλεσμα ομαδοποίησης. Η αξία της δεν έχει καμία μονοτονική αυξάνοντας ή μειώνοντας την τάση με τον αριθμό των συστάδων. Ως εκ τούτου, ο δείκτης αυτός είναι ένας καλός δείκτης για την επιλογή του αριθμού των clusters [28].

Για να επιλέξετε τον αριθμό των συστάδων, ο αλγόριθμος MOGASVM εκτελείται για διαφορετικές τιμές του ξεκινούν από με, είναι ο αριθμός των σημείων δεδομένων. Για κάθε μία, που εκτελείται φορές από διαφορετικές αρχικές διαμορφώσεις και λαμβάνεται το τρέξιμο δίνοντας την καλύτερη τιμή. Μεταξύ αυτών καλύτερες λύσεις για διαφορετικές τιμές, η τιμή του για τη λύση που παράγει τη μέγιστη τιμή του δείκτη επιλέγεται. Η ίδια τιμή χρησιμοποιείται για όλους τους αλγορίθμους για μια δίκαιη σύγκριση.

Η ενασχόληση με τα ακραίες τιμές

Είναι γνωστό ότι η παρουσία ακραίων τιμών μπορεί να επηρεάσει την απόδοση των αλγορίθμων ομαδοποίησης. Ο προτεινόμενος αλγόριθμος MOGASVM ομαδοποίησης υπολογίζει τα μέσα των συστάδων κατά τη διάρκεια χρωμόσωμα updation που είναι πιθανό να επηρεαστούν λόγω της παρουσίας των ακραίων τιμών στο σύνολο δεδομένων. Για να αντιμετωπίσουν αυτό, τροποποιήσαμε το προτεινόμενο αλγόριθμο ως εξής. Κατά τη διάρκεια του χρωμοσώματος updation, αντί να λάβει τα μέσα του τα σημεία σε ένα cluster, υπολογίζουμε το

medoid

του συμπλέγματος. Ένα medoid συμπλέγματος, σε αντίθεση με σύμπλεγμα σημαίνει, είναι ένα πραγματικό σημείο στο ταμπλό από την οποία το άθροισμα των αποστάσεων με τα άλλα σημεία του συμπλέγματος είναι ελάχιστη. Από medoid είναι ένα πραγματικό σημείο, ότι επηρεάζεται λιγότερο από την παρουσία ακραίων τιμών [29]. Το υπόλοιπο των βημάτων του τροποποιημένου αλγορίθμου παραμένει ίδιο. Κατά τη διάρκεια του πειραματισμού, έχει βρεθεί ότι το medoid με βάση πολυστοχικής αλγόριθμο εκτελεί ομοίως ως η μέση προσέγγιση για τις τρεις ομάδες δεδομένων θεωρούνται σε αυτό το άρθρο. Ως εκ τούτου, δεν έχουμε αναφερθεί τα αποτελέσματα για την προσέγγιση medoid που βασίζεται. Αυτό υποδηλώνει ότι τα σύνολα δεδομένων που εξετάζονται εδώ είναι πιθανόν απαλλαγμένα από ακραίες τιμές. Ωστόσο, αυτό δεν μπορεί να ισχύει για τις άλλες ομάδες δεδομένων και στην περίπτωση αυτή, θα είναι καλύτερα να χρησιμοποιήσετε το medoid προσέγγιση αντί της μέσης με βάση ένα. Πρέπει να σημειωθεί ότι η εξεύρεση των medoids είναι υπολογιστικά πιο ακριβά από την εύρεση των μέσων. Αλλά είναι δυνατόν να precompute τον πλήρη πίνακα αποστάσεων και να το διατηρήσει στη μνήμη κατά την εκτέλεση του αλγορίθμου ομαδοποίησης για ταχύτερη απόδοση, επειδή ο αριθμός των δειγμάτων σε σύνολα δεδομένων μικροσυστοιχιών δείγμα-γονίδιο είναι συνήθως πολύ μικρότερη σε σύγκριση με τον αριθμό των γονιδίων.

Performance Metrics

Δύο μέτρα απόδοσης, δηλαδή, ποσοστό Ταξινόμηση Ακρίβεια () και να προσαρμόζεται Rand Index () λαμβάνονται υπόψη για τη σύγκριση των αποτελεσμάτων που παράγονται από διαφορετικούς αλγορίθμους. Αυτά ορίζονται κατωτέρω.

Ποσοστό Ταξινόμηση Ακρίβεια.

Ορίζουμε την ακρίβεια ποσοστό Ταξινόμηση () να συγκρίνουν μια λύση ομαδοποίηση με την πραγματική ομαδοποίηση. Ας υποθέσουμε ότι είναι το πραγματικό ομαδοποίηση των δειγμάτων σε ένα σύνολο δεδομένων γονιδιακής έκφρασης και είναι ένα αποτέλεσμα ομαδοποίηση δίνεται από κάποιο αλγόριθμο. Αφήνω είναι ο αριθμός των ζευγών των σημείων που ανήκουν στην ίδια ομάδα και στα δύο, και να είναι ο αριθμός των ζευγών των σημείων που ανήκουν σε διαφορετικές ομάδες και στα δύο και, και είναι ο συνολικός αριθμός των ζευγών των σημείων, δηλαδή. Η ορίζεται ως εξής: (11) Ανώτατη τιμή του μέσου καλύτερη αντιστοίχιση μεταξύ και. Προφανώς.

Προσαρμοσμένη Rand Index.

Το προσαρμοσμένο δείκτη Rand () [30] χρησιμοποιείται επίσης για να συγκρίνετε λύση ομαδοποίηση με την πραγματική ομαδοποίηση. Ας υποθέσουμε ότι είναι το πραγματικό ομαδοποίηση των δειγμάτων σε ένα σύνολο δεδομένων γονιδιακής έκφρασης και είναι ένα αποτέλεσμα ομαδοποίηση δίνεται από κάποιο αλγόριθμο. Αφήστε, και αντίστοιχα δηλώνουν τον αριθμό των ζευγών των σημείων που ανήκουν στην ίδια συστάδα, τόσο και ο αριθμός των ζευγών που ανήκουν στην ίδια συστάδα σε αλλά σε διαφορετικές συστάδες σε, ο αριθμός των ζευγών που ανήκουν σε διαφορετικές ομάδες σε αλλά στον ίδιο συγκεντρώνονται σε, και ο αριθμός των ζευγών που ανήκουν σε διαφορετικές ομάδες και στα δύο και. Το προσαρμοσμένο δείκτη Rand τότε ορίζεται ως εξής: (12) Η αξία των ψεμάτων μεταξύ 0 και 1 και υψηλότερη τιμή υποδεικνύει ότι είναι πιο παρόμοιο με. Προφανώς,.

Αναγνώριση των δεικτών Gene

Σε αυτό το τμήμα έχουμε καταδείξει πώς η προτεινόμενη τεχνική ομαδοποίησης MOGASVM μπορεί να χρησιμοποιηθεί για τον προσδιορισμό των δεικτών του γονιδίου που είναι κυρίως υπεύθυνοι για τη διάκριση των διαφόρων κατηγοριών των δείγματα ιστών. Εδώ έχουμε καταδείξει τη διαδικασία για το σύνολο δεδομένων SRBCT (που περιγράφεται στην επόμενη ενότητα). Αυτό έγινε ως εξής.

Κατά την πρώτη, MOGASVM εφαρμόζεται στο σύμπλεγμα των δειγμάτων του συνόλου δεδομένων σε προεπεξεργασία σε τέσσερις κατηγορίες που αντιστοιχούν στους υποτύπους όγκου EWS, NB, BL και RMS, αντίστοιχα. Για να ληφθούν οι γονιδιακοί δείκτες για τον υπότυπο EWS, το αποτέλεσμα ομαδοποίηση αντιμετωπίζεται ως δύο κατηγορίες: μία τάξη αντιστοιχεί στους όγκους EWS και η άλλη τάξη αντιστοιχεί με τους υπόλοιπους τύπους όγκων. Λαμβάνοντας υπόψη αυτές τις δύο κατηγορίες, για κάθε ένα από τα γονίδια, ένα στατιστικό στοιχείο που ονομάζεται σήματος προς θόρυβο (SNR) [1] υπολογίζεται. Το SNR ορίζεται ως (13) όπου και, αντιστοίχως υποδηλώνουν την μέση τιμή και τυπική απόκλιση της τάξης για το αντίστοιχο γονίδιο. Σημειώστε ότι μεγαλύτερη απόλυτη τιμή του SNR για ένα γονίδιο δείχνει ότι το επίπεδο έκφρασης του γονιδίου είναι υψηλή σε μία τάξη και χαμηλή σε μια άλλη. Κατά συνέπεια, αυτό προκατάληψη είναι πολύ χρήσιμο για τη διάκριση των γονιδίων που εκφράζονται διαφορετικά στις δύο κατηγορίες των δειγμάτων. Μετά τον υπολογισμό της στατιστικής SNR για κάθε γονίδιο, τα γονίδια ταξινομούνται κατά φθίνουσα σειρά των τιμών SNR τους. Από την ταξινομημένη λίστα, τα top 10 γονίδια που επιλέγονται ως οι δείκτες γονίδιο (5 κάτω-ρυθμίζονται, δηλαδή, αρνητικό SNR και 5 ρυθμίζεται προς τα πάνω, δηλαδή, θετική SNR) για τον υπότυπο EWS. Οι top 10 γονιδιακοί δείκτες για τους άλλους υπότυπους του όγκου που επιλέγεται ομοίως, δηλαδή, με την εξέταση δύο κατηγορίες κάθε φορά, το ένα που αντιστοιχούν στην κατηγορία του όγκου για την οποία εντοπίζονται οι γονιδιακοί δείκτες, και η άλλη αντιστοιχεί σε όλα τα υπόλοιπα τάξεις του όγκου.

έχει παρατηρηθεί ότι το σύνολο των κορυφαίων 10 γονίδια που επιλέγονται σε διάφορες πίστες του MOGASVM διαφέρει ελαφρώς από ένα τρέξιμο στο άλλο. Έτσι, ενώ την υποβολή των τελικών δεικτών γονίδιο για τα δεδομένα SRBCT, έχουμε αναφερθεί πιο συχνά επιλεγμένα 10 γονίδια σε όλες τις πίστες. Οι συχνότητες των επιλεγμένων γονιδίων έχουν επίσης αναφερθεί. Επιπλέον, το αποτέλεσμα ομαδοποίηση που λαμβάνεται χρησιμοποιώντας τα γονίδια 40 δείκτης για τα δεδομένα SRBCT (10 για κάθε ένα από τα 4 υποτύπους καρκίνου) συγκρίνεται με τα αποτελέσματα συσταδοποίησης που λαμβάνονται χρησιμοποιώντας αρχικά επιλεγεί 200 γονίδια για να δείξει την αποτελεσματικότητα του χρησιμοποιώντας μόνο τα γονίδια-δείκτες για την ομαδοποίηση.

Σύνολα

Σε αυτό το άρθρο, τρεις διαθέσιμες στο κοινό σημείο αναφοράς σύνολα δεδομένων καρκίνου, δηλ.,

SRBCT

,

Ενηλίκων κακοήθεια

και

Εγκέφαλος όγκου

οι σύνολα δεδομένων έχουν χρησιμοποιηθεί για πειράματα. Τα σύνολα δεδομένων που περιγράφονται σε αυτή την ενότητα.

Μικρές Γύρος όγκοι Αιμοσφαίρια (SRBCT).

Τα μικρά στρογγυλά αιμοσφαιρίων όγκους (SRBCT) είναι 4 διαφορετικές όγκους της παιδικής ηλικίας που ονομάστηκε έτσι λόγω της παρόμοιας εμφάνιση τους για ιστολογία ρουτίνας [5]. Ο αριθμός των δειγμάτων είναι 63 και ο συνολικός αριθμός των γονιδίων είναι 2308. Περιλαμβάνουν οικογένεια Ewing των όγκων (EWS) (23 δείγματα), νευροβλάστωμα (ΝΒ) (8 δείγματα), λέμφωμα Burkitt (BL) (12 δείγματα) και ραβδομυοσάρκωμα (RMS ) (20 δείγματα). Αυτό το σύνολο δεδομένων είναι διαθέσιμα στο κοινό σε https://www.ailab.si/supp/bi-cancer/projections/info/SRBCT.htm.

Ενηλίκων κακοήθεια.

Αυτό δεδομένων αποτελείται από 190 δείγματα όγκων, που εκτείνονται σε 14 κοινούς τύπους όγκων σε ολιγονουκλεοτιδικούς μικροσυστοιχιών [6]. Οι 14 τύποι του όγκου είναι: αδενοκαρκινώματος του μαστού (BR) (11 δείγματα), αδενοκαρκίνωμα του προστάτη (PR) (10 δείγματα), αδενοκαρκίνωμα του πνεύμονα (LU) (11 δείγματα), ορθοκολικό αδενοκαρκίνωμα (CR) (11 δείγματα), λέμφωμα (LY) (22 δείγματα), το καρκίνωμα της ουροδόχου κύστης από μεταβατικό επιθήλιο (BL) (10 δείγματα), μελάνωμα (ML) (11 δείγματα), αδενοκαρκίνωμα μήτρας (UT) (10 δείγματα), λευχαιμία (LE) (30 δείγματα), καρκίνωμα νεφρικών κυττάρων (RE ) (11 δείγματα), παγκρεατικό αδενοκαρκίνωμα (ΡΑ) (11 δείγματα), αδενοκαρκίνωμα ωοθηκών (OV) (11 δείγματα), μεσοθηλίωμα υπεζωκότα (ME) (11 δείγματα) και του κεντρικού νευρικού συστήματος (ΚΝΣ) (20 δείγματα). Ο αριθμός των γονιδίων που είναι 1363. Αυτό το σύνολο δεδομένων είναι διαθέσιμη στο κοινό στην ακόλουθη ιστοσελίδα:.. https://algorithmics.molgen.mpg.de/Static/Supplements/CompCancer

Brain Tumor

You must be logged into post a comment.