PLoS One: Χρονική Ταξινόμηση του Καρκίνου μικροσυστοιχιών δεδομένων μέσω ενός Ενισχυτική Μάθηση βασισμένη Approach


Αφηρημένο

Χρονική μοντελοποίηση και ανάλυση και πιο συγκεκριμένα, χρονική διάταξη είναι πολύ σημαντικά προβλήματα στους τομείς της βιοπληροφορικής και της υπολογιστικής βιολογίας, όπως η χρονική ανάλυση των γεγονότων που χαρακτηρίζουν μια ορισμένη βιολογική διαδικασία θα μπορούσε να προσφέρει σημαντικές γνώσεις σχετικά με την ανάπτυξη και την εξέλιξη του. Ιδιαίτερα, στην περίπτωση του καρκίνου, την κατανόηση της δυναμικής και της εξέλιξης της νόσου αυτής μπορεί να οδηγήσει σε καλύτερες μεθόδους για την πρόβλεψη και θεραπεία. Στην εργασία αυτή αντιμετώπιση, από υπολογιστική άποψη, η

χρονική διάταξη

πρόβλημα, το οποίο αναφέρεται στην κατασκευή ενός ταξινομημένη συλλογή των πολυδιάστατων βιολογικά δεδομένα, συλλογή που αντικατοπτρίζει μια ακριβή χρονική εξέλιξη των βιολογικών συστημάτων. Έχουμε εισαγάγει μια νέα προσέγγιση, που βασίζεται στη μάθηση οπλισμού, πιο συγκεκριμένα, στο

Q-learning

, για τη βιολογική χρονική πρόβλημα παραγγελία. Η πειραματική αξιολόγηση διεξάγεται χρησιμοποιώντας διάφορα σύνολα δεδομένων μικροσυστοιχιών DNA, δύο από τα οποία περιέχει δεδομένα έκφρασης του γονιδίου του καρκίνου. Τα λαμβανόμενα διαλύματα συσχετίζονται είτε με τη δεδομένη σωστή παραγγελίας (στις περιπτώσεις όπου αυτό προβλέπεται από την επικύρωση), ή με το συνολικό χρόνο επιβίωσης των ασθενών (στην περίπτωση των συνόλων δεδομένων για τον καρκίνο), επιβεβαιώνοντας έτσι μια καλή απόδοση της προτεινόμενο μοντέλο και επισημαίνοντας τις δυνατότητες της πρότασής μας

Παράθεση:. Czibula G, Bocicor IM, Czibula IG (2013) χρονική διάταξη του Καρκίνου μικροσυστοιχιών δεδομένων μέσω ενός προσέγγιση Ενισχυτική Μάθηση. PLoS ONE 8 (4): e60883. doi: 10.1371 /journal.pone.0060883

Επιμέλεια: Frank Emmert-Streib, Βασιλικό Πανεπιστήμιο του Μπέλφαστ, Ηνωμένο Βασίλειο

Ελήφθη: 25 Δεκ 2012? Αποδεκτές: 4, Μαρτίου, 2013? Δημοσιεύθηκε: 2, Απριλίου 2013

Copyright: © 2013 Czibula et al. Αυτό είναι ένα άρθρο ανοικτής πρόσβασης διανέμεται υπό τους όρους της άδειας χρήσης Creative Commons Attribution, το οποίο επιτρέπει απεριόριστη χρήση, τη διανομή και την αναπαραγωγή σε οποιοδήποτε μέσο, ​​με την προϋπόθεση το αρχικό συγγραφέα και την πηγή πιστώνονται

Χρηματοδότηση:. Αυτό το έργο υποστηρίχθηκε εν μέρει από το τομεακό Επιχειρησιακό πρόγραμμα Ανάπτυξη Ανθρώπινου Δυναμικού 2007-2013, το οποίο συγχρηματοδοτείται από το Ευρωπαϊκό Κοινωνικό Ταμείο, με αριθμό έργου POSDRU /107 /1.5 /S /76841 με τίτλο «Σύγχρονη Διδακτορικές Σπουδές: Διεθνοποίηση και διεπιστημονικότητα» . Οι χρηματοδότες δεν είχε κανένα ρόλο στο σχεδιασμό της μελέτης, τη συλλογή και ανάλυση των δεδομένων, η απόφαση για τη δημοσίευση, ή την προετοιμασία του χειρογράφου

Αντικρουόμενα συμφέροντα:.. Οι συγγραφείς έχουν δηλώσει ότι δεν υπάρχουν ανταγωνιστικά συμφέροντα

Εισαγωγή

Οι πρόοδοι από τις τελευταίες δεκαετίες στον τομέα της βιολογίας έχουν οδηγήσει σε μια εκθετική αύξηση στην ποσότητα των βιολογικών πληροφοριών. Ανάλογα με τον τύπο και το σκοπό των βιολογικών πειραμάτων, τα δεδομένα που συγκεντρώθηκαν μπορεί να διαφέρουν από το νουκλεοτίδιο ή πρωτεΐνη αλληλουχίες, δομές ή λειτουργίες, να μοριακές αλληλεπιδράσεις και μεταβολικές οδούς. Ανάλυση των δεδομένων αποκαλύπτει σημαντικές γνώσεις σχετικά με διαφορετικές βιολογικές διαδικασίες και τελικά οδηγεί σε καλύτερη κατανόηση των ζωντανών οργανισμών.

Οι βιολογικές διαδικασίες είναι ως επί το πλείστον δυναμική και ως εκ τούτου, προκειμένου να τις χαρακτηρίζουν με ακρίβεια, οι επιστήμονες χρειάζονται δυναμικές πληροφορίες. Ωστόσο, τα περισσότερα υπάρχοντα δεδομένα είναι στατική, επειδή είναι συχνά πιο δύσκολο και προκλητικό να ακολουθήσουν μια συγκεκριμένη διαδικασία στην πλήρη ανάπτυξή του. Για παράδειγμα, στην περίπτωση μιας ασθένειας, σε ορισμένες περιπτώσεις, είναι δυνατόν μόνο για την εξαγωγή δεδομένων από μια τρέχουσα ομάδα ασθενών, και όχι ακολουθώντας τις ίδιες ασθενείς άνω πλήρη πορεία της νόσου. Ως εκ τούτου, η ανάγκη να εξαγάγετε δυναμικές πληροφορίες από εμφανίζεται στατικά δεδομένα και ένας πιθανός τρόπος επίτευξης αυτού του στόχου θα ήταν να συμπεράνουμε χρονική orderings σε αυτά τα δεδομένα.

Στην εργασία αυτή αντιμετώπιση, από υπολογιστική άποψη, η βιολογική

χρονική διάταξη (νΑ) πρόβλημα

, το οποίο αναφέρεται στην κατασκευή ενός ταξινομημένη συλλογή των πολυδιάστατων βιολογικά δεδομένα, συλλογή που αντικατοπτρίζει μια ακριβή χρονική εξέλιξη μιας συγκεκριμένης βιολογικής διαδικασίας. Η κυτταρική διαίρεση και ανάπτυξη, την εξέλιξη, κυτταρική γραμμή, το μεταβολισμό, ή, πιο συγκεκριμένα, ορισμένες κατηγορίες ασθενειών (όπως ο καρκίνος) είναι μόνο μερικά παραδείγματα τέτοιων δυναμικών βιολογικών διεργασιών. Τα πολυδιάστατα δεδομένα εισόδου μπορεί να είναι το αποτέλεσμα των διαφόρων βιολογικών πειραμάτων: η έκφραση της πρωτεΐνης, μικροσυστοιχίες DNA, SNP συστοιχίες, αριθμός χρωμοσωμικό αντίγραφο μεταβολές, συγκριτικά υβριδοποίησης γονιδιώματος. Σε αυτή την εργασία, θα περιορίσει την εξέταση σύνολα δεδομένων που αποτελείται από δείγματα που προέρχονται από πειράματα γονιδιακής έκφρασης μικροσυστοιχιών.

Το

χρονική πρόβλημα παραγγελία

απευθύνεται το παρόν έγγραφο θα καθοριστούν στην επόμενη, και η σημασία του προβλήματος θα δοθεί έμφαση. Είμαστε επίσης παρόντες διάφορες σχετικές προσεγγίσεις για την επίλυση του προβλήματος ΝΑ ήδη υπάρχουσες στη βιβλιογραφία.

Η δήλωση του προβλήματος και συνάφεια

Χρονική μοντελοποίηση και ανάλυση και πιο συγκεκριμένα, χρονική διάταξη είναι μια σημαντική κατεύθυνση της έρευνας μέσα σε πολλαπλά πεδία. Από την άποψη της μηχανικής μάθησης, σε πολλές περιπτώσεις, την παραγγελία ένα δεδομένο σύνολο δεδομένων των περιπτώσεων στο χρόνο παρέχει περισσότερες σημαντικές πληροφορίες από την ανάθεση τους σε ορισμένα μαθήματα. Ως εκ τούτου, το γενικό πρόβλημα της χρονικής παραγγελίας είναι συγκρίσιμα, καθώς σημασία, στο πρόβλημα ταξινόμησης [1].

Εντός των βιοπληροφορικής και της υπολογιστικής βιολογίας πλαίσιο, η χρονική πρόβλημα παραγγελίας μπορεί να εκφραστεί με διάφορες μορφές. Ένας ορισμός αυτού του προβλήματος αναφέρεται στον καθορισμό και την περιγραφή την ακολουθία των γεγονότων που χαρακτηρίζουν μια βιολογική διαδικασία. Εάν η εν λόγω διαδικασία είναι ο καρκίνος, για παράδειγμα, ο στόχος είναι να βρεθεί μια χρονική σειρά για τις γενετικές και μονοπάτι αλλοιώσεις που λαμβάνουν χώρα κατά τη γένεση και την εξέλιξη της ασθένειας αυτής. Είναι γνωστό ότι οι περισσότεροι όγκοι αναπτύσσουν λόγω της δυσλειτουργίας των πολύπλοκων δικτύων σηματοδότησης, η οποία είναι το αποτέλεσμα μεταλλάξεων που εμφανίζονται σε ορισμένα βασικά γονίδια (ογκογονίδια ή γονίδια καταστολής όγκων) [2]. Ως εκ τούτου, μελετώντας την σειρά με την οποία αυτές οι μεταλλάξεις συμβαίνουν θα μπορούσε να οδηγήσει σε καλύτερη κατανόηση της εξέλιξης του καρκίνου. Υπάρχουν αρκετές εργασίες στη βιβλιογραφία που προσεγγίζουν τη χρονική πρόβλημα παραγγελίας, όπως περιγράφηκε παραπάνω και αυτά θα παρουσιαστούν στην ακόλουθη ενότητα.

Η χρονική πρόβλημα παραγγελίας μπορούν επίσης να διαμορφωθούν ως το πρόβλημα της κατασκευής ενός ταξινομημένη συλλογή πολυδιάστατη βιολογικά δεδομένα, η συλλογή που αντανακλά μια ακριβή χρονική εξέλιξη μιας συγκεκριμένης βιολογικής διαδικασίας. Ο τελικός στόχος είναι να βρεθούν ορισμένα μοτίβα στα δεδομένα εισόδου που μεταβάλλεται με την πάροδο του χρόνου και τα χρησιμοποιούν αποτελεσματικά προκειμένου να είναι σε θέση να προσφέρει μια σωστή χαρακτηρισμός της διαδικασίας αυτών. Σε ό, τι αφορά αυτή την κατεύθυνση σπουδών, υπάρχουν κυρίως δύο έργα που έχουν προσεγγίσει αυτό το πρόβλημα και αυτοί θα συζητηθεί επίσης στην ακόλουθη ενότητα. Σας αναφέρουμε ότι θα αντιμετωπίσουμε τη χρονική πρόβλημα παραγγελίας, που διατυπώθηκε σε αυτό το δεύτερο τρόπο.

Ένα από τα πιο σημαντικά εφαρμογές αυτού του προβλήματος είναι μέσα στο πεδίο της έρευνας για τον καρκίνο. Η πλειοψηφία των πειραμάτων ανθρώπινων καρκινικών παρέχουν στοιχεία χωρίς χρονικές πληροφορίες, γιατί συχνά είναι πολύ δύσκολο, αν όχι αδύνατο, να ακολουθούν τις ίδιες ασθενείς πάνω από την πλήρη ανάπτυξη της νόσου. Αντ ‘αυτού, τα πειραματικά δείγματα που συλλέγονται από την τρέχουσα πισίνες ασθενών, των οποίων οι νόσοι είναι σε διαφορετικά στάδια εξέλιξης και, κατά συνέπεια, κάθε δείγμα αντανακλά ένα διαφορετικό βαθμό της εξέλιξης του καρκίνου. Η κατασκευή ενός σωστού χρονική σειρά από αυτά τα δείγματα θα μπορούσαν, από τη μία πλευρά, παρέχουν σημαντικές πληροφορίες σχετικά με τη σύνθετη διαδικασία της εξέλιξης του καρκίνου. Από την άλλη πλευρά, η χρονική σειρά θα μπορούσε να χρησιμοποιηθεί για την πρόβλεψη του χρόνου επιβίωσης των νεοδιαγνωσθέντες ασθενείς: υποθέτοντας ότι για τους ασθενείς στα δεδομένα αρχικές εισόδου που χρόνοι επιβίωσης θα παρέχονται, όταν νέα ασθενείς, με άγνωστο χρόνους επιβίωσης προστέθηκε σε το σύνολο δεδομένων, η ανάκτηση χρονική σειρά για το σύνολο των δειγμάτων (συμπεριλαμβανομένων των νέων που προστίθενται) θα μπορούσε να προσφέρει πληροφορίες σχετικά με τα συνολικά προσδόκιμο ζωής των νέων ασθενών.

Λογοτεχνία

για

η γενική νΑ πρόβλημα είναι γνωστό ότι είναι NP-complete [1], πράγμα που σημαίνει ότι ακριβείς λύσεις είναι πολύ δύσκολο να αποκτηθούν και κατά συνέπεια έχουν διάφορες ευρετικές μέθοδοι έχουν εφαρμοστεί για την επίλυσή του. Το γενικό πρόβλημα έχει ως επί το πλείστον έχουν προσεγγιστεί από τους ερευνητές της τεχνητής νοημοσύνης κοινότητας (μηχανική μάθηση, εξόρυξη δεδομένων) [1], [3]. Εντός του τομέα εξόρυξης δεδομένων, υπάρχουν πολλές μελέτες που εξάγουν χρονικές πληροφορίες από διάφορα είδη κειμένων (γενική, ιατρική, άρθρα εφημερίδων) [4] – [7]. Άλλες εφαρμογές περιλαμβάνουν τη διαλογή φωτογραφίες των πόλεων, προκειμένου να παρατηρήσουν την ανάπτυξη τους με την πάροδο του χρόνου [8] ή την κατασκευή αρχαιολογικού χρονολογίες από διάφορα αντικείμενα [9].

Από την άποψη της βιοπληροφορικής και της υπολογιστικής βιολογίας, διαφορετικές μορφές του TO πρόβλημα έχουν μελετηθεί και ένας σημαντικός αριθμός ερευνών επικεντρωθεί σε διάφορες μορφές καρκίνου. Λόγω του γεγονότος ότι αυτή η ασθένεια είναι μια εξελικτική διαδικασία, η οποία οδηγείται από μεταλλάξεις και μεταβολές της συμπεριφοράς των κυττάρων [10], μια σημαντική γραμμή εργασία ασχολείται με την ανάπτυξη μοντέλων και συνάγοντας χρονική εντολές για να περιγράψει τις αλλαγές στα καρκινικά κύτταρα του DNA, καθώς και καθορίσει τη σειρά με την οποία τα γεγονότα μετάλλαξη γονιδίων και παραλλαγές μονοπάτι συμβεί κατά τη διάρκεια της εξέλιξης του καρκίνου.

Πολλά πιθανοτικά μοντέλα έχουν προταθεί για να ανακτήσετε τη χρονική και casual σειρά με την οποία οι μεταλλάξεις συμβαίνουν στο επίπεδο των γονιδίων και μονοπατιών , κατά τη διάρκεια της εξέλιξης του καρκίνου [10] – [12]. Στο έργο του Hjelm

et al.

[11], ο στόχος είναι να μελετήσει χρωμοσωμικές εξέλιξη στα καρκινικά κύτταρα με την εισαγωγή και τη χρήση γραφικών παραγωγική πιθανοτικά μοντέλα. Gerstung

et al.

[10] προτείνουν ένα πιθανοτικό μοντέλο που βασίζεται στη Bayesian δίκτυα, πιο συγκεκριμένα σε μια κατηγορία των γραφικών μοντέλων που ονομάζεται Hidden Συνδυαστική Bayesian Networks (H-CBNs), τα οποία είχαν προηγουμένως πρότεινε να μελετήσει τη συσσώρευση των μεταλλάξεις και τις αλληλεξαρτήσεις τους στην εξέλιξη του καρκίνου [12]. Οι δοκιμές έγιναν σε σύνολα δεδομένων που περιέχουν δεδομένα μετάλλαξη διατομής που ανήκουν σε διαφορετικούς τύπους καρκίνου (παχέος εντέρου, του παγκρέατος και του πρωτογενούς γλοιοβλάστωμα) και τα συμπεράσματα είναι ότι αυτές H-CBNs παρέχει μια διαισθητική μοντέλο της ογκογένεσης [10].

Μία διαφορετική προσέγγιση στο πρόβλημα αυτό βασίζεται στη Builduing μοντέλα δέντρο των πιθανών γεγονότων γονιδιακής μετάλλαξης [13] – [17]. Desper

et al.

[13], [14] προτείνουν ένα μοντέλο δέντρο για ογκογένεση και με τη χρήση συγκριτικών δεδομένων υβριδοποίησης γονιδιώματος δείχνουν ότι, υπό ορισμένες προϋποθέσεις, ο αλγόριθμος τους συνάγει το σωστό δέντρο των εκδηλώσεων (όταν ένα συμβάν θεωρείται ως μια απώλεια ή το κέρδος σε μια ορισμένη βραχίονα χρωμόσωμα). Η προσέγγισή τους βασίζεται στην ιδέα ενός μέγιστου βάρους διακλάδωσης σε ένα γράφημα. Αυτή η προτεινόμενη μεθοδολογία αναπτύχθηκε περαιτέρω από Beerenwinkel

et al.

, Της οποίας το μοντέλο περιλαμβάνει πολλαπλές ογκογένεση δέντρα, που αντιστοιχούν σε πολλαπλές χρονικές ακολουθίες των γεγονότων που μπορεί να οδηγήσει σε καρκίνο [15], [16]. Pathare

et al

[17] αναλύει τον καρκίνο του στόματος εξέλιξη χρησιμοποιώντας και τα δύο μοντέλα:.. Τα δέντρα απόσταση που εισήγαγε Desper

et al

[14] και το μείγμα της ογκογένεση δέντρα που εισήγαγε Beerenwinkel

et al.

[15], [16].

Μαθηματική προσεγγίσεις έχουν επίσης προταθεί για την αντιμετώπιση του προβλήματος του προσδιορισμού της χρονικής ακολουθίας των μεταλλάξεων που οδηγούν στην εξέλιξη του καρκίνου [18], [19]. Attolini

et al.

[18] εισάγει μια εξελικτική μαθηματική προσέγγιση που ονομάζεται Ανιχνεύοντας τα εξελικτικά βήματα στον Καρκίνο (RESIC), προκειμένου να προσδιοριστεί η χρονική σειρά των γονιδιακών μεταλλάξεων στην ανάπτυξη του καρκίνου και θα το δοκιμάσουν σε διάφορες καρκίνο του παχέος εντέρου , γλοιοβλάστωμα και σύνολα δεδομένων λευχαιμία. Η μέθοδος αυτή αναπτύχθηκε περαιτέρω στο [19], προκειμένου να ενσωματώσει, εκτός από γενετικές αλλαγές, τροποποιήσεις των οδών μοριακή σήμανση με την οποία ο καρκίνος εξελίσσεται.

Μια άλλη σημαντική ερευνητική κατεύθυνση εστιάζει σε μια διαφορετική διατύπωση της ΝΑ πρόβλημα. Μέσα σε αυτή τη γραμμή της εργασίας, το πρόβλημα είναι να κατασκευάσει ένα ταξινομημένο συλλογή των πολυδιάστατων βιολογικά δεδομένα που αντικατοπτρίζει μια ακριβή χρονική εξέλιξη της βιολογικής διαδικασίας. Έχουμε την αντιμετώπιση του προβλήματος ΝΑ από τη σκοπιά αυτού του δεύτερου ορισμού. Για τις γνώσεις μας, υπάρχουν κυρίως δύο έργα που προσεγγίζουν το biologiocal ΝΑ πρόβλημα, όπως διατυπώθηκε παραπάνω, οι δύο από αυτούς που χρησιμοποιούν τα δεδομένα γονιδιακής έκφρασης που λαμβάνονται από τα πειράματα μικροσυστοιχιών. Αυτά θα παρουσιαστούν συνοπτικά στον ακόλουθο.

Η πρώτη τεχνική, η οποία χρησιμοποιεί δεδομένα γονιδιακής έκφρασης του καρκίνου, εισάγεται από Gupta and Bar-Joseph [20]. Οι συγγραφείς αποδεικνύουν επισήμως ότι, υπό ορισμένες βιολογικές παραδοχές για το σύνολο των δεδομένων εισόδου, η μοναδική λύση του προβλήματος του πλανόδιου πωλητή (TSP) αντιπροσωπεύει τη σωστή χρονική διάταξη, με υψηλή πιθανότητα. Η TSP ορίζεται χρησιμοποιώντας τα δείγματα που συνθέτουν τα δεδομένα εισόδου έχουν τεθεί, οι οποίες χαρακτηρίζονται από δεδομένα γονιδιακής έκφρασης πολυδιάστατη, ως κορυφές και οι αποστάσεις μεταξύ τους υπολογίζεται με τη χρήση του Manhattan () μετρική. Η μέθοδος εφαρμόζεται σε ένα σύνολο δεδομένων των 50 ασθενών γλοίωμα και τα αποτελέσματα δείχνουν μία καλή συσχέτιση με την επιβίωση διάρκεια των ασθενών. Επιπλέον, ένας ταξινομητής που χρησιμοποιεί το λαμβανόμενο παραγγελία ορίζεται, η οποία αποδεικνύεται να έχει υψηλές επιδόσεις άλλων ταξινομητές που αναπτύχθηκε για την υπό εξέταση έργο και τα βασικά γονίδια που σχετίζονται με τον καρκίνο έχουν εντοπιστεί.

Η δεύτερη μελέτη που προσεγγίζει αυτή τη μορφή της βιολογικής ΝΑ πρόβλημα εισάγεται από Magwene

et al.

[21] και η προτεινόμενη μέθοδος βασίζεται στην ελάχιστο γεννητικό δέντρο και PQ-δέντρα. Το ελάχιστο που εκτείνονται σε αλγόριθμος δέντρο εφαρμόζεται σε σταθμισμένο, μη-κατευθυνόμενο γράφημα, όπου κάθε κόμβος αντιπροσωπεύεται από μία παρουσία του συνόλου δεδομένων, αντιπροσωπεύεται από τα δεδομένα πολυδιάστατη μικροσυστοιχιών. Η αποτελεσματικότητα αυτής της μεθόδου αποδεικνύεται από τη δοκιμή των αλγορίθμων σε τεχνητά σύνολα δεδομένων, καθώς και για χρονοσειρές συνόλων δεδομένων γονιδιακής έκφρασης που προέρχεται από τα πειράματα μικροσυστοιχιών DNA.

Η κύρια συνεισφορά αυτής της εργασίας είναι ότι εισάγει ένα νέα προσέγγιση για την νΑ πρόβλημα, που διατυπώθηκε ως το πρόβλημα της κατασκευής ενός ταξινομημένη συλλογή πολυδιάστατη βιολογικά δείγματα, που βασίζεται στη μάθηση οπλισμού. Ενίσχυση της μάθησης [22] είναι μια προσέγγιση για την νοημοσύνη των μηχανών στις οποίες ένας παράγοντας [23] μπορούν να μάθουν να συμπεριφέρονται με ένα συγκεκριμένο τρόπο από την παραλαβή τιμωρίες ή ανταμοιβές για επέλεξαν τις δράσεις της. Για το καλύτερο της γνώσης μας, η ΝΑ πρόβλημα δεν έχει αντιμετωπιστεί στη βιβλιογραφία χρησιμοποιώντας μάθησης ενίσχυση, μέχρι στιγμής. Αρκετά πειράματα που έγιναν σε διαφορετικά σύνολα δεδομένων μικροσυστοιχιών DNA δείχνουν ότι η προτεινόμενη ενίσχυση της μάθησης προσέγγιση που βασίζεται επιτυχία προσδιορίζει την ακριβή χρονική orderings των δεδομένων βιολογικών δειγμάτων.

Μέθοδοι

Στην ενότητα αυτή εισάγουμε οπλισμού μας μάθησης με βάση πρόταση για την αναγνώριση ενός χρονική διάταξη μιας σειράς βιολογικών δειγμάτων. Ακόμα κι αν σε αυτή τη μελέτη θα περιορίσει σε δεδομένα γονιδιακής έκφρασης που λαμβάνονται από τα πειράματα μικροσυστοιχιών, η δυνατότητα εφαρμογής της μεθόδου μας είναι πιο γενική και μπορεί να χρησιμοποιηθεί με διαφορετικούς τύπους των πολυδιάστατων βιολογικά δεδομένα.

Ξεκινάμε με την παρουσίαση του βασικές αρχές του

ενίσχυση της μάθησης

, τότε λεπτομερώς την προσέγγισή μας.

Ενισχυτική μάθηση. Ιστορικό

Ο στόχος των συστημάτων κτιρίου που μπορεί να προσαρμόζεται σε περιβάλλον τους και μαθαίνουν από τις εμπειρίες τους έχει προσελκύσει ερευνητές από πολλούς τομείς, συμπεριλαμβανομένης της επιστήμης των υπολογιστών, τα μαθηματικά, τις γνωστικές επιστήμες [22].

Ενισχυτική Μάθηση

(RL) [24] είναι μια προσέγγιση για την νοημοσύνη μηχανή που συνδυάζει δύο κλάδους να λύσει με επιτυχία τα προβλήματα που ούτε η πειθαρχία μπορεί να αντιμετωπίσει μεμονωμένα:

Δυναμικός προγραμματισμός

και

Εποπτευόμενοι μάθηση

. Στο μηχανικής μάθησης λογοτεχνία, RL θεωρείται ότι είναι το πιο αξιόπιστο είδος της μάθησης, καθώς είναι η πιο παρόμοια με την ανθρώπινη μάθηση.

Ενίσχυση της μάθησης ασχολείται με το πρόβλημα του πώς ένα αυτόνομο παράγοντα που αντιλαμβάνεται και πράξεις το περιβάλλον του μπορεί να μάθει να επιλέξουν τη βέλτιστη δράσεις για την επίτευξη των στόχων του [25]. Το πεδίο

ευφυείς πράκτορες

[26] αποτελεί ένα σημαντικό τομέα έρευνας και ανάπτυξης στον τομέα της τεχνητής νοημοσύνης, παράγοντες που εξετάζονται νέο σημαντικό μέσο στην σύλληψη και την εφαρμογή των πολύπλοκων συστημάτων λογισμικού. Ένας πράκτορας είναι μια υπολογιστική οντότητα όπως ένα σύστημα λογισμικού ή ένα ρομπότ, που βρίσκεται σε μια ορισμένη environnment, που είναι σε θέση να αντιληφθεί και να ενεργούν σύμφωνα με το περιβάλλον του και είναι σε θέση να ενεργούν autonoumously προκειμένου να επιτευχθούν οι στόχοι του σχεδιασμού του. Οι παράγοντες που δρουν για λογαριασμό των χρηστών, είναι

ευέλικτη

[27], που σημαίνει ότι είναι

αντιδραστική

(θέση να ανταποκριθεί στις αλλαγές που συμβαίνουν στο περιβάλλον τους),

προορατικό

(θέση να επιδεικνύουν στόχος κατευθύνεται συμπεριφορά) και έχουν επίσης μια

κοινωνική ικανότητα

(είναι ικανά να αλληλεπιδρούν με άλλους παράγοντες).

Ενισχυτική μάθηση είναι χρήσιμη σε πολλά πρακτικά προβλήματα, όπως η εκμάθηση για τον έλεγχο αυτόνομου ρομπότ [28], μαθαίνοντας για τη βελτιστοποίηση operatons σε εργοστάσια ή να μάθουν να παίζουν επιτραπέζια παιχνίδια. Σε όλα αυτά τα προβλήματα, ένα τεχνητό μέσο πρέπει να μάθει (με ενίσχυση) για να επιλέξετε τη βέλτιστη ενέργειες προκειμένου να επιτύχει τους στόχους της.

Σε μαθησιακές σενάριο οπλισμού, το σύστημα εκμάθησης επιλέγει ενέργειες για την εκτέλεση στο περιβάλλον και λαμβάνει

ανταμοιβές

ενισχύσεις

) με τη μορφή αριθμητικών τιμών που αντιπροσωπεύουν μια αξιολόγηση των επιλεγμένων δράσεων [29]. Σε RL, ο υπολογιστής είναι απλά δίνεται ένα γκολ για να επιτευχθεί. Ο υπολογιστής τότε μαθαίνει πώς να επιτευχθεί ο στόχος από τις αλληλεπιδράσεις δοκιμής και λάθους με το περιβάλλον του. Ενισχυτική μάθηση είναι η μάθηση τι πρέπει να κάνουμε – πώς να χαρτογραφήσει τις καταστάσεις με τις δράσεις – έτσι ώστε να μεγιστοποιηθεί η αριθμητική ανταμοιβή. Ο μαθητής δεν μπορεί να γνωρίζει ποια μέτρα να ληφθούν, όπως και στις περισσότερες μορφές της μηχανικής μάθησης, αλλά, αντίθετα, πρέπει να ανακαλύψει ποιες ενέργειες δώσει την υψηλότερη ανταμοιβή από την προσπάθεια τους. Σε ένα πρόβλημα μάθησης οπλισμού, ο πράκτορας λαμβάνει την ανταμοιβή ως ανάδραση από το περιβάλλον? η ανταμοιβή λαμβάνεται στο τέλος, σε ένα τερματικό κατάσταση, ή σε οποιοδήποτε άλλο κράτος, όταν ο αντιπρόσωπος έχει σωστές πληροφορίες σχετικά με το τι έκανε καλά ή λάθος. Ο πράκτορας θα μάθουν να επιλέξετε ενέργειες που μεγιστοποιούν τη λάβει ανταμοιβή.

Ο στόχος του πράκτορα, σε ένα έργο RL είναι να μεγιστοποιήσει το άθροισμα των οπλισμών που έλαβε κατά την εκκίνηση από κάποια αρχική κατάσταση και προχωρώντας σε ένα τερματικό κατάσταση.

Ένα εκμάθηση πρόβλημα οπλισμού έχει τρεις θεμελιώδεις μέρη [22].

Το περιβάλλον

εκπροσωπείται από «κράτη». Από τις αλληλεπιδράσεις με το περιβάλλον, ένα σύστημα RL θα μάθουν μια συνάρτηση που αντιστοιχίζει τα κράτη να δράσεις.

Η λειτουργία ενίσχυσης

. Ο στόχος του συστήματος μάθησης ενίσχυσης ορίζεται με βάση την έννοια της συνάρτησης ενίσχυση, η οποία είναι η λειτουργία των ενισχύσεων ο πράκτορας προσπαθεί να μεγιστοποιήσει. Αυτή η λειτουργία χάρτες ζεύγη κρατική δράση για ενισχύσεις. Μετά από μια ενέργεια πραγματοποιείται σε ένα συγκεκριμένο κράτος, ο πράκτορας θα λάβει την αξιολόγηση της δράσης σε μια μορφή ανταμοιβής βαθμωτό μέγεθος. Ο πράκτορας θα μάθει να εκτελεί αυτές τις ενέργειες που θα μεγιστοποιήσει το συνολικό ποσό της αμοιβής που έλαβε σε ένα μονοπάτι από την αρχική κατάσταση σε μια τελική κατάσταση [30].

Η αξία (βοηθητικό) λειτουργία

είναι μια χαρτογράφηση από τα κράτη στην κρατική τιμές. Η αξία ενός κράτους δηλώνει την επιθυμία του κράτους και ορίζεται ως το άθροισμα των ανταμοιβών που λαμβάνονται σε μια πορεία από αυτή την κατάσταση σε μια τελική κατάσταση. Ο πράκτορας θα μάθουν να επιλέξετε τις ενέργειες που οδηγούν σε καταστάσεις που έχουν μέγιστη χρησιμότητα [30]

Μια γενική αποστολή RL χαρακτηρίζεται από τέσσερα στοιχεία:.

ένα

στο χώρο κατάστασης

που προσδιορίζει όλες τις πιθανές διαμορφώσεις του συστήματος?

μια

χώρο δράσης

που απαριθμεί όλες τις διαθέσιμες ενέργειες για τον παράγοντα της μάθησης για να εκτελέσει?

ένα

λειτουργία μετάβασης

που καθορίζει την ενδεχομένως στοχαστικών αποτελεσμάτων της, λαμβάνοντας κάθε δράση σε κάθε κράτος?.

ένα

λειτουργία ανταμοιβή

που καθορίζει την πιθανή ανταμοιβή της λήψης κάθε μία από τις δράσεις

η

σε κάθε χρονικό βήμα, το σύστημα εκμάθησης λαμβάνει κάποια αναπαράσταση της κατάστασης του περιβάλλοντος, χρειάζεται μια ενέργεια και ένα βήμα αργότερα, λαμβάνει ένα βαθμωτό ανταμοιβή και βρίσκεται σε μια νέα κατάσταση. Οι δύο βασικές έννοιες πίσω από μάθησης ενίσχυση είναι δοκιμής και λάθους, αναζήτησης και καθυστέρησε την ανταμοιβή [31]. καθήκον του πράκτορα είναι να μάθει μια πολιτική ελέγχου, ότι μεγιστοποιεί το αναμενόμενο ποσό των ληφθέντων ανταμοιβές, με τις μελλοντικές ανταμοιβές έκπτωση εκθετικά με την καθυστέρηση τους, όπου ορίζεται ως (είναι ο συντελεστής προεξόφλησης των μελλοντικών ανταμοιβές).

Μια σημαντική πτυχή της μάθησης ενίσχυση είναι η

εξερεύνηση

. Ο πράκτορας πρέπει να είναι σε θέση να εξερευνήσουν το περιβάλλον του, δοκιμάζοντας νέες δράσεις (ίσως όχι τα βέλτιστα αυτά) που μπορεί να οδηγήσει σε καλύτερο μέλλον επιλογές δράσης [32]

Υπάρχουν δύο βασικά σχέδια RL για να εξετάσει:.

Ο πράκτορας μαθαίνει ένα

συνάρτηση χρησιμότητας

(

U

) για τα κράτη (ή κράτη ιστορίες) και το χρησιμοποιεί για να επιλέξετε ενέργειες που μεγιστοποιούν την αναμενόμενη χρησιμότητα των αποτελεσμάτων τους.

Ο πράκτορας μαθαίνει ένα

λειτουργία δράση αξίας

(

Q

) δίνοντας την αναμενόμενη χρησιμότητα της λήψης ενός συγκεκριμένου δράσης σε μία δεδομένη κατάσταση. Αυτό ονομάζεται

Q-learning

.

Η

Ένας παράγοντας που μαθαίνει λειτουργίες χρησιμότητας [33] πρέπει να έχει ένα μοντέλο του περιβάλλοντος, προκειμένου να λαμβάνει αποφάσεις, δεδομένου ότι πρέπει να γνωρίζουμε το μέλη, τα οποία θα οδηγήσει τη δράση της. Σε μια

Q-learning

σενάριο, στο οποίο ο πράκτορας μαθαίνει μία λειτουργία δράση αξίας, δεν υπάρχει καμία ανάγκη να έχουμε ένα μοντέλο του περιβάλλοντος.

Η προσέγγισή μας. Μεθοδολογία

Ας εξετάσουμε, στη συνέχεια, ότι είναι το σύνολο των δεδομένων εισόδου, που αποτελείται από () δείγματα πολυδιάστατη: κάθε δείγμα πρέπει να προσδιορίζονται από ένα σύνολο χαρακτηριστικών. Για την υπό εξέταση είδος των δεδομένων, κάθε χαρακτηριστικό παριστάνεται από ένα γονίδιο και έχει σαν τιμή έναν πραγματικό αριθμό, τη μέτρηση του επιπέδου έκφρασης του γονιδίου σε ερώτηση. . Ως εκ τούτου, κάθε δείγμα μπορεί να κωδικοποιείται από ένα διάστατο διάνυσμα, όπου είναι το επίπεδο έκφρασης του γονιδίου για το δείγμα

Η προσέγγισή μας αποτελείται από δύο βήματα:

1. Προ-επεξεργασία δεδομένων.

2.

RL

σχεδιασμό καθήκον.

Η

Στο παρακάτω θα περιγράψουμε αυτά τα βήματα.

Δεδομένα προ-επεξεργασίας.

Οι μικροσυστοιχίες DNA επιτρέπουν τη μέτρηση της χιλιάδες επίπεδα γονιδιακής έκφρασης για κάθε δείγμα, έτσι η διάσταση των δεδομένων εισόδου μπορεί να είναι εξαιρετικά υψηλή. Εκτός από το γεγονός ότι αυτό θα μπορούσε να οδηγήσει σε αναποτελεσματικότητα στην υπολογιστική χρόνο και στο χώρο, στις περισσότερες περιπτώσεις, πολλά γονίδια μπορεί να είναι άνευ σημασίας για το έργο παραγγελίας και μπορεί ακόμη και να αυξήσει την ποσότητα του θορύβου στα δεδομένα, που οδηγεί σε μείωση της απόδοσης του κροταφικού σύστημα παραγγελία. Ως εκ τούτου, ο στόχος του σταδίου προ-επεξεργασίας είναι η εξάλειψη των γονιδίων που προσφέρουν σημαντική πληροφορία, ή, ισοδύναμα, την επιλογή εκείνων των γονιδίων που είναι πιο σημαντικό για την ακριβή χρονική διάταξη.

Ως τελικό στόχος συνίσταται στην ανάλυση και χρονικά παραγγελία σύνολα δεδομένων που περιλαμβάνει δείγματα που προέρχονται από ασθενείς με καρκίνο, στη συνέχεια, περιγράφουμε μια μέθοδο προ-επεξεργασίας που στοχεύουν αυτά τα συγκεκριμένα είδη των συνόλων δεδομένων. Τέτοια σύνολα δεδομένων προσφέρουν συνήθως μια σειρά από πληροφορίες για κάθε δείγμα, εκτός από την πραγματική φορείς έκφρασης γονιδίου. Ένα από αυτά τα επιπλέον κομμάτια των πληροφοριών που βρίσκονται τακτικά σε σύνολα δεδομένων του καρκίνου είναι η συνολική επιβίωση, που σημαίνει ότι ο χρόνος επιβίωσης των ασθενών, από τη στιγμή κατά την οποία ελήφθησαν τα δείγματα. Ξεκινώντας από την διαίσθηση που, στη γενική περίπτωση, δύο ασθενείς που έχουν παρόμοιους χρόνους επιβίωσης ήταν επίσης σχετικά κοντά μέσα στην χρονική διάταξη, αποφασίσαμε να χρησιμοποιήσουμε αυτό το κομμάτι των πληροφοριών για τον εντοπισμό ένα υποσύνολο των γονιδίων που είναι σημαντικές για την εργασία παραγγελία.

κατά τη διάρκεια του σταδίου προ-επεξεργασίας, μια στατιστική ανάλυση διεξάγεται σχετικά με τα δεδομένα που για να βρει ένα υποσύνολο των χαρακτηριστικών (γονιδίων) που έχουν σημασία για την υπό εξέταση έργο. Η στατιστική ανάλυση των χαρακτηριστικών γίνεται με σκοπό την μείωση των διαστάσεων των δεδομένων εισόδου, με την εξάλειψη χαρακτηριστικά που δεν συσχετίζονται με το επιλεγμένο επιπλέον βιολογικές πληροφορίες για το δεδομένο σύνολο δεδομένων. Πιο συγκεκριμένα στοχεύουμε στον εντοπισμό γονιδίων που δεν επηρεάζουν σημαντικά τη χρονική ταύτιση παραγγελίας.

Για να προσδιορίσετε τις εξαρτήσεις μεταξύ των χαρακτηριστικών και του παρέχονται πρόσθετες βιολογικές πληροφορίες, χρησιμοποιείται ο συντελεστής συσχέτισης Pearson [34]. Η συσχέτιση Pearson είναι ένα στατιστικό μέτρο της γραμμικής συσχέτισης μεταξύ δύο τυχαίων μεταβλητών που δείχνει πώς συσχετίζονται σε μεγάλο βαθμό είναι οι μεταβλητές. Ένα Pearson συσχέτιση μεταξύ δύο μεταβλητών και υποδεικνύει ότι δεν υπάρχει γραμμική σχέση μεταξύ των μεταβλητών. Ένα Pearson συσχέτιση του ή ως αποτέλεσμα, όταν οι δύο μεταβλητές που συγκρίνονται είναι γραμμικά μονοτονικά σχετίζονται. Μια συσχέτιση Pearson [35] του συνεπάγεται ότι μια γραμμική εξίσωση περιγράφει τη σχέση μεταξύ και, με όλα τα σημεία δεδομένων που βρίσκονται σε μια γραμμή για την οποία αυξάνεται όσο αυξάνεται. Μια συσχέτιση σημαίνει ότι όλα τα σημεία δεδομένων βρίσκονται σε μια γραμμή για την οποία μειώνεται όσο αυξάνεται.

Όπως προαναφέρθηκε, ο στόχος αυτού του βήματος είναι να αφαιρέσετε από τη λειτουργία που αυτά τα χαρακτηριστικά (τα γονίδια), η οποία είναι πολύ μικρή συσχέτιση με το επιλεγμένο συμπληρωματικές βιολογικές πληροφορίες (που είναι, στην περίπτωση των συνόλων δεδομένων του καρκίνου, ο χρόνος επιβίωσης). Κατά συνέπεια, υπολογίζουμε τον συντελεστή συσχέτισης Pearson μεταξύ κάθε γονιδίου και του χρόνου επιβίωσης και κρατάμε μόνο εκείνα τα γονίδια τα οποία έχουν την απόλυτη τιμή της συσχέτισης μεγαλύτερο από ένα ορισμένο όριο (επιλέγεται έτσι ώστε να εξασφαλίζεται μια ριζική μείωση του διάστασης).

το προτεινόμενο

RL

καθήκον για την νΑ πρόβλημα.

Όπως προαναφέρθηκε, η νΑ πρόβλημα συνίσταται στον καθορισμό μια ακριβή χρονική διάταξη των δειγμάτων εισόδου, η οποία θα αντανακλά την χρονική εξέλιξη και την ανάπτυξη ενός ορισμένου δυναμικών βιολογική διαδικασία (π.χ. καρκίνος). Από υπολογιστική άποψη, το πρόβλημα που πρέπει μπορεί να θεωρηθεί ως το πρόβλημα της δημιουργίας μια μετάθεση του ότι μεγιστοποιεί τη συνολική ομοιότητα Sim της ακολουθίας των δειγμάτων που εξετάζονται με τη σειρά: (). Η συνολική ομοιότητα Sim θεωρούμε στο παρόν έγγραφο συνοψίζει τις ομοιότητες έναντι όλων των γειτονικών δειγμάτων και θα πρέπει να μεγιστοποιηθεί.

Η συνολική ομοιότητα Sim για την ακολουθία των δειγμάτων ορίζεται όπως στην Εξίσωση (1) 🙁 1) όπου δηλώνει την ομοιότητα μεταξύ των διανυσμάτων διάστατο και και ορίζεται ως. . Εδώ με συμβολίζουμε την απόσταση του Ευκλείδη και είναι ένα μεγάλο σταθερό

Ορίζουμε το έργο RL που συνδέεται με την ΠΟΥ το πρόβλημα ως εξής:

Ο χώρος κατάσταση (περιβάλλον του πράκτορα) θα αποτελείται από μέλη, , δηλ. Η

αρχική κατάσταση

του παράγοντα στο περιβάλλον είναι. Μια κατάσταση που επιτεύχθηκε από τον πράκτορα σε μια δεδομένη στιγμή, αφού έχει επισκεφτεί κράτη και έχει επιλέξει τις δράσεις είναι

τερματικό

(τελικό ή στόχο) κατάσταση εάν ο αριθμός των μελών που επισκέφθηκε τον παράγοντα στην τρέχουσα σειρά είναι (δηλαδή ) και όλες οι επιλεγμένες δράσεις είναι διακριτές, δηλαδή.

Ο χώρος δράσης αποτελείται από ενέργειες που διατίθενται στην επίλυση προβλημάτων παράγοντα και αντιστοιχούν στις πιθανές τιμές χρησιμοποιούνται για να αντιπροσωπεύσουν μία λύση (μετάθεση του), δηλαδή, όπου.

Η λειτουργία μετάβασης μεταξύ των κρατών ορίζεται όπως στον Τύπο (2). (2), όπου. Αυτό σημαίνει ότι, σε μια δεδομένη στιγμή, από μια κατάσταση ο παράγοντας μπορεί να κινηθεί προς τα διάδοχα κράτη, εκτελώντας μία από τις πιθανές ενέργειες. Λέμε ότι ένα κράτος που είναι προσβάσιμο από το κράτος, δηλαδή, είναι η

γείτονα

(

διάδοχο

) κατάσταση.

Η

Οι μεταβάσεις μεταξύ των κρατών είναι equiprobable , η πιθανότητα μετάβασης από μια κατάσταση

s

και κάθε κράτος γείτονας του είναι ίση με, όπως κάθε μέλος από το διαθέτει δυνατόν διάδοχα κράτη (βλέπε Τύπο (2)).

η λειτουργία ανταμοιβή θα είναι ορίζεται κατωτέρω (Τύπος (3)).

η

Ας θεωρήσουμε μια διαδρομή στο παραπάνω ορίζεται περιβάλλον από την αρχική σε μια τελική κατάσταση, όπου και το κράτος είναι ένα

γείτονα

του κράτους (). Λαμβάνοντας υπόψη το έργο RL ορίζεται ανωτέρω, το περιβάλλον μπορεί να απεικονιστεί ως ένα δέντρο. Σε αυτό το δέντρο-όπως το περιβάλλον, ένα μονοπάτι αποτελείται από διακριτές κορυφές (κράτη), όπου κάθε γειτονικό ζεύγος κορυφών συνδέεται με ένα τόξο (δράση).

Η ακολουθία των ενεργειών που λαμβάνονται μετά τις μεταβάσεις μεταξύ των διαδοχικών καταστάσεων από την πορεία θα συμβολίζεται με, όπου. Η ακολουθία θα αναφέρεται ως

διαμόρφωση δράση

που σχετίζονται με τη διαδρομή. Η

διαμόρφωση ενέργεια που σχετίζεται με μια πορεία δίνει μια ακολουθία δειγμάτων.

Ένα μονοπάτι λέγεται

έγκυρη

εάν όλες οι δράσεις στο πλαίσιο του

διαμόρφωση δράση

είναι διακριτές και κάθε δείγμα από την αλληλουχία είναι πιο παρόμοιο με το δείγμα που ακολουθεί αμέσως στην διατεταγμένη ακολουθία από κάθε άλλο δείγμα, δηλαδή και.

Ο

διαμόρφωση δράση

συνδέονται με μια

έγκυρη

διαδρομή μπορεί να θεωρηθεί ως μια πιθανή τάξη των δειγμάτων εισόδου, δηλαδή μια μετάθεση που δίνει την χρονική διάταξη των εξεταζόμενων δειγμάτων, το οποίο θα πρέπει να είναι, σε κάποιο βαθμό, συσχετίζεται με την χρόνο επιβίωσης, σε περίπτωση όταν τα δείγματα αντιπροσωπεύονται από δεδομένα που προέρχονται από ασθενείς με καρκίνο. Κατά συνέπεια, μπορούμε να συσχετίσουμε με μια

έγκυρη

μονοπάτι, μια τιμή συμβολίζεται με αντιπροσωπεύει τη συνολική ομοιότητα (βλέπε εξίσωση (1)) της ακολουθίας.

Η ΝΑ πρόβλημα διατυπώνεται ως πρόβλημα RL θα αποτελούνται από την εκπαίδευση του πράκτορα να βρει ένα μονοπάτι από την αρχική σε μια τελική κατάσταση που έχει το μέγιστο που σχετίζονται συνολική ομοιότητα. Μετά τη διαδικασία της μάθησης οπλισμού, ο πράκτορας θα μάθουν να εκτελέσει τις μεταβάσεις που μεγιστοποιούν το ποσό των ανταμοιβών που λαμβάνονται σε ένα μονοπάτι από την αρχική σε μια τελική κατάσταση.

Στόχος μας είναι η απόκτηση ενός

έγκυρη

μονοπάτι που έχει τη μέγιστη συνολική ομοιότητα της ακολουθίας των δειγμάτων που αντιστοιχούν στο σχετικό διαμόρφωση δράση, ως εκ τούτου, ορίζουμε τη λειτουργία ενίσχυσης ως εξής (Τύπος (3)) 🙁 3), όπου με συμβολίζουμε την αμοιβή που έλαβε από τον παράγοντα στο κράτος, μετά από την ιστορία της στο περιβάλλον είναι.

Ο πράκτορας λαμβάνει αρνητική ανταμοιβή σε μονοπάτια που δεν είναι έγκυρες, ως εκ τούτου, θα μάθουν να εξερευνούν μόνο έγκυρες διαδρομές. Λαμβάνοντας υπόψη την αμοιβή που ορίζεται στον Τύπο (3), όπως ο στόχος της μάθησης είναι να μεγιστοποιήσει το συνολικό ποσό των ανταμοιβών που λαμβάνονται σε ένα μονοπάτι από την αρχική σε μια τελική κατάσταση, μπορεί να αποδειχθεί ότι ο παράγοντας έχει εκπαιδευτεί για να βρει μια έγκυρη διαδρομή που μεγιστοποιεί η συνολική ομοιότητα της σχετικής παραγγελίας.

η διαδικασία της μάθησης.

κατά τη διάρκεια του σταδίου κατάρτισης της μαθησιακής διαδικασίας, ο πράκτορας θα καθορίσει του

βέλτιστη πολιτική

στο περιβάλλον, δηλαδή η η χαρτογράφηση από τα κράτη σε ενέργειες που μεγιστοποιεί το άθροισμα των λαμβανόμενων ανταμοιβές.

για την κατάρτιση του

γΙΑ

παράγοντα, προτείνουμε μια-learning προσέγγιση, στην οποία ο πράκτορας μαθαίνει μια τιμή δράση

You must be logged into post a comment.