본문 바로가기

Deep Learning - GAN

암치료 영역에서 새로운 분자 모델을 개발하는데에 까지 쓰이기 시작한 딥러닝 기법 (GAN (AAE))

 

2016 Applying GAN(AAE) for new molecule development in oncology.pdf

 

 

Applying deep adversarial autoencoders for new molecule development in oncology

 

Artur Kadurin 1,2,3,4 , Alexander Aliper 2 , Andrey Kazennov 2,7 , Polina Mamoshina 2,5 ,
Quentin Vanhaelen 2 , Kuzma Khrabrov 1 , Alex Zhavoronkov 2,6,7

 

 

Keywords: generative adversarial networks, adversarial autoencoder, deep learning, drug discovery, artificial intelligence
Received: June 14, 2016        Accepted: November 24, 2016        Published: December 22, 2016

 

 

 

[제목에 대한 첫 인상]
oncotarget 을 만드는데에 GAN (!!) 을 적용한 논문이 벌써 나오다니.. 헐 대박.
어느정도 실제적인 건지 개념만 소개하는 정도인건지 읽어봐야 알 듯.
상용화 되면 엄청 돈 되는 내용이겠군.
의사들 보다는 제약회사가 관심있어할 만한 주제이네.

 

 

 

[저자]
1저자가 러시아 사람이네. 오.
2저자는 미국 존스홉킨스. medical doctor는 아닌듯. Insilico 라는 회사 관련자인듯.

(요즘 이쪽 논문은 대부분 cilinician 이 아닌 computer science 하는 사람들 이 써내고 있음..)
영국저자도 몇 명..

 

 

 

[날짜]
2016-12-24 Published

 

 

 

[ABSTRACT]


*GAN 의 일종인 generative AAE (adversarial autoencoder) 를 사용한 적용한 것이라고 소개함.

 

*7-layer AAE architecture, middle layers as discreminator

 

*새로운 용어. growth inhibition percent (?)

 

*data : NCI-60 cell line assay data

 

*AAE를 사용해서 만든 new molecule 을 7200백만개의 PubChem 의 compound molecules 에서 뒤지는데(screen) 사용.

 

 


[Introduction]  (서론이 본론보다 길다니...)

 

Phase I 을 통과하는 LOA (likely of Approval) 는 5.1% 에 불과.

 

Pharmaceutical industry 에서 new mathematical methods 로서, machine learning의 일부인 deep learning 을 통해 large range of data 를 학습하는 능력이 뛰어남을 이용함.

 

descriminative model 보다 deep generative model 을 design 하는 것은 역시나 bigger challenge 였다.(고 고백..)

 

initial generative model 은 RBM (restrricted Boltzman machines), Denoising autoencoder, or deep Boltzman machines.

그러나 training and generation 과정중에 문제들이 생김; Markov chains algorithm의 사용으로 인한 확률상 계산의 문제(?),   unrolled  approximate inference networks (?).

 

이러한 대안으로 제시된 것이 Generative  stochastic  networks.
이 모델은  the explicit representation of the likelihood 가 필요하지 않다.

 

 

3 deep  generative  models:
(1)deep directed graphical models,
(2)deep undirected graphical models and
(3)generative autoencoders.

 

5 steps of computational and modeling :
(1)training,
(2)inference,
(3)sampling,
(4)likelihood evaluation and
(5)model design.

 

 

(GAN 에 대한 소개 및 설명..)
가장 최신의 non-parametric approaches for deep generative models 이 GAN.
GAN 에서는 두 개의 model 이 동시에 학습된다.
generative model G 는 data distribution 을 파악한다.
discriminative model D 는 '어떤 한 개의 샘플이 G 보다는 training data 에서 왔을' 확률을 예측한다.
G 의 학습 절차는, 에러를 만들어 내는 D 의 가능성을 최대화 함으로서 이뤄진다. 따라서 기존의 최적의 값들을 찾아내는 value function 과는 다르다. 이러한 GAN 의 process는 saddle point 에서 종료된다.
또한 GAN은 approximate inference 이나 Markov chains 과 같은 explicit representation of the likelihood 가 필요하지 않다는 점에서 매력적인 방법이다.

 

 

three major publicly available databases that can be used for the training of drug response prediction models :
(1) Cancer Cell Line Encyclopedia (CCLE)
(2) Genomics of Drug Sensitivity in Cancer (GDSC) project
(3) NCI-60 cancer cell line collection

 

 


[Materials & Methods]

** 이 부분을 paper 에 뒷부분에 놓은 것이 이해안됨. 젤 중요한 부분 같은데...

 


{Data set selection}
NCI-60 cell line assay full dose response data (released on September 2014) (http://dtp.nci.nih.gov/index.html)
MACCS fingerprints for a total of 6252 molecules with known growth inhibition percentage (GIPRCNT or GI) in NCI-60 assay
MACCS fingerprints were also generated from 72200431 molecules derived from Pubchem database.

간단히, NCI-60 cell line array 에서, PubChem database의 7220만 여개의 분자들 중, 6252개의 성장 억제 관련 인자를 데이터로 사용함.


{Design and training of the GAN}
Source code 링크도 친절히 오픈... : https://github.com/spoilt333/onco-aae

 

18,41 ref 의 source code 를 응용했다고 함. (Ian Goodfellow 논문 2014, 2016 : Joshua Bengio 교수팀인듯..)

 

original studies 에서는 the adversarial network 와 the autoencoder 를 SGD를 조합하여 2개의 phases (reconstruction phase, regularization phase)로 mini-batch를 시행하여 훈련시킴.

 

이 논문에서는, input layer를  fingerprint part 와 concentration input neuron 으로 나누었음.

그래서 AAE 가 molecular fingerprints 뿐만 아니라  experimental concentrations 을 encode 하고  reconstruct 하도록 훈련 하였음.

 

Encoder : two consequent layers L1 and L2
 L1 : 128 neurons
 L2 :  64 neurons

 

Decoder : two layers L’1 and L’2
 L'1 :  64 neurons
 L'2 : 128 neurons

 

 

Latent layer : 5 neurons 
 one : GI ( Growth Inhibition percentage )
 four : discriminated with normal distribution

(이후의 내용은 읽어도 잘 모르겠음... GAN 의 encoder, decoder 내용..)

 

 

 

5-step train iteration
a) Discriminator trained to distinguish between given latent distribution and encoded 'representation'
b) Encoder trained to confuse Discriminator with generated 'representations'
c) Encoder and Decoder trained jointly as Autoencoder
d) Encoder trained to fit 'score' part of latent vector
e) Encoder trained with ‘manifold’ cost.

 

 


[RESULTS]

 

AAE architecture 는 Fig.1 에 표현됨.

 

Input 으로 molecule 의 vector 와 log concentration 을 사용함.
AAE 를 통해 concentration 및 probabilities로 구성된 vector 를 output으로 내어놓음.
Latent layer 에서 Growth Inhibition percentage (GI)를 표현하는 neuron을 사용 하였는데, negative 값을 나타내면 이 분자로 약물치료시 종양세포 숫자가 줄어듦을  나타낸다.

 

Training : MCF-7 cell line 에서 profiled 된 6252개의 compound에 대한 fingerprint, log concentration, GI data 들에 대해서 training 함.
이후에 latent layer 에서 기존의 분포로 부터 640개의 vector 를 샘플링한다.
Decoder : 앞의 데이터를 바탕으로 log concentration 값에 해당하는 640개의 probability vector를 generate 한다.

 

만들어낸 32 vector를 7200만 compound 가 있는 Pubchem 에서 screen 하였다.
Maximun likelyhood function 을 써서, 32 vector 에 대한 top 10 hits를 선택.
여기에서 69개의 unique compound 를 이끌어냄. (Supp. Table 1).


Anticancer acitivities 가 있는지 확인하기 위해 PubChem BioAssay data 를 사용하여 일부는 tested 하고, 일부는 demonstrated 하였는데, 이 중 일부는 이미 항암 효과가 이미 알려진 물질들도 몇 개 있었다.


(7천2백만개의 (어떤 성질인지 아직 밝혀지지 않은) 화학물질들 가운데서, GAN 을 통해 만들어낸 69개의 compound 가 항암효과가 뛰어날 수 있는 (일부는 이미 항암효과가 있는게 알려진) 물질이란 게지... / 제약회사에선 군침 흘릴만 한...)

 

만들어낸 대부분의 물질이 Anthracyclines 계열의 항암치료제.
    Daunorubicinol -> infantile leukemia
    Idarubicin (CID:42890)  -> leukemia, breast cancer, multiple myeloma
    Epi-daunomycin   (CID:153753) -> leukaemia, lymphoma, soft tissue sarcomas
    Epi-daunorubicin (CID:125250) -> nasopharyngeal carcinoma
    (7R,9R)-Idarubicin (CID:151582) -> small cell lung cancer
    CHEMBL519482 -> Squamous cell carcinoma (human KB cell)
    CID:53304462 -> inhibitor of protein arginine methyltransferase 1 (PRMT1)
    CID:57620448
    CID:44398799
    CID:59835410
    CID:21563452
    CID:15573184
    CID:59283582

 

CID:54706490 : antibacterial activity (Staphylococcus aureus)
CID:44329845 :  ""
CID:44329846 :  ""
CID:58771432
CID:58076509
CID:15573192 : inhibitory effect of that small molecule on the Zika virus
CID:57077355 : for treating migraine headaches

 

뭔가 많은 물질들이 튀어나오긴 했는데......
기존의 알려진 항암치료 물질들을 output 으로 generate 한 점,
대부분의 물질이 옛날의 classcial 항암제인 (cytotoxic effect 도 높지만, 부작용이 쎄서 요즘엔 잘 사용하지 않는 경향이 있는..) anthracyclines 계열이라는 것은 좀 실망적임. ("Most of these compounds are related to anthracyclines (or anthracycline  antibiotics)"). 요즘같이 Biologics 에 의한 targeted therapy 가 마구 쏟아져 나오는 시대에서...

 

그리고 나머지 아직 검증이 안된 여러 물질들이(CID:59283582, etc.) 실제 어떤 암에 효과적이고, 실제로 획기적인 암치료제로 환자에게 사용되고 임상실험이 되고, NEJM 등에 발표될 때 까지는 산넘고 물건너 멀고 먼 일인 듯...

 

흥미로운 건, 항균효과 항바이러스효과가 있는 물질들도 튀어나왔다는 사실...

 

새로운 물질을 만들어 내는 데, GAN (AAE) 의 architecture 에다가, input 에 어떤 것들(원료가 되는 물질, 데이터)을 어떻게 정제해서 넣으냐에 따라, latent layers 를 몇 층으로 하고 어떤 parameter 로 구성하느냐에 따라, 새로운 물질들이 튀어나오게 하는 신기방통한(? 하지만 검증안된) 블랙박스통이 될 것 같은 기대는 생기네.

 

 


[DISCUSSION AND PERSPECTIVES]


딥러닝 기법이 biomedical field 에서는 아직 infancy 하지만, 'drug discovery and biomarker development' 에도 쓰이기 시작했다는 사실.

 

"The new conceptual architecture of AAE was used to develop and validate a  complex DL-based work-flow capable of generating models of new compounds in  cancer and oncology using drug concentrations and fingerprints as sole inputs."

중요한 문장 같으니, 해석안하고 그대로 옮겨적음.

 

결과물로, 여러 화합물 계열의  69 compounds 를 만들어냈(...predicted 라고 겸손하게 쓴 듯)다.

 

기존에 쓰이는 항암물질을 output 으로 보여준 사실은, 이 모델이 biologically relevant results 를 provide 한다라는 확신감을 주었다.

 

이 연구의 시도가 아직까지는 최초다 (the first application of GAN techniques within the field of cancer drug discovery).

 

이 물질들에 대한 experimental validation 방법으로, 'transcriptional response analysis using signaling pathway activation analysis algorithms in PDX models'. (PDX 모델이 뭔지는 모르겠다 ; 면역불능화 시킨 쥐에게 human tissue를 이식한 것이라고 함..)

 

"Generative capabilities of deep adversarial network techniques open the doors to new perspectives as it could contribute to overcome several limitations of current data driven  computational  methods."
멋진 익스프레션이므로... 그대로 옮김.

 

"Thus, the deep adversarial network techniques could be used to improve accuracy, generative capabilities and  predictive  power and address several issues including computational cost, limited computation at each layer and limited information propagation across the graph." (arXiv:1509.09292v2 [cs.LG]. 2015)

 

*other methods
    quantitative structure–activity relationships (QSAR)
    quantitative structure–property relationships (QSPR)
    web-based predictors
    SVM
    RFs


DL-based methods, such as the recently released methods AtomNet (based on deep convolutional neural networks)

 

끝.

 

 

#GAN, #Generative Adversarial network, #AAE, #Adversarial autoencoder, #new molecule, #drug development
 

'Deep Learning - GAN' 카테고리의 다른 글

Deep Learning and Its Applications in Biomedicine.  (0) 2018.08.24