Research Article

Journal of Agricultural, Life and Environmental Sciences. 31 March 2022. 88-94
https://doi.org/10.22698/jales.20220009

ABSTRACT


MAIN

  • 서 론

  • 재료 및 방법

  •   시험재료 및 질소함량 측정

  •   머신러닝 알고리즘(machine learning algorithms)

  •   모델의 파라미터 설정

  • 결과 및 고찰

  • 요 약

서 론

감귤(Citrus unshiu)을 비롯한 만감류(C. unshiu × C. sinensis)는 국내에서 겨울에 생산되는 대표적인 과일로, 한반도의 최남단 지역인 제주도의 경제에 중요한 역할을 담당하고 있다. 감귤 생산량의 증대는 토양 무기양분의 철저한 관리가 필수적이기 때문에, 감귤을 대상으로 무기 양분의 결핍에 따른 증상에 대한 많은 연구가 이루어졌다(Anh et al., 2003; Han, 2005; Kang, 2006; Park, 2003; Srivastava, 2013). 작물 생장에 필수적인 영양분 중에서 가장 중요한 것은 질소로(Carranca et al., 2018), 핵산, 아미노산, 단백질, 식물 호르몬, 엽록체의 구성 성분이며, 1·2차 대사산물의 합성에도 중요한 역할을 하는 것으로 알려져 있다(Cheng et al., 2020; Huang et al., 2021). 질소가 결핍되면 감귤의 수체 생육이 불량해지고, 잎은 황화 및 노화되어 결국 탈리가 일어나 낙엽된다(Kang, 2006; Wutscher and Smith, 1993). 또한 과일의 수량은 감소하고 과육이 단단해지며 산미도 적어 저장성이 나빠진다(Han, 2005). 질소는 식물의 여러 생리작용 중 가장 중요한 광합성에 핵심적인 역할을 담당하며, 잎이 동화산물이 합성되는 “source”로써의 역할을 하게 한다.

과수작물 뿐만 아니라 모든 작물에서 생산량의 증대를 위해 질소질 비료의 시용이 오래전부터 관행적으로 수행되어 왔다(Sainju et al., 2019; Li et al., 2019). 최근에는 질소질 비료의 과다 시용에 따른 주변환경의 수질 및 토양오염 문제로 인하여 토양 분석 및 작물의 엽분석을 통해서 정확한 질소 함량을 파악해 적정시비를 하는 과학영농이 농촌진흥청 및 산하기관을 통해서 이루어지고 있다(http://soil.rda.go.kr). 보통 토양 및 작물의 질소함량은 총질소 농도를 측정하여 모니터링하는데(Herrmann and Taube, 2004; Rostami et al., 2008), 대표적으로 Kjeldahl법과 원소분석기를 이용하여 질소의 양을 정밀하게 분석한다. 그러나 이 방법은 시료의 파쇄를 통해서 이루어지며 또한 상당한 시간 및 비용이 소요된다. 그래서 SPAD 502 chlorophyll meter(Konica Minolta Sensing, Japan)와 같은 광학측정 장비를 이용해 비파괴적인 방법으로 작물의 질소함량을 측정하는 것이 대중화되었다(An et al., 2020; Rostami et al., 2008).

SPAD meter는 650 및 940 nm 파장의 빛을 이용해 잎에서 적색광 및 적외선의 광 투과 강도를 측정한다(Yuan et al., 2016). 이에 기반해 측정된 값은 잎의 엽록체 함량에 비례하여 계산되며(Pérez-Patricio et al., 2018; Xiong et al., 2015), 엽록체 함량이 높을수록 잎의 질소농도도 높아지게 된다. 이러한 근거를 바탕으로 SPAD 측정값과 질소함량 간의 상관관계를 이용해 다양한 작물의 질소함량 추정 연구가 이루어졌다(Brunetto et al., 2012; Kitonga-Mwanza et al., 2011; Zakeri et al., 2015)

본 연구에서는 만감류인 ‘부지화’를 대상으로 잎의 질소함량과 SPAD 측정값간의 상관관계를 바탕으로 다양한 머신러닝 모델을 적용하여 SPAD 측정값으로 잎의 질소함량을 추정하였다.

재료 및 방법

시험재료 및 질소함량 측정

3년생 ‘부지화’(Shiranuhi)를 하우스 내에 설치된 수경재배 시스템에 재식하고 6개월 정도 정상적인 생육을 확인한 후 시험재료로 활용하였다. 6개월간의 재배 기간 중 칼슘 결핍에 의한 잎의 괴사를 방지하기 위해 0.2% 질산칼슘을 3일 간격으로 엽면시비하였다. 질소결핍구는 잎이 발생한 지 20일이 지난 후부터 질소만 제외된 양액을 공급하였다. 대조구는 SPAD측정을 시작한 20일부터 120일까지 계속 모든 양분이 양액을 통해 공급되었다. 두 처리구는 나무의 생존여부에 따라 2-4반복으로 수행되었다. 잎의 엽록체 함량 측정은 SPAD-502 chlorophyll meter(Konica Minolta Sensing, Japan)을 이용해 측정하였다.

질소함량 분석을 위해 채취한 잎을 증류수로 세척하고 70°C에서 24시간 건조시킨 후 분쇄하였다. 잎의 질소함량은 시료 0.5 g을 켈달플라스크에 정확히 취하고 H2SO4-H2O2법으로 분해시킨 후 Kjeldahl법으로 정량하였다(NIAST, 2000).

머신러닝 알고리즘(machine learning algorithms)

6종의 머신러닝 알고리즘을 이용하여 ‘부지화’ 잎의 질소함량을 추정하는 모델을 구현하고 그 성능평가를 수행하였다. 사용한 머신러닝 알고리즘은 Stochastic Gradient Descent(SGD), Artificial Neural Network(ANN), Support Vector Machine(SVM), k-Nearest Neighbors(kNN), Random Forest(RF), Gradient Boosting(GB)이었다. 데이터 분석은 R 프로그램(ver. 4.1.2, R foundation for statistical computing, Vienna, Austria)에 다양한 패키지를 설치하여 분석하였다: “sgd” for SGD; “neuralnet” for ANN; “e1071” for SVM; “caret” for kNN; “randomForest” for RF; “xgboost” for GB. 직선회귀 및 다항회귀분석은 다른 패키지 설치없이 R 프로그램만으로 분석하였다.

본 실험에 사용된 SPAD 측정값 및 실제 질소함량 데이터는 36개로, 뛰어난 성능의 모델을 구현하기에는 충분하지 않았다. 그래서 부트스트랩핑(bootstrapping) 방법을 이용해 데이터를 증폭한 후 회귀분석 및 머신러닝 모델에 적용하였다. 부트스트랩핑은 통계학에서 널리 사용되는 기법으로, 기존 데이터에서 N개의 데이터를 복원추출(random sampling)하여 평균한 값을 새로운 데이터로 사용하고, 이러한 과정을 여러 번 반복하여 기존의 데이터를 증폭시킨다(Kim et al., 2021). 특히 부트스트랩핑은 독립변수와 종속변수가 선형관계에 있을 때 회귀분석에서 가장 유의미한 결과를 도출할 수 있기 때문에(Kim et al., 2021), 본 연구에서는 SPAD 측정값과 잎의 질소함량간의 선형관계를 확인한 후 사용하였다. 증폭된 데이터는 학습(training) 시에만 사용하였고, 테스트에는 본래 데이터만으로 시험하였다.

모델의 파라미터 설정

머신러닝 모델의 예측성능을 높이기 위해서는 각 모델의 하이퍼 파라미터를 적절하게 설정하는 것이 매우 중요하다. SGD의 경우, ε(데이터와 경계함수 사이의 거리)을 0.1로 설정하여 분석하였다. ANN 모델은 활성화 함수는 ReLU, 최적화 함수는 Adam, 은닉층의 개수는 100으로 하였을 때 가장 높은 결정계수(R2)를 보여주었다. SVM은 예측값을 근사하는 추정함수를 설정하는 kernel로 linear, polynomial, sigmoid, radial 네 가지가 있는데, 본 연구에서는 radial을 사용하였다. kNN 모델에서는 neighbor의 개수인 k를 3에서 10으로 조절한 결과, 5일 때 가장 효과적이었다. RF는 의사결정 트리의 개수를 5로 정하였고, GB의 트리는 100, 학습률은 0.1로 설정하여 분석하였다.

결과 및 고찰

‘부지화’의 질소 결핍구와 대조구의 잎을 대상으로 측정한 SPAD 값과 실제 잎의 질소함량간의 상관관계를 바탕으로, ‘부지화’ 잎의 실제 질소함량 측정치와 각 모델의 예측치 간의 산포도를 작성하였다(Fig. 1). x축은 실제 질소함량을, y축은 각 모델을 이용해 예측한 값을 나타낸다. 모델의 성능을 평가하는 지표인 평균제곱오차(mean square of errors, MSE), 평균제곱오차제곱근(root mean square of errors, RMSE), 평균절대오차(mean absolute of errors, MAE) 및 결정계수(coefficient of determination, R2)는 Tables 1 and 2에 표시하였다. 설명변수인 SPAD 측정값과 반응변수인 질소함량 사이에는 먼저 가장 간단한 선형관계가 있음을 확인할 수 있다(Fig. 1A). 선형회귀식에서 데이터의 분포가 멀어질수록 실제 데이터와 예측 데이터 간의 오차가 커 모델의 예측 정확도가 떨어지는 것을 알 수 있다. 이 선형회귀모델의 R2는 학습 시 0.546, 테스트 시 0.635로, 뛰어난 성능의 모델로 볼 수 없으며, MSE, RMSE, MAE의 수치도 다른 모델에 비해 높았다. 특히 이 직선회귀모델은 질소함량이 1.0%이하로 낮은 경우에는 음의 값으로 예측하고 있어 ‘부지화’ 잎의 질소함량을 추정하기에는 적합치 않은 모델로 평가되었다.

/media/sites/ales/2022-034-01/N0250340109/images/ales_34_01_09_F1.jpg
Fig. 1.

Comparison between the measured nitrogen content and predicted values of several machine learning models: (A) linear regression, (B) polynomial regression, (C) stochastic gradient descent, (D) artificial neural network, (E) support vector machine, (F) k-nearest neighbors, (G) random forest, and (H) gradient boosting.

Table 1.

Performance metrics of each machine learning model based on the training dataset

Model MSE RMSE MAE R2
Linear Regression 0.285 0.533 0.431 0.546
Polynomial Regression 0.204 0.451 0.362 0.675
SGD 0.282 0.531 0.435 0.550
ANN 0.128 0.358 0.290 0.795
SVM 0.094 0.306 0.216 0.850
kNN 0.065 0.255 0.199 0.896
Random Forest 0.060 0.246 0.191 0.904
Gradient Boosting 0.033 0.182 0.107 0.947
Table 2.

Performance metrics of each machine learning model based on the test dataset

Model MSE RMSE MAE R2
Linear Regression 0.228 0.478 0.407 0.635
Polynomial Regression 0.137 0.371 0.313 0.781
SGD 0.229 0.478 0.407 0.635
ANN 0.112 0.335 0.268 0.821
SVM 0.062 0.248 0.175 0.901
kNN 0.047 0.217 0.170 0.925
Random Forest 0.022 0.149 0.109 0.965
Gradient Boosting 0.000 0.018 0.013 0.999

다항회귀분석(polynomial regression)을 수행한 결과, Fig. 1B와 같이 2차 다항식일 때 R2가 가장 높았다. 직선회귀모델보다 다소 개선된 평가지표를 보여주었으나, 직선회귀모델과 마찬가지로 질소함량이 1.0% 내외일 때 실측치와 예측치 간의 오차가 커졌으며, 실제 질소함량이 매우 높은 경우, 즉 회귀식의 꼭짓점인 3.071 이상의 값은 실제 값보다 낮게 측정되는 문제가 발생하였다.

다음으로는 머신러닝 모델 6종류를 이용하여 ‘부지화’ 잎의 질소함량을 추정하였다(Fig. 1). SGD는 Tables 1 and 2의 성능지표를 고려하였을 때, 직선회귀모델과 거의 같은 성능을 보여주어 뛰어나지 않은 모델로 판단되었다. ANN은 다항회귀모델보다 더 개선된 성능을 보여주었으나(R2 = 0.795, 0.821), SVM을 비롯한 다른 모델들이 모두 R2이 0.9 이상을 넘기 때문에 ANN보다 더 뛰어난 예측 성능을 보여주었다. 심지어 RF와 GB는 training dataset으로 학습 시에도 R2가 0.9 이상으로 나와 뛰어난 성능의 모델임이 확인되었다(Table 1). Fig. 1의 SVM, kNN, RF, GB 순서로 그래프를 비교하면, 회귀식을 기준으로 실측치와 예측치 간의 오차가 점점 줄어드는 것을 알 수 있으며, MSE, RMSE, MAE도 점점 작아져 0에 가까워지고 선형관계는 점점 높아지는 것을 확인할 수 있다. 즉, GB모델이 가장 뛰어난 예측성능을 보여주었다.

본 연구에서는 ‘부지화’ 잎의 SPAD 값과 질소함량 간에 선형관계가 있음을 바탕으로 여러 머신러닝 모델을 적용해 보았다. 그러나 학습용 데이터의 사이즈가 너무 작아 bootstrapping을 통해서 데이터를 증폭하여 학습을 수행하였다. 비록 bootstrapping이 기존 데이터에서 N개의 데이터를 복원추출(random sampling)하여 평균한 값을 새로운 데이터로 이용하는 통계방법이지만, 데이터의 평균값 근처의 분포가 극도로 높아지는 결과를 유도하여 실제모델과 차이가 생길 여지가 충분하다고 생각되었다. 따라서 추후 연구에서는 SPAD 측정값 데이터와 실제 잎의 질소함량 측정 데이터를 더욱 대량으로 확보하여 분석할 필요가 있는 것으로 판단되었다.

요 약

‘부지화’ 잎의 SPAD측정값을 기반으로 잎의 질소함량을 추정하고자 여러 머신러닝 모델을 적용해 보았다. 모델 평가지표 및 실측치·예측치 데이터 산포도를 종합적으로 고려할 때, GB가 가장 적합한 모델로 선정되었다. 결정계수가 가장 1에 가까우며, MSE, RMSE, MAE도 모두 0에 수렴하여 실측치와 예측치의 오차가 가장 적었음을 알 수 있었다.

References

1
An, G., Xing, M., He, B., Liao, C., Huang, X., Shang, J., Kang, H. (2020) Using machine learning for estimating rice chlorophyll content from in situ hyperspectral data. Remote Sens 12:3104. 10.3390/rs12183104
2
Anh, N. T., Kang, T. W., Song, S. J., Park, W. P., Nong, N. N., U, Z. K. (2003) Nutrient absorption by Citrus unshiu Marc. grown in out-door solution culture. Korean J Soil Sci Fert 36:225-232.
3
Brunetto, G., Trentin, G., Ceretta, C. A., Girotto, E., Lorensini, F., Miotto, A., Moser, G. R. Z., de Melo, G. W. (2012) Use of the SPAD-502 in estimating nitrogen content in leaves and grape yield in grapevines in soils with different texture. Am J Plant Sci 3:1546-1561. 10.4236/ajps.2012.311187
4
Carranca, C., Brunetto, G., Tagliavini, M. (2018) Nitrogen nutrition of fruit trees to reconcile productivity and environmental concerns. Plants 7:4. 10.3390/plants701000429320450PMC5874593
5
Cheng, X., Liang, Y., Zhang, A., Wang, P., He, S., Zhang, K., Wang, J., Fang, Y., Sun, X. (2020) Using foliar nitrogen application during veraison to improve the flavor components of grape and wine. J Sci Food Agric 101:1288-1300. 10.1002/jsfa.1078232869302
6
Han, S. G. (2005) Effects of long-term non-fertilization of nitrogen, phosphorus and potassium on soil chemical properties, tree nutrition and productivity of Satsuma Mandarin (Citrus unshiu Marc.). Ph.D. Thesis, Jeju National University, Jeju, Korea.
7
Herrmann, A., Taube, F. (2004) The range of the critical nitrogen dilution curve for maize (Zea mays L.) can be extended until silage maturity. Agron J 96:104-110. 10.2134/agronj2004.1131
8
Huang, W. T., Xie, Y. Z., Chen, X. F., Zhang, J., Chen, H. H., Ye, X., Guo, J., Yang, L. T., Chen, L. S. (2021) Growth, mineral nutrients, photosynthesis and related physiological parameters of Citrus in response to nitrogen deficiency. Agronomy 11:1859. 10.3390/agronomy11091859
9
Kang, T. W. (2006) Mineral nutrient absorption and disorder of Shiranuhi mandarin[(C. unshiu Marc. × C. sinensis Osb.) × C. reticulata Bla.] in hydroponics culture. Ph.D. Thesis, Jeju National University, Jeju, Korea.
10
Kim, D., Lee, I. B., Yeo, U. H., Lee, S. Y., Park, S., Cristina, D., Kim, J. G., Choi, Y. B., Cho, J. H., Jeong, H. H., Kang, S. (2021) Estimation of duck house litter evaporation rate using machine learning. J Korean Soc Agric Eng 63:77-88.
11
Kitonga-Mwanza, L. L. M., Swiader, J., Mulwa, R. M. S. (2011) Evaluation of SPAD chlorophyll fluorescence for on-site nitrogen assessment in drip fertigated sweet corn. J Appl Hortic 13:13-17. 10.37855/jah.2011.v13i01.03
12
Li, Z., Zhang, R., Xia, S., Wang, L., Liu, C., Zhang, R., Fan, Z., Chen, F., Liu, Y. (2019) Interactions between N, P and K fertilizers affect the environment and the yield and quality of satsumas. Glob Ecol Conserv 19:e00663. 10.1016/j.gecco.2019.e00663
13
NIAST. (2000) Methods of soil and plant analysis. National Institute of Agricultural Science and Technology, Rural Development Administration, Suwon, Korea.
14
Park, W. P. (2003) Effects of nitrogen deficiency on growth and nutrient uptake of (C. unshiu Marc. × C. sinensis Osb.) × C. reticulata Bla. M.S. Thesis. Jeju National University, Jeju, Korea.
15
Pérez-Patricio, M., Camas-Anzueto, L. J., Sanchez-Alegría, A., Aguilar-González, A., Gutiérrez-Miceli, F., Escobar-Gómez, E., Voisin, Y., Rios-Rojas, C., Grajales-Coutiño, R. (2018) Optical method for estimating the chlorophyll contents in plant leaves. Sensors 18:650. 10.3390/s1802065029470432PMC5855050
16
Rostami, M., Koocheki, A. R., Mahallati, M. N., Kafi, M. (2008) Evaluation of chlorophyll meter (SPAD) data for prediction of nitrogen status in corn (Zea mays L.). American-Eurasian J Agric & Environ Sci 3:79-85.
17
Sainju, U. M., Ghimire, R., Pradhan, G. P. (2019) Nitrogen fertilization I: Impact on crop, soil, and environment. pp.1-24. In: Rigobelo et al. Nitrogen Fixation. IntechOpen, London, UK.
18
Srivastava, A. K. (2013) Nutrient deficiency symptomology in citrus: an effective diagnostic tool or just an aid for post-mortem analysis. Agric Adv 2:177-194.
19
Wutscher, H. K., Smith, P. F. (1993) Citrus. Chapter 17. In; Bennett, W. F. (ed). Nutrient deficiencies and toxicities in crop plants. APS Press, American Phytopathological Society, St. Paul, MN, USA.
20
Xiong, D., Chen, J., Yu, T., Gao, W., Ling, X., Li, Y., Peng, S., Huang, J. (2015) SPAD-based leaf nitrogen estimation is impacted by environmental factors and crop leaf characteristics. Sci Rep 5:13389. 10.1038/srep1338926303807PMC4548214
21
Yuan, Z., Cao, Q., Zhang, K., Ata-Ul-Karim, S. T., Tian, Y., Zhu, Y., Cao, W., Liu, X. (2016) Optimal leaf positions for SPAD meter measurement in rice. Front Plant Sci 7:719. 10.3389/fpls.2016.0071927303416PMC4880590
22
Zakeri, H., Schoenau, J., Vandenberg, A., Aligodarz, M. T., Bueckert, R. A. (2015) Indirect estimations of lentil leaf and plant N by SPAD chlorophyll meter. Int J Agron 2015:1-10. 10.1155/2015/748074
페이지 상단으로 이동하기