실험 논문 작성을 위한 통계학의 정석

실험 논문 작성을 위한 통계학의 정석

$21.62
Description
대학원을 다니며 놀랐던 점 중 하나는 많은 연구자들이 통계에 대한 기초지식 없이 데이터를 분석하고 논문을 작성한다는 것이다. 이들은 3개의 실험군 중 두 실험군을 골라 정규성 검정(Normality test)도 없이 t-test를 수행하고, 선형 회귀(Linear regression)를 수행한 후 잔차(Residual)를 분석하지 않는다(만일 이런 행태가 괜찮다고 생각한다면 이 책을 정독할 필요가 있다). 이런 원시적이고 초보적인 수준의 오류는 우리 대학원에 만연해 있으며, 그런 식으로 통계를 돌려 논문을 작성하면 좋은 저널에서는 바로 게재 거부(Rejection) 결정을 내릴 것이다. 이걸 작성자 탓만 할 수 없는 게, 대학원에서는 이런 실용적인 통계 기술을 잘 가르치지 않는다. 통계학과에서 여러 수업을 개설하지만, 그런 수업은 대체로 이론적인 면에 치중되어 있다. 애당초 통계학 강사들은 실험 경험이 거의 없는 경우가 많아 수식만 설명할 뿐 현실과 동떨어진 이야기를 자주 한다. 실용 통계를 제대로 가르치기 위해서는 통계 지식을 갖출 뿐만 아니라 직접 실험을 설계, 수행하며 밤새 데이터를 모아보고, 그 데이터로 실험 논문을 작성해 발표한 경험이 있어야 한다. 이런 조건을 갖춘 강의자가 드물기에 논문 작성에 실질적으로 필요한 통계 기술을 배울 기회는 많지 않다. 통계 분석은 연구의 부수적인 부분이 아니라 핵심 요소 중 하나인데, 이를 간과하고 논문을 쓰는 것은 개탄스러운 일이다.
이런 문제의식 속에서 나는 2020년부터 생명과학부 대학원생을 대상으로 실용적인 통계 특강을 진행했다. 수업이 쉽고 친절하다는 입소문을 타면서 서울대학교 화학부와 고양 명지병원에서도 강의 요청이 들어왔다. 통계 특강을 열 때마다 지원자가 많아 모두에게 수강의 기회를 줄 수 없었다. 몇몇 타과 학생은 통계 특강을 수강하고 싶다며 절실함 가득한 메일을 보내기도 했다. 나 또한 제한된 시간에 모든 통계 이야기를 할 수 없어 아쉽기도 했다. 때문에 이런 실용 통계 기술을 더 널리 소개하고 싶어, 실험 논문 작성에 필요한 통계 기술을 한 권의 책으로 묶었다.
통계학의 철학과 기술을 최대한 알기 쉽게 전달해서, 실험 연구에 익숙한 독자가 스스로 자신의 데이터를 분석할 수 있도록 만드는 것이 이 책의 목표이다. 그 분석 결과를 논문에 어떻게 쓰는지 아는 것도 중요하다. 복잡한 수식만 앞세우는 그런 책이 아니라, 이론에도 충실하면서 내용을 알기 쉽게 전달하는 것이 이 책의 특징이라 할 수 있다. 이 책을 읽은 연구자가 자신의 데이터에 가장 알맞은 통계 검정법을 자신 있고 정확하게 사용하여 좋은 저널에 논문으로 출간하기를 희망한다.
이 교재를 검토해 여러 오류를 잡아준 서울대학교 생명과학부의 김재승에게 감사를 표한다. 이 책을 선택해 준 박영사와 정연환 선생님, 편집을 맡아준 김민조 선생님께 감사드린다. 무엇보다도 어려울 때나 즐거울 때나 늘 힘이 돼준 나의 가족에게 이 책을 바친다.

저자 최지범
저자

최지범

서울대학교자유전공학부에서수학과생명과학을전공한후서울대생명과학부대학원에서이론생물학과동물행동학연구로박사학위를받았다.이후경희대학교응용수학과학술연구교수로연구를이어가고있다.4권의과학교양서를저술했으며서울대학교생명과학부,화학부대학원과명지병원등에서실험논문작성을위한실용통계학을강의했다.

목차

Chapter01통계학의철학(TheZenofStatistics)
1.1확률변수란무엇인가11
1.2확률밀도함수12
1.3평균과분산15
1.4중앙값(Median)과IQR17
1.5최빈값(Mode)과왜도(Skewness)19
1.6평균과분산의성질121
1.7평균과분산의성질224
1.8확률변수의독립성28
1.9공분산과상관관계31
1.10(참고)피어슨상관계수와코시-슈바르츠부등식33
1.11모집단과표본집단36
1.12표본분산의계산39
1.13이항분포와정규분포42
1.14중심극한정리와정규분포에대한오개념45
1.15유효숫자와정밀성47

Chapter02가설검정법(HypothesisTesting)
2.1오류의종류53
2.2p-value의의미55
2.3p-value의해석58
2.4p-value가크다면60
2.5p-value가작다면62
2.6p-value시뮬레이션63
2.7비율검정법을통해p-value구하기64
2.8단측검정과양측검정68
2.9민감도(Sensitivity)와특이도(Specificity)70
2.10출간편향과깔때기그림72

Chapter03t-test,F-test
3.1통계검정법의가정77
3.2카이제곱분포81
3.3모분산과표본분산의관계83
3.4t-분포를사용하는이유와그특징86
3.5One-samplet-test와Pairedt-test88
3.6F-분포의정의91
3.7여러그룹에대한데이터비교93
3.8Two-samplet-test96
3.9t-test의전제조건99
3.10F-test를통한분산의확인104
3.11적합한통계방식을결정하기106
3.12신뢰구간(Confidenceinterval)108

Chapter04일원분산분석(One-wayANOVA)
4.1명제와논리115
4.2다중비교(Multiplecomparison)의문제점117
4.3그냥없다고생각하면안되는가?120
4.4요인(Factor)과수준(Level)121
4.5ANOVA의구조123
4.6One-wayANOVA의가정과용어125
4.7One-wayANOVA의통계검정128
4.8One-wayANOVA의p-value계산131
4.9자유도란도대체무엇인가133
4.10One-wayANOVA의예시135
4.11사후분석(Posthocanalysis)138
4.12Intra-OcularTraumaTest140
4.13간편한사후검정:Bonferronicorrection141
4.14RepeatedmeasuresANOVA의필요성142
4.15RepeatedmeasuresANOVA의계산143
4.16RepeatedmeasuresANOVA의예시146
4.17구형성가정(Sphericityassumption)149
4.18결측치(Missingdata)의처리150

Chapter05이원분산분석(Two-wayANOVA)
5.1Two-wayANOVA의구조158
5.2Two-wayANOVA계산의의미159
5.3Two-wayANOVA의자유도162
5.4Two-wayANOVA의예시165
5.5교호작용이유의미한경우167
5.6Two-wayRepeatedmeasuresANOVA168
5.7FactorialANOVA170

Chapter06회귀분석(RegressionAnalysis)
6.1데이터의종류와그에따른통계검정175
6.2상관성과인과성176
6.3Anscombe’squartet178
6.4선형관계(Linearrelationship)182
6.5기울기와절편의추정184
6.6(참고)왜오차의절댓값이아닌제곱을최소화하는가?186
6.7기울기의통계적유의미성187
6.8회귀의자유도와F-test188
6.9회귀를시행한후확인해야할것191
6.10오목함수와볼록함수193
6.11차수를활용한변환194
6.12상관계수와회귀계수197

Chapter07고급회귀(AdvancedRegression)
7.1다중회귀분석(Multipleregressionanalysis)201
7.2회귀를행렬로표현하기204
7.3회귀계수에대한t-test205
7.4VarianceInflationFactor(VIF)207
7.5교호작용(Interaction)과2차식모델(Quadraticmodel)208
7.6일반화선형모델과비선형모델209
7.7Logisticregression211
7.8Stepwisemodelselection214
7.9모델을만드는원리217
7.10ANCOVA219

Chapter08비모수분석(Non-ParametricTests)
8.1점4개로0에가까운p-value만들기225
8.2정규성검정에대한고찰226
8.3첨도(Kurtosis)와왜도(Skewness)227
8.4카이제곱검정법230
8.5Ranksumtest(Mann-WhitneyUtest)233
8.6Wilcoxonsigned-ranktest235
8.7ANOVA를대신하는비모수검정법236

Chapter09문제및사례

출판사 서평

대학원을다니며놀랐던점중하나는많은연구자들이통계에대한기초지식없이데이터를분석하고논문을작성한다는것이다.이들은3개의실험군중두실험군을골라정규성검정(Normalitytest)도없이t-test를수행하고,선형회귀(Linearregression)를수행한후잔차(Residual)를분석하지않는다(만일이런행태가괜찮다고생각한다면이책을정독할필요가있다).이런원시적이고초보적인수준의오류는우리대학원에만연해있으며,그런식으로통계를돌려논문을작성하면좋은저널에서는바로게재거부(Rejection)결정을내릴것이다.이걸작성자탓만할수없는게,대학원에서는이런실용적인통계기술을잘가르치지않는다.통계학과에서여러수업을개설하지만,그런수업은대체로이론적인면에치중되어있다.애당초통계학강사들은실험경험이거의없는경우가많아수식만설명할뿐현실과동떨어진이야기를자주한다.실용통계를제대로가르치기위해서는통계지식을갖출뿐만아니라직접실험을설계,수행하며밤새데이터를모아보고,그데이터로실험논문을작성해발표한경험이있어야한다.이런조건을갖춘강의자가드물기에논문작성에실질적으로필요한통계기술을배울기회는많지않다.통계분석은연구의부수적인부분이아니라핵심요소중하나인데,이를간과하고논문을쓰는것은개탄스러운일이다.

이런문제의식속에서나는2020년부터생명과학부대학원생을대상으로실용적인통계특강을진행했다.수업이쉽고친절하다는입소문을타면서서울대학교화학부와고양명지병원에서도강의요청이들어왔다.통계특강을열때마다지원자가많아모두에게수강의기회를줄수없었다.몇몇타과학생은통계특강을수강하고싶다며절실함가득한메일을보내기도했다.나또한제한된시간에모든통계이야기를할수없어아쉽기도했다.때문에이런실용통계기술을더널리소개하고싶어,실험논문작성에필요한통계기술을한권의책으로묶었다.

통계학의철학과기술을최대한알기쉽게전달해서,실험연구에익숙한독자가스스로자신의데이터를분석할수있도록만드는것이이책의목표이다.그분석결과를논문에어떻게쓰는지아는것도중요하다.복잡한수식만앞세우는그런책이아니라,이론에도충실하면서내용을알기쉽게전달하는것이이책의특징이라할수있다.이책을읽은연구자가자신의데이터에가장알맞은통계검정법을자신있고정확하게사용하여좋은저널에논문으로출간하기를희망한다.

이교재를검토해여러오류를잡아준서울대학교생명과학부의김재승에게감사를표한다.이책을선택해준박영사와정연환선생님,편집을맡아준김민조선생님께감사드린다.무엇보다도어려울때나즐거울때나늘힘이돼준나의가족에게이책을바친다.

저자최지범