칼포퍼 원전+번역문

과학적 발견의 논리, II부 8장 확률

이윤진이카루스 2017. 10. 8. 00:14

* 원저자에 의하여 10장으로 건너뛸 것이 권유되는 8장입니다. 수열에 대한 전문적인 내용이 너무 어려워서 역자 또한 번역이 불가능한 경우도 많고, 기호 또한 첨부파일에만 표현될 정도로 다양합니다: 역자.

 

 

8

확률

 

 

이 장()에서 나는 사건들의 확률과 그 확률로 인하여 제기되는 문제들을 다루기만 하겠다. 그 문제들은 우연의 게임이론과 관련하여 그리고 물리학의 확률론적 법칙들과 관련하여 발생한다. 가설들의 확률이라고 지칭될 문제들을 빈번히 시험되는 이론이 거의 시험되지 않는 이론보다 더 개연적인지와 같은 문제들 - ‘입증(Corroboration)’이라는 제목 하에 79절에서 85절까지에서 토론되도록 나는 남겨놓겠다.

확률론이 포함하는 개념들은 현대 물리학에서 결정적인 역할을 한다. 그럼에도 불구하는 우리에게는 여전히 만족스럽고, 일관적인 확률에 대한 정의(定義)가 결여되어 있다; 혹은, 본질적으로 같은 것인데, 우리에게는 여전히 확률계산에 대하여 만족스러운 공리체계(公理體系: axiomatic system)가 결여되어 있다. 확률과 경험의 관계들도 또한 여전히 해명될 필요가 있다. 이 문제를 연구하면서 우리는 먼저 나의 방법론적 견해들에 대하여 거의 극복될 수 없는 반대의견으로 보일 것을 발견할 것이다. 왜냐하면 확률 서술들이 경험과학에서 그렇게 결정적으로 중요한 역할을 할지라도 그 서술들은 원칙적으로 엄격한 오류판정의 영향을 받지 않는 것으로 판명되기 때문이다. 그럼에도 불구하고 바로 이 장애물은, 나이 이론의 무슨 가치가 있는지를 알아내기 위하여 나의 이론을 시험하는 시금석이 될 것이다.

그리하여 우리는 두 가지 과제에 직면한다. 첫 번째 과제는 확률계산에 대하여 새로운 근거들을 제시하는 것이다. 이것을 나는, 리처드 폰 미제스(Richard von Mises)에 의한 노선을 따라서 확률이론을 빈도이론으로서 전개함에 의하여 수행하려고 노력할 것이지만 그가 수렴 공리(收斂 公理: axiom of convergence)’라고 (혹은 극한 공리[limit axiom]’) 지칭하는 것을 사용하지 않고 다소 약화된 무작위 공리(axiom of randomness)’를 사용할 것이다. 두 번째 과제는 확률과 경험의 관계들 설명하는 것이다. 이것은, 내가 확률 서술들의 결정가능성 문제로 지칭하는 것을 해결함을 의미한다.

나의 소망은, 물리학자들이 확률에 의하여 의미하는 바를 일관적으로 말할 능력도 없이 확률들을 많이 이용하는 현재의 불만족스러운 상황을 완화하는 데 이 연구들이 도움이 될 것이라는 점이다.*

 

47 확률 서술들을 해석하는 문제

 

두 가지 종류의 확률 서술들을 구분함에 의하여 나는 시작하겠다: 숫자들을 통하여 확률을 서술하는 확률 서술들과 내가 수적(數的: numerical) 확률 서술들로 지칭할 숫자들을 통하여 확률을 서술하지 않는 확률 서술들.

그리하여 두 개의 (정품) 주사위를 사용하여 11이 나올 확률은 1/18이다라는 서술은 수적 확률 서술의 보기가 될 터이다. -수적(non-numerical) 서술들은 다양한 종류들일 수 있다. 물과 알코올을 섞어서 우리가 동질의 혼합을 얻는다는 것이 매우 개연적이라는 것은, 합당하게 해석된다면, 아마도 혹시 수적(numerical) 확률 서술로 변할 한 가지 종류의 서술을 예시한다. (예를 들어, ‘...을 얻을 확률은 1에 매우 근접한다’.) 매우 다른 종류의 비-수적(non-numerical) 확률 서술은, 예를 들어, ‘양자론을 부정하는 물리학적 효과의 발견은 매우 비개연적이다일 터이다; 내가 믿기에, 자체의 의미를 왜곡하지 않고는 수적(numerical) 확률 서술로 변형될 수 없고 수적(numerical) 확률 서술과 동등할 수도 없는 서술. 나는 먼저 수적(numerical) 확률 서술을 다루겠다; -수적(non-numerical) 확률 서술들은, 내가 생각하기 덜 중요한데, 다음에 고찰될 것이다.

모든 수적(numerical) 확률 서술과 관련하여, 다음과 같은 질문이 떠오른다: ‘이런 종류의 서술과 특히 이런 종류의 서술이 수행하는 수적(numerical) 주장을 우리는 어떻게 해석할 수 있는가?’

 

 

48 주관적 및 객관적 해석들

 

(라플라스적인) 고전적 확률론은 확률의 수치를, 동등하게 가능한 경우들의 숫자에 의하여 선호될 수 있는 경우들의 숫자를 나눔에 의하여 획득되는 몫으로서 정의(定義)한다. 우리는 아마도, ‘동등하게 가능한동등하게 개연적인에 대한 또 다른 표현일 따름이라는 것과 같은 이 정의(定義)에 반대해서 제기된 논리적 반대론들을 무시할 것이다. 그러나 심지어 그럴 경우에도 우리는 분명하게 적용될 수 있는 해석을 제공하는 것으로서 이 정의(定義)를 수용할 수 없을 터이다. 왜냐하면 그 정의(定義)에는 내가 주관적 및 객관적으로 분류할 몇 가지 다양한 해석들이 잠재하기 때문이다.

확률론에 대한 주관적 해석, ‘수학적 기대치나 가령 정상적인 오류법칙’, 기타 등등과 같은 심리학적 개념을 지닌 표현들을 흔히 사용함에 의하여 제시된다; 그 해석은 자체의 원초적인 개념에서 심리학주의적이다. 그 해석은 확률의 등급을 확실성이나 불확실성, 신념이나 의심의 느낌들에 대한 척도로서 다루는데 그것은 특정 주장들이나 추측들에 의하여 우리 내부에 유발될 것이다. 몇 가지 비-수적(non-numerical) 서술들과 관련하여, ‘개연적(probable)’이라는 단어는 이런 방식으로 매우 만족스럽게 해석될 것이다; 그러나 이 노선들에 따른 해석은 내가 보기에 수적(numerical) 확률 서술들에 관하여 그다지 만족스럽지 않다.

그러나 주관적 해석의 더 새로운 변종이*1 여기서 더 진지한 고찰을 받을 자격이 있다. 이것은 확률 서술들을 심리적으로가 아니라 논리적으로 해석하는데 서술들의 논리적 근사치 지칭될 것에 관한 주장들로서 이다. 우리 모두가 아는 바와 같이, 서술들은 도출가능성이나 양립불가능성이나 상호독립성처럼 서로 다양한 논리적 관계들에 놓일 수 있다; 그리고 논리적-주관적 이론은, 케인즈(Keynes) 주창자인데, 확률 관계를 두 가지 서술들 사이의 특별한 종류의 논리적 관계로서 취급한다. 이 확률 관계의 두 가지 극단적인 경우들은 도출가능성과 모순이다: pq로부터 귀결된다면 서술 q는 또 다른 서술 p에게 확률 1부여한다 언급된다. pq가 서로 부정하는 경우에 q에 의하여 p에게 주어진 확률은 0이다. 이 극단 사이에, 개괄적으로 말해서 다음 방식으로 해석될 다른 확률 관계들이 놓인다: 서술 p의 수적(numerical) 확률은 (q가 주어진), p의 확률이 의존하는 (그리고 p에게 확률을 부여하는’) 저 서술 q에 이미 포함된 것을 자체의 내용이 덜 초월할수록 더 크다.

이것과 심리학주의적 이론 사이의 근친성은, 케인즈(Keynes)가 확률을 합리적 믿음의 등급으로서 정의(定義)한다는 사실로부터 알려질 것이다. 이것에 의하여 그는, p에게 확률을 부여하는저 서술 q로부터 우리가 얻는 정보나 지식의 양에 비추어 서술 p에게 합당한 양의 신뢰를 의미한다 (이 문장의 원문은 By this he means the amount of trust it is proper to accord to a statement p in the light of the information or knowledge which we get from that statement q which 'gives' probability to p.인데 it을 관계대명사 whichthat으로 표현해야 할 듯하다: 역자).

세 번째 해석인 객관적 해석은 모든 수적(numerical) 확률 서술들을, 그 상관빈도로써 사건발생들의 수열 안에서 특정 종류의 사건이 발생하는 상관빈도(relative frequency)에 관한 서술로서 취급한다.

이 해석에 따라서, ‘5가 나오는 이 주사위의 다음 던지기의 확률이 1/6이다라는 서술은 실제도 다음 던지기 관한 주장이 아니다; 오히려 그 서술은 다음 던지기가 한 가지 원소일 뿐인 던지기들의 전체집합에 관한 주장이다. 문제의 서술은, 던지기들의 집합 안에서 5들의 상관빈도가 1/6이라는 것만을 말한다.

이 견해에 따라서, 수적(numerical) 확률 서술들은, 우리가 그 서술들에 빈대 해석을 제공할 수 있다면, 수용될 수 있을 따름이다. 빈도 해석이 주어질 수 없는 저 확률 서술들과, 특히 비-수적(non-numerical) 확률 서술들은 통상적으로 빈도이론가들이 회피한다.

다음 쪽들(pages)에서 나는 확률론을 (수정된) 빈도이론으로서 새롭게 구축하려고 시도하겠다. 그리하여 나는 객관적 해석에 대한 나의 신뢰를 선언한다; 주로 오직 객관적 이론만이 경험과학 안에서 확률 계산의 적용을 설명할 수 있다고 내가 믿기 때문이다. 인정되는 바와 같이, 주관적 이론은 어떻게 확률 서술들을 결정하는가라는 문제에 일관적인 해답을 제공할 수 있다; 그래서 주관적 이론은 객관적 이론보다 일반적으로 더 적은 논리적 난제들에 직면한다. 그러나 주관적 이론이 제시하는 해답은, 확률 서술들이 비-수적(non-numerical)이라는 것이다; 확률 서술들은 항진명제(恒眞命題: tautologies)들이라는 것이다. 그래서 우리가 물리학이 확률론을 이용하는 것을 기억할 때 이 해답은 전혀 수용할 수 없는 것으로 판명된다. (객관적 빈도 서술들은 틀림없이 주관적인 추론들로부터 도출된다고 아마도 베르누이[Bernoulli]의 정리를 교량[bridge]’으로서 사용하여 주장하는 주관적 이론의 변종을 나는 배척한다: 나는 논리적 근거들에 때문에 이 프로그램을 실현될 수 없는 것으로 간주한다.)

 

49 기회 이론에 관한 근본적인 문제

 

확률 이론의 가장 중요한 적용은, 우리가 기회-같은혹은 무작위적사건들이나 사건발생들로 지칭할 것들에 대한 것이다. 이것들은, 사람으로 하여금 모든 알려진 합리적인 예측 방법들이 틀림없이 자체들의 경우에 실패한다고 믿는 경향이 있도록 만드는 많이 실패한 시도들 이후에 - 특유한 종류의 계산 불가능성에 의하여 규정되는 듯하다. 말하자면 우리에게는, 과학자가 아니라 예언자가 그것들을 예측할 수 있을 터이라는 느낌이 있다. 그리고 그럼에도 불구하고, 우리로 하여금 확률 계산이 이 사건들에 적용될 수 있다고 결론을 내리도록 만드는 것은 바로 이 계산 불가능성이다.

우리가 주관적인 이론을 수용한다면, 계산 불가능성으로부터 계산가능성으로의 (다시 말해서, 특정 계산의 적용가능성으로의) 이 다소 역설적인 결론은 역설적이지 않을 것임은 사실이다. 그러나 역설을 피하는 이 방식은 극도로 불만족스럽다. 왜냐하면 그 방법이, 경험과학의 모든 다른 방법들과 대조적으로 확률 계산은 예측들을 계산하는 방법이 아니라는 견해를 수반하기 때문이다. 그 방법은, 주관적 이론에 따라서, 우리가 이미 알고 있는 것에 대한 논리적

변형들을 수행하는 것에 대한 방법일 따름이다; 혹은 더 정확하게 우리가 알지 못하는 것에 대한; 이유인즉 우리가 이 변형들을 수행하는 것은 바로 우리에게 지식이 결핍될 때이기 때문이다. 이 구상은 정말로 역설을 해소하지만, 빈도서술로서 해석되는 무지의 서술이 어떻게 경험적으로 시험되어 입증될 수 있는지를 설명하지 않는다. 그럼에도 불구하고 이것이 정확하게 우리가 지닌 문제이다. 계산 불가능성으로부터 다시 말해서, 무지로부터 우리가 경험적 빈도들로에 관한 서술들로서 해석할 수 있고 그리하여 우리가 실제로 탁월하게 입증된 것으로 발견할 결론들을 우리가 도출할 사실을 우리는 어떻게 설명할 수 있는가?

심지어 빈도이론도 지금까지 이 문제에 내가 지칭하겠는 바와 같이, 기회 이론에 관한 근본적인 문제 - 관하여 만족스러운 해답을 제시할 수 없었다. 이 문제가, 현재의 형태로 이론의 필수적인 부분인 수렴성의 공리와 연결되어 있다는 것이 67절에서 밝혀질 것이다. 그러나 이 공리(公理: axiom)가 제거된 다음에, 빈도이론의 틀 안에서 만족스러운 해답을 발견하는 것이 가능하다. 그 해답은, 우리가 불규칙적인 단일한 사건발생들의 연속으로부터 그 사건발생들의 빈도들의 규칙성이나 안정성으로 우리가 논증하는 것을 허용하는 전제들을 분석함에 의하여 발견될 것이다.

 

50 폰 미제스(VON MISES)의 빈도이론

 

확률 계산의 모든 주요 정리들(theorems)에 대하여 근거를 제공하는 빈도이론은 리처드 폰 미제스(Richard von Mises)에 의하여 최초로 제안되었다.1 그의 근본적인 개념들을 다음과 같다.

확률 계산은 사건들이나 사건발생들의, 다시 말해서 일련의 주사위 던지기들과 같은 반복적 사건들의 특정 우연-같은 혹은 무작위적인 수열들에 대한 이론이다. 이 수열들은 두 가지 공리적(公理的: axiomatic) 조건들에 의하여 우연-같은이나 무작위적으로서 정의(定義)된다: 수렴성의 공리(the axiom of convergence) (혹은 극한-공리[limit-axiom]) 무작위성의 공리(the axiom of randomness). 사건들의 수열이 이 조건들 두 가지 모두를 충족시킨다면 그 수열은 폰 미제스(von Mises)에 의하여 집단(collective)’으로 지칭된다.

집단(collective), 개괄적으로 말해서, 원칙적으로 무한히 계속될 수 있는 사건들이나 사건발생들의 수열이다; 예를 들어 추정적으로 깨질 수 없는 주사위를 사용한 던지기들의 수열. 이 사건들의 각각에는 어떤 특징이나 속성이 있는데, 예를 들어 던져서 5가 나오면 그 사건에는 속성 5가 있다. 수열의 특정 항까지 나타난 속성 5를 지닌 모든 저 던지기들을 우리가 취해 그 던지기들의 숫자를 저 항까지의 던지기들의 전체 숫자로 (다시 말해서 수열에서의 그 항의 서수[序數]) 나눈다면 우리는 저 항까지의 5들의 상관빈도를 얻는다. 우리가 수열의 모든 항까지 5들의 상관빈도를 결정한다면, 우리는 이런 방식으로 새로운 수열을 5들의 상관빈도의 수열 얻는다. 이 빈도들의 수열은 자체가 대응하여 사건-수열이나 속성-수열로 지칭될 사건들의 원래 수열과 구분된다.

집단에 대한 간단한 보기로서 나는 우리가 양자택일(alternative)로 지칭할 것을 선택한다. 이 용어에 의하여 우리는 두 가지 속성들만을 지니기로 예상되는 사건들의 수열을 동전 던지기들의 수열과 같은 의미한다. 한 가지 속성은 (앞면들) ‘1’에 의하여 표시될 것이고 나머지 한 가지 속성은 (뒷면들) ‘0’에 의하여 표시될 것이다. 사건들의 수열은 (혹은 속성들의 수열) 그렇다면 다음과 같이 표상될 것이다:

 

(A) 0 1 1 0 0 0 1 1 1 0 1 0 1 0 ....

 

양자택일과 대응하는 것은 혹은, 더 정확하게, 이 양자택일의 속성 1과 상호관련 되는 것 다음 상관빈도들의 수열이나 빈도-수열이다:

 

(A') O ....

 

이제 수렴성의 공리(the axiom of convergence)(혹은 극한-공리[limit-axiom]’), 사건-수열이 점점 길어짐에 따라서 빈도-수열은 확정된 극한을 향하는 경향이 있다고 상정한다. 우리가 이용하여 작업할 수 있는 한 가지 고정된 빈도 값을 우리가 확보해야하기 때문에 (실제 빈도들에는 진동하는 값들이 있다할지라도) 이 공리(公理: axiom)가 폰 미제스(von Mises)에 의하여 사용된다. 여하한 집단에도 적어도 두 가지 속성들이 있다; 그래서 우리에게 한 집단의 모든 속성들에게 대응하는 빈도들의 극한들이 주어진다면, 우리에게는 소위 그 집단의 분포(distribution)라는 것이 주어진다.

무작위의 공리(The axiom of randomness)나 혹은, 때때로 그것이 지칭되는 바와 같이, ‘배제된 도박 체계의 원리는 수열의 우연-같은 특징에 수학적 표현을 부여하려는 의도를 지닌다. 동전 던지기들의 수열들이 가령 매번 앞면이 세 번 나온 후에 상당히 규칙적인 뒷면들의 출현과 같은 규칙성들을 보인다면 분명히 도박사는 도박 체계의 사용에 의하여 자신의 승률들을 향상시킬 수 있을 터이다. 이제 무작위의 공리는 모든 집단들에 대하여, 그 집단들에게 성공적으로 적용될 수 있는 도박 체계는 존재하는 않는다고 상정한다. 무작위의 공리는, 추정적으로 선호되는 던지기들에 대하여 우리가 어떤 도박 체계를 선택할지라도, 도박이 충분히 길게 지속된다면 선호될 수 있는 것으로서 예상되는 던지기들의 수열에서의 상관빈도들은 모든 던지기들의 수열에서의 상관빈도들과 동일한 극한에 접근할 것임을 우리가 발견할 것임을 상정한다. 그리하여 그 도박 체계에 의하여 도박사가 자신의 승률들을 향상시킬 수 있는 도박 체계가 존재하는 수열은 폰 미제스(von Mises)의 의미에서 집단이 아니다.

그리하여 폰 미제스(von Mises)에게 확률은 집단에서 상관빈도의 극한에 대한 또 다른 용어이다. 그리하여 확률이라는 개념은 사건들의 수열들에만 적용될 수 있다; 케인즈(Keynes)의 관점과 같은 관점으로부터는 전적으로 수용 불가능할 것 같은 제한. 그의 해석이 편협하다고 반대하는 비판가들에게, 폰 미제스(von Mises)는 예를 들어 물리학에서의 확률의 과학적 이용과 확률의 대중적인 사용사례들 사이의 차이점을 강조함에 의하여 답변했다. 그는, 합당하게 정의(定義)된 과학적 용어가 모든 면들에서 부정확하고 과학-이전인 용법과 대응해야 한다는 요구는 오류일 것이라고 지적했다.

확률 계산의 과제, 폰 미제스(von Mises)에 따르면, 오로지 다음 것에 놓인다: ‘도출된 분포들을 지닌 특정 도출된 집단들, 특정 주어진 초기 분포들을 지닌 특정 주어진 초기 집단들로부터 추론하는 것; 요컨대, 주어진 확률들로부터 주어지지 않은 확률들을 계산하는 것.

폰 미제스(von Mises)의 이론이 지닌 두드러진 특징들은 그에 의하여 네 가지 요점들로 요약된다: 집단이라는 개념은 확률이라는 개념에 앞선다; 후자(後者)는 상관빈도들의 극한으로서 정의(定義)된다; 무작위의 공리는 정식화된다; 그래서 확률 계산의 과제는 정의(定義)된다.

 

51 새로운 확률론에 대한 계획

 

집단이라는 개념을 정의(定義)하기 위하여 폰 미제스(von Mises)에 의하여 정식화된 두 가지 공리들(公理: axioms)이나 공준들(公準: postulates)은 강력한 비판에 내가 생각하기에 정당성이 없는 비판 마주쳤다. 특히, 수렴성의 공리를 무작위성의 공리와 결합하는 것에 반대하여 반론들이 제기되었는데,1 극한이라는 수학적 개념을 정의(定義)에 의하여 (다시 말해서, 무작위성의 공리 때문에) 여하한 규칙이나 법칙에 종속되어서는 안 되는 수열에 적용하는 것이 수용될 수 없다는 이유 때문이었다. 왜냐하면 수학적 극한은, 그에 의하여 수열이 결정되는 수학적 규칙이나 법칙의 특징적인 속성일 따름이기 때문이다. 자의적으로 0에 가깝게 선택된 여하한 분수에 대하여 수열에 한 가지 항이 있어 그 항에 뒤따르는 모든 항들이 확정치로부터 저 분수 이하에 의하여 편차를 보인다면 수학적 극한은 이 규칙이나 법칙의 속성일 따름이고, 그렇다면 그것은 모든 항들의 극한으로 지칭된다.

그런 반대론들 맞이하기 위하여 수렴성의 공리를 무작위성의 공리와 연결하는 것을 삼가하고 수렴성만을 다시 말해서 극한의 존재만을 상정하는 것이 제안되었다. 무작위성의 공리에 관하여, 제안은 완전히 그 공리를 포기하던지 (캄케[Kamke]) 더 약한 요건으로 그 공리를 대체하던지 (라이헨바흐[Reichenbach]) 였다. 이 제안들은, 문제의 원인은 무작위성의 공리라고 상정한다.

이 견해들과 대조적으로, 나에게는 수렴성의 공리를 무작위성의 공리 못지않게 비난하는 의향이 있다. 그리하여 나는, 수행될 두 가지 과제들이 있다고 생각한다: 무작위성의 공리에 대한 개선 주로 수학적 문제; 그리고 수렴성의

공리 완전 제거 인식론자들에게는 특별한 관심의 문제. (66참조)

다음에서 나는 먼저 수학적 문제를 그리고 그 다음에 인식론적 문제를 다룰 것을 제안한다.

이 두 가지 과제들 중 첫 번째 과제인 수학적 이론의 재구축에는 자체의 주요 목표로서 수정된 무작위성의 공리로부터 나온 베르누이(Bernoulli) 정리의 편차가 첫 번째 대수들의 법칙(Law of Great Numbers)’ - 있다; 즉 이 목표를 성취하는 데 필요한 것만 요구하기 위하여 수정된. 혹은 더 정확히 하여, 나의 목표는 내가 자체의 세 번째 형태로 지칭하는 것에서 이항공식(Binomial Formula)(때때로 뉴튼의 공식으로 지칭되는) 편차이다. 왜냐하면 이 공식으로부터, 베르누이(Bernoulli)의 정리와 확률론에 관한 다른 극한 정리들이 통상적인 방식으로 획득될 수 있기 때문이다.

나의 계획은 유한집합들에 대한 빈도이론을 먼저 산출하는 것이고 이 틀 안에서 가능한 한 다시 말해서, (‘첫 번째’) 이항공식(Binomial Formula)의 도출까지 이론을 발전시키는 것이다. 무한집합들에 대한 이 빈도이론은, 집합들의 이론의 완전히 기초적인 부분으로 판명된다. 그 빈도이론은 무작위성의 공리를 토론하기 위한 토대를 얻기 위해서만 전개될 것이다.

그 다음에 나는 무한수열들, 다시 말해서 수렴성의 공리를 도입하는 옛 방법에 의하여 무한히 계속될 수 있는 사건들의 수열들로 나아가겠는데 왜냐하면 무작위성의 공리를 우리가 토론하기 위하여 우리에게는 그것이 필요하기 때문이다. 그리고 베르누이(Bernoulli)의 정리를 도출하여 검토한 후에 나는 수렴성의 공리가 어떻게 아마도 제거될지와 결과적으로 어떤 종류의 공리체계가 우리에게 틀림없이 남겨지는지를 고찰하겠다.

수학적 도출의 과정에서 나는 세 가지 다른 빈도 상징들을 이용하겠다: F는 유한집합들에서 상관빈도를 상징할 것이다; F은 무한 빈도-수열의 상관빈도들의 극한을 상징할 것이다; 그리고 마지막으로 F는 객관적 확률, 다시 말해서 불규칙적; 혹은 무작위적혹은 우연-같은수열에서의 상관빈도를 상징할 것이다.

 

52 유한집한 안에서의 상관빈도

 

사건발생들의 유한한 숫자들로 구성된 집합 α, 예를 들어 이 특정 주사위를

사용한 어제의 던지기들의 집합을 고려하자. 이 집합 α, 공집합이 아닌 것으로 전제되는데 말하자면 참고의 틀로서 역할을 하여 (유한) 준거-집합(reference-class)으로 지칭될 것이다. α에 속하는 원소들의 숫자, 다시 말해서 α의 기수(基數: cardinal number)‘N(α)’로 표시되어 α의 숫자로 읽힌다. 이제 또 다른 집합 β가 있도록 하는데 그 집합은 유한하거나 유한이 아닐 것이다. 우리는 β를 우리의 속성-집합(property-class)으로 지칭할 것이다: 그 집합은 예를 들어 5로 나타나거나 (우리가 말할 것과 같이) 속성 5를 지닌 모든 던지기들의 집합일 것이다.

αβ 모두에 속하는 저 원소들의 집합, 예를 들어 이 특정 주사위를 사용하여 실행되어 속성 5를 지닌 던지기들의 집합은 αβ의 적집합(product-class)으로 지칭되어 α.β로 표시되고 αβ로 읽힌다. α.βα의 부분집합이기 때문에 기껏해야 원소들의 유한 숫자를 포함할 수 있다 (α.β는 공집합일지도 모른다). α.β의 원소 숫자는 ‘N(α.β)’로 표시된다.

우리가 원소들의 (유한) 숫자들N에 의하여 상징하는 반면, 상관빈도들F에 의하여 상징된다. 예를 들어, ‘유한 준거-집합 α 안의 속성 β의 상관빈도βα-빈도로 읽힐 αF"(β)’로 적힌다. 우리는 이제

 

(정의[定義] 1) αF"(β) = 라고 정의(定義)한다

 

우리의 보기에 의하여 이것은 다음을 의미할 터이다: ‘이 주사위를 사용한 어제의 던지기들 가운데서 5들의 상관빈도는, 정의(定義)에 의하여, 어제 이 주사위를 사용하여 던져진 5들의 숫자를 이 주사위를 사용한 어제의 던지기들의 합계 숫자로 나눔에 의하여 얻어진 몫이다.’*

이 다소 사소한 정의(定義)로부터, 유한집합들에서의 빈도 계산에 대한 정리들이 (더욱 특히, 일반 곱셈정리; 덧셈정리; 그리고 나눗셈정리, 다시 말해서 베이스[Bayes]의 규칙들. 부록 ii 참조) 매우 쉽게 도출될 수 있다. 이 확률 계산의 정리들 중에서, 그리고 일반적인 확률 계산의 정리들 중에서는 기수(基數: cardinal numbers)들이 (N-숫자들) 나타나는 적이 없고 다만 상관빈도들, 다시 말해서 비례들이나 F-숫자들만 나타난다는 것이 특징적이다. N-숫자들은, 정의(定義)로부터 직접적으로 연역되는 몇 가지 근본적인 정리들에 대한 증거들에서 등장할 따름이다; 그러나 그 숫자들은 정리들 자체에서는 등장하지 않는다.*

이것이 어떻게 이해될 수 있는지는 여기서 한 가지 매우 단순한 보기의 도움을 받아서 밝혀질 것이다. (추가 보기들은 부록 ii에서 발견될 것이다.) β에 속하지 않는 모든 원소들의 집합을 로 표시하자 (읽기: ‘β의 보집합또는 단지: ‘-β’). 그렇다면 우리는 다음과 같이 서술할 것이다.

 

αF"(β) + αF"( )= l

 

이 정리가 F-숫자들을 포함할 따름이지만, 자체의 증거는 N-숫자들을 이용한다. 왜냐하면 그 정리는, 다음을 주장하는 집합들의 계산으로부터 나온 단순한 정리의 도움을 받아서 정의(定義) (1)로부터 귀결되기 때문이다.

N(α.β) + N(α. ) = N(α)

 

53 선택, 독립, 둔감성, 무관성

 

유한집합들에서 상관빈도들을 이용하여 수행될 수 있는 연산들 가운데서 선택이라는 연산은1 다음 것에 대하여 특별히 중요하다.

유한 준거-집합 α, 예를 들어 상자 속의 단추들의 집합과 두 가지 속성-집합들인 β(가령, 붉은 단추들) γ(가령, 큰 단추들) 주어지도록 하라. 이제 우리는 적집합 α.β새로운 준거-집합으로서 생각하여 α.βF"(γ)의 값에 대한, 다시 말해서 새로운 준거-집합 안에서 γ의 빈도에 대한 문제를 제기할 것이다.2 새로운 준거-집합 α.βα로부터 β-원소들을 선택하는 결과속성 β에 따라서 α로부터의 선택으로 지칭될 것이다; 왜냐하면 우리는 그것을, 속성 β(빨강) 지닌 저 모든 원소들을 (단추들) α로부터 선택함에 의하여 획득되는 것으로서 간주할 것이기 때문이다.

이제 γ, 원래 준거-집합 α에서와 동일한 상관빈도를 지니고 새로운 준거-집합 α.β에서 등장할 것임은 가능할 따름이다; 다시 말해서 다음은 참일 것이다.

 

α.βF"(γ) = αF"(γ)

 

이 경우에 우리는, 속성 βγ준거-집합 α 안에서 상호 독립적이라고 말한다 (하우스도르프[Hausdorff]에 따라서). 독립성의 관계는 세 가지-규칙의 관계이고 속성 βγ에서는 대칭적이다. 두 가지 속성 βγ가 준거-집합 α 안에서 (상호) 독립적이라면 우리는 또한, 속성 γα 안에서 β-원소들의 선택에 대하여 둔감(insensitive)하다고 말할 수 있다; 혹은 혹시 준거-집합 α가 이 속성 γ와 관련하여 속성 β에 따른 선택에 둔감하다고.

α 안에서의 βγ의 상호 의존성이나 둔감성은 또한 주관적 이론의 관점에서 다음과 같이 해석될 수 있을 터이다: 우리가, 집합 α의 특정 원소에 속성 β가 있다는 정보를 받으면, βγα 안에서 상호 독립적이라는 조건으로 이 정보가 무관하다; 즉 이 원소에 또한 속성 γ가 있는지 없는지의 문제와 무관하다.*1 다른 한편으로 γ가 부분집합 α.β (β에 따라서 α로부터 선택된) 안에서 더 자주 (혹은 덜 자주) 등장한다는 것을 우리가 안다면, 원소에 속성 β가 있다는 정보는 이 원소에 또한 속성 γ가 있는지 없는지의 문제와 관련이 있다.

 

54 유한수열들. 서수적 선택과 이웃 선택

 

유한 준거-집합 α의 원소들에 숫자가 매겨져(예를 들어 한 가지 숫자가 상자 안에 있는 각 단추 위에 적혀서) 그 원소들이 이 서수들에 따라서 배열된다고 가정하자. 그런 수열 안에서 우리는, 특별한 중요성의 지닌 두 종류의 선택을 구분할 수 있는데 즉 항의 서수에 따른 선택인 간략하게 서수적 선택과

항의 이웃에 따른 선택이다.

서수적 선택, 항의 서수에 (그 선택이 결정될 수 있는) 의존하는 속성 β에 따라서 수열 α로부터 선택을 하는 데 놓여있다. 예를 들어 β짝수 속성일 것이어서 우리는 α로부터 그 서수가 짝수인 저 모든 항들을 선택한다. 그렇게 선택되는 항들은 선택된 부분-수열을 형성한다. 속성 γβ에 따른 서수적 선택으로부터 독립적이라면, 서수적 선택γ와 관련하여 독립적이라고 우리는 또한 말할 수 있다; 혹은 수열 αγ와 관련하여 β-원소들의 선택에 둔감하다고 우리는 말할 수 있다.

이웃 선택, 항들을 숫자가 매겨진 수열 안에 정돈함에서 특정 이웃 관계들이 창조된다는 사실에 의하여 가능하게 된다. 이것으로 인하여 예를 들어 우리는, 그 바로 앞항이 속성 γ를 지니는 혹은 가령 그 첫 번째 및 두 번째 앞항들이나 그 두 번째 후속 항이 속성 γ를 지니는 모든 저 항들을 선택할 수 있게 된다; 기타 등등으로 계속된다.

그리하여 우리에게 사건들의 수열이 있다면 가령 동전 던지기들 우리는 두 가지 종류의 속성들을 구분해야 한다: ‘앞면들이나 뒷면들같은 그 수열의 일차적 속성들로 그 속성들은 수열에서의 자체의 위치와 독립적으로 각 항에 속한다: 그리고 짝수뒷면들의 후속항’, 기타 등등과 같은 그 수열의 두 번째 속성들인데 그 속성들은 항이 수열 속에서 자체의 위치에 의하여 획득한다.

일차적 속성들을 지닌 수열은 양자택일(alternative)’로 지칭되었다. 폰 미제스(von Mises)가 밝힌 바와 같이, 일반성을 희생시키지 않고도 확률론의 본질들을 양자택일들의 이론으로서 전개하는 것이 (우리가 신중하다면) 가능하다. 양자택일(alternative)의 두 가지 일차적 속성들을 숫자 ‘1’‘0’에 의하여 표시하면서 모든 양자택일(alternative)1들과 0들의 수열로서 표상될 수 있다.

이제 양자택일(alternative)의 구조는 규칙적일 수 있거나, 다소 불규칙적일 수 있다. 다음에서 우리는 특정 유한 양자택일들의 규칙성과 불규칙성을 보다 면밀하게 연구할 것이다.*

 

55 유한수열들에서의 N-자유

 

유한 양자택일 α, 예를 들어 다음과 같이 규칙적으로 배열된 1000 항의 1들과 0들로 구성된 유한 양자택일을 생각하자:

 

(α) l 1 0 0 1 1 0 0 1 1 0 0 1 1 0 0...

 

이 양자택일에서 우리는 동등한 분포를 얻는데, 다시 말해서 1들과 0들의 상관빈도들은 동등하다. 우리가 속성 1의 상관빈도를 ‘F" (1)’에 의하여 표시하고 속성 0의 상관빈도를 ‘F" (0)’에 의하여 표시한다면, 우리는 다음과 같이 서술할 수 있다:

 

(1) αF" (1) = αF" (0) =

 

이제 우리는 α로부터 바로 계승하는 (수열 α 안에서) 하나의 1의 이웃-속성을 지닌 모든 항들을 선택할 수 있다. 우리가 이 속성을 β에 의하여 표시한다면 우리는 선택된 부분수열을 α.β로 지칭할 것이다. 그 부분수열은 다음 구조를 지닐 것이다:

 

(α.β) 1 0 1 0 1 0 1 0 1 0...

 

이 수열은 다시 동등한 분포를 지닌 양자택일(alternative)이다. 게다가. 1들이나 0들의 상관빈도는 변하지 않았다; 다시 말해서 우리는 다음을 얻는다.

 

(2) α,βF" (1) =αF" (1); α,βF" (0)= αF" (0).

 

53절에서 도입된 특별한 언어용법으로 우리는, 양자택일(alternative) α의 일차적 속성들은 속성 β에 따른 선택에 둔감하다고 말할 수 있다; 혹은 보다 간략하게 αβ에 따른 선택에 둔감하다고.

α의 모든 항에는 속성 β(하나의 1의 후속 항이 되는 속성) 있거나 하나의 0의 후속 항이 되는 속성이 있기 때문에 우리는 후자(後者) 속성을 에 의하여 표시할 수 있다. 이제 우리가 속성 를 지닌 항들을 선택한다면 우리는 다음 양자택일(alternative)을 얻는다:

 

(α. ) 0 1 0 1 0 1 0 1 0...

 

이 수열은 0으로 시작하여 끝나는 한 동등한 분포로부터 매우 사소한 편차를 드러낸다 (α 자체가 자체의 동등한 분포로 인하여 ‘0, 0’으로 끝나기 때문에). α2000 항들을 포함한다면 α. 5000들을 그리고 단지 4991들을 포함할 것이다. 동등한 분포로부터의 (혹은 다른 분포들로부터의) 그런 편차들은 첫 번째나 마지막 항들 때문에만 발생한다: 그 편차들은 수열을 충분히 길게 만듦에 의하여 우리가 원하는 만큼 작게 만들어질 수 있다. 이 이유 때문에 그 편차들은 다음 것들에서 무시될 것이다; 특히 우리의 연구들은 무한수열들까지 확대될 수 있는데 그 무한수열들에서 이 편차들이 사라진다. 따라서 양자택일 α. 에는 동등한 분포가 있다고, 그리고 양자택일 α는 속성 를 지닌 항들의 선택에 둔감하다고 우리는 말할 수 있다. 결과적으로 α 또는 더 정확하게 α의 일차적 속성들의 상관빈도는 β양쪽 모두에 따른 선택에 둔감하다; 그리고 그리하여 우리는, α바로 앞항의 속성에 따른 모든 선택에 둔감하다고 말할 것이다.

분명히, 이 둔감성은 양자택일 α의 구조에 있는 특정 측면들에 기인한다; 다른 양자택일들로부터 자체를 구분할 측면들. 예를 들어, α.βα. 라는 양자택일들은 앞항의 속성에 따른 선택에 둔감하지 않다.

양자택일 α가 다른 선택들에, 특히 한 의 앞항들이 지닌 속성에 따른 선택에 둔감한지를 알기 위하여 이제 우리는 양자택일 α를 연구할 수 있다. 예를 들어 우리는 α로부터 하나의 쌍 1,1의 후속 항들인 모든 저 항들을 선택할 수 있다. 그래서 우리는, α가 네 가지 가능한 쌍들인 1,1; 1,0; 0,1; 0,0의 여하한 쌍의 후속 항의 선택에 둔감하지 않다는 것을 즉각 안다. 이 경우들 중 어느 경우에도 결과로 나타나는 부분-수열들은 동등한 분포를 지니지 않는다; 반대로, 그 부분-수열들은 모두 연속되는 블럭들(blocks)(혹은반복들[iterations]’), 다시 말해서 1들만으로 혹은 0들만으로 구성된다.

α가 단일한 앞항들에 따른 선택에 둔감하지만 앞항들의 쌍에 따른 선택에는 둔감하지 않다는 사실은, 아마도 주관적 이론의 관점에서 다음과 같이 표현될지도 모른다. α 안에 있는 여하한 항의 한 가지 앞항의 속성에 관한 정보는 이 여하한 항의 속성에 관한 문제와 무관하다. 다른 한편으로, 앞항들 중 여하한 쌍이 지닌 속성들에 관한 정보는 최고의 유관성을 지닌다; 왜냐하면 그 법칙에 따라서 α가 구축되는 법칙을 고려하면, 그 법칙으로 인하여 우리는 문제의 항이 지닌 속성을 예측할 수 있기 때문이다: 앞항들 중 여하한 항의 쌍이 지닌 속성들에 관한 정보는 우리에게, 말하자면, 예측을 연역하는 데 필요한 초기 조건들을 제공한다. (그 법칙에 따라 α가 구축되는 법칙에는 한 쌍의 속성들이 초기 조건들로서 필요하다; 그리하여 그 법칙은 이 속성들과 관련하여 ‘2-차원적이다. 한 가지 속성의 명시[明示], 초기 조건으로서 작동하기

위해서는 불충분한 정도로 합성적임에서만 무관하다. 38절 참조.*)

인과성이라는 원인과 결과라는 - 개념이 예측들의 연역에 얼마나 밀접하게 관계되는지를 기억하기 때문에, 나는 이제 다음 용어들을 사용하겠다. ‘α단일한 앞항에 따른 선택에 둔감하다는 양자택일 α에 관하여 이전에 실행된 주장을 이제 나는 α단일한 앞항들의 사후-결과로부터 자유롭다혹은 간략하게, ‘α1-자유이다라고 말함에 의하여 표현하겠다. 그리고 이전처럼, α앞항들의 쌍들에 따른 선택에 둔감하다 (혹은 둔감하지 않다)’고 말하는 대신에 나는 이제 다음과 같이 말하겠다: ‘α에는 앞항들의 쌍들이 야기하는 사후-결과들로부터 자유롭다 (자유롭지 않다)’, 혹은 간략하게 α2-자유이다 (2-자유가 아니다).’*

1-자유인 양자택일 α를 우리가 사용하는 원형으로서 사용하기에 이제 우리는 다시 동등한 분포를 사용하여 다른 수열들을 구축할 수 있는데 그 수열들에는 한 가지 앞항의 사후 결과들로부터 자유로울, 다시 말해서 1-자유일 (α처럼) 뿐만 아니라 추가적으로 앞항들의 한 쌍이 야기하는 사후 결과들로부터 자유인데, 다시 말해서, 2-자유이다; 그리고 이것 이후에 우리는 3-자유, 기타 등등인 수열들로 계속할 수 있다. 이런 방식으로 우리는, 다음 것에 대하여 근본적인 일반적 개념으로 인도된다. 그 일반적 개념은, 어떤 숫자 n까지의 모든 앞항들의 사후-결과들로부터 자유롭다는 개념이다; 혹은 우리가 말할 바와 같이, n-자유라는 개념. 더 정확하게 n-자유라는 수열의 일차적 속성들의 상관빈도들이 n-둔감’, 다시 말해서 단일한 앞항들에 따른 동시에 앞항들의 쌍들에 따른 동시에 앞항들의 세 쌍들에 따른 ... 동시에 앞항들의 n-쌍들에 따른 선택에 둔감하다는 조건으로 그리고 그 조건으로만 한 가지 수열을

n-자유라고 지칭할 것이다.

1-자유 양자택일 α는 다음 발생 주기를 몇 번이고 반복함에 의하여 구축될 수 있다.

 

(A) 1 1 0 0 ...

 

유사하게 우리가 다음을 동등한 분포를 지닌 2-자유 양자택일의 발생 주기로서 간주한다면 우리는 그 양자택일을 얻는다.

 

(B) 1 0 1 1 1 0 0 0 ...

 

3-자유 양자택일은 다음 발생 주기로부터 획득된다.

 

(C) 1 0 1 1 0 0 0 0 1 1 1 1 0 1 0 0 ...

 

그리고 4-자유 양자택일은 다음 발생 주기로부터 획득된다.

 

(D) 01100011101010010000010111110011 ...

 

불규칙한 수열에 직면했다는 직관적 인상은 그 수열의 n-자유의 숫자 n이 커짐에 따라 더 강력해진다는 것이 보일 것이다.

동등한 분포를 지닌 n-자유 양자택일의 발생 주기는 틀림없이 적어도 2 항들을 포함한다. 보기들로서 주어진 주기들은 물론 다양한 장소들에서 시작할 수 있다; (C)는 예를 들어 자체의 네 번째 항으로써 시작하여 우리는 (C) 대신에 다음을 얻는다.

 

(C) 1 0 0 0 0 1 1 1 1 0 1 0 0 1 0 1 ...

 

수열의 n-자유를 불변으로 남겨두는 다른 변환들이 있다. 모든 숫자의 n에 대하여 n-자유 수열들의 발생 주기들을 구축하는 방법은 다른 곳에서 기술될

것이다.*

n-자유 양자택일의 발생 주기에 우리가 다음 주기의 첫 번째 n 항들을 추가한다면 우리는 길이 2 + n의 수열을 얻는다. 이것에는, 다른 것을 가운데서, 다음 속성이 있다: n + 1 0들과 1들의 모든 배열은, 다시 말해서 모든 가능한 n + 1-항은 적어도 그 수열 안에서 한번은 등장한다.*

 

56 구간들의 수열들. 이항공식의 첫 번째 형태

 

유한수열 α를 고려하여, 우리는 n 연속적인 항들로 구성된 α의 모든 부분-수열을 길이 nα의 구간으로 지칭한다; 혹은 더 간략하게, ‘αn-구간으로. 수열 α에 덧붙여 우리에게 어떤 확정된 숫자 n이 주어진다면 우리는 αn-구간들을 수열로 - αn-구간들의 수열 배열할 수 있다. 수열 α가 주어지면 우리는 α의 첫 번째 n 항들의 구간을 사용하여 시작하는 방식으로 αn-구간들 중에서 새로운 수열을 구축할 것이다. 다음에는 αn + 1까지의 항들의 구간이 온다. 일반적으로 우리는, αx + n 1까지의 항들로 구성되는 구간을 새로운 수열의 x번째 항으로 생각한다. 그렇게 얻어진 새로운 수열은 α의 겹쳐지는 n-구간들의 수열로 지칭될 것이다. 이 명칭은, 새로운 수열의 두 가지 연속적 항들이 (다시 말해서 구간들) 겹쳐서 그 항들이 원래 수열 αn 1 항들을 공유함을 보여준다.

이제 우리는 선택에 의하여, 겹치는 구간들의 수열로부터 다른 n-수열들을 얻을 수 있다; 특히 인접하는 n-구간들의 수열들.

인접하는 n-구간들의 수열은 겹치지 않고 α에서 바로 서로 뒤따른 것과 같은 n-구간들만을 포함한다. 그 수열은, 2n까지 n + 1, 3n까지 2n + 1, 기타 등등의 항들을 지닌 수열이 뒤따르며 예를 들어 원래 수열 α 가운데서 n까지 숫자가 매겨진 항들의 n-구간들로써 시작할 것이다. 일반적으로 인접하는 구간들의 수열은 αk번째 항으로써 시작할 것이고 자체의 구간들은, n + k

1까지 k, 2n + k 1까지 n + k, 3n + k까지 2n + k, 기타 등등으로 숫자가 매겨진 α의 항들을 포함할 것이다.

다음에서, α의 겹치는 n-구간들의 수열들은 α 에 의하여 표시될 것이고 인접하는 n-구간들의 수열들은 α 에 의하여 표시될 것이다.

이제 겹치는 구간들의 수열들 α 을 다소 더 면밀하게 고찰하자. 그런 수열의 모든 항은 αn-구간이다. α 의 한 가지 항이 지닌 일차적 속성으로서, 우리는 예를 들어 혹시 구간이 구성되는 0들과 1들의 순서로 정렬된 n-항을 고려할 것이다. 혹은 더 단순하게 우리는 n-항의 1들의 숫자(1들과 0들의 순서를 무시하고) 그 항의 일차적 속성으로서 간주할 수 있을 터이다. 우리가 m에 의하여 1들의 숫자를 표시한다면 우리는 분명히 m n을 얻는다.

이제 모든 수열 α 으로부터 우리가, 정확하게 m개의 1들을 지닌 수열

α 의 각 항에 속성 m을 귀속시키고 (그리하여 n m 0) α 의 모든 다른 항들에게 속성 (-m) 귀속시켜 특정 m (m n)을 선택한다면 우리는 다시 한 가지 양자택일을 얻는다. 그렇다면 α 의 모든 항들에는 틀림없이 이 두 가지 속성들 중 하나가 있다.

이제, 일차적 속성들인 ‘1’‘0’을 지닌 유한한 양자택일 α가 우리게 주어진다고 다시 상상하자. 1들의 빈도인 αF" (1)p와 같다고 그리고 0들의 빈도인 αF" (0)q와 같다고 상정하자. (우리는 분포가 동등하다고, 다시 말해서 p = q라고 상정하지 않는다.)

이제 이 양자택일 α가 적어도 n1-자유가 (n은 자의적으로 선택된 자연수이기에) 되도록 하라. 그렇다면 우리는 다음 질문을 할 수 있다: 수열 α 안에서 속성 m이 등장하는 빈도는 무엇인가? 혹은 다른 말로, F" (m)의 값은 무엇이 될까?

α가 적어도 n1-자유라는 사실을 넘어서는 어떤 것도 상정하지 않고, 우리는 초보적 산수에 의하여 이 문제를 해결할 수 있다. 해답은 다음 공식에 포함되는데 그 공식의 증명은 부록 iii에서 발견될 것이다:

 

(1) F" (m) = C p q

 

이항공식 (1)의 우변은 뉴튼에 의하여 또 다른 관련성에서 주어졌다. (그리하여 그 공식은 때때로 뉴튼의 공식으로 불린다.) 나는 그 공식을 이항공식의 첫 번째 형태로 지칭하겠다.*

이 공식의 도출과 동시에, 이제 빈도이론이 유한 준거-집합들을 다루는 한 나는 빈도이론을 떠난다. 그 공식은 우리가 무작위성의 공리를 토론하는 데 대한 토대를 우리에게 제공할 것이다.

 

57 무한수열들. 빈도에 대한 가설적 추정들

 

n-자유 유한수열들에 대하여 획득된 결과들을, 발생 주기에 의해 정의(定義)되는 무한 n-자유 수열들에게 확대하는 것은 전적으로 쉽다 (55참조). 우리의 상관빈도들이 관련되는 준거-집합의 역할을 하는 항들의 무한수열은 준거-수열로 지칭될 것이다. 그 수열은 폰 미제스(von Mises)가 의미하는 바의 집단(collective)’에 대략 대응한다.*2

n-자유라는 개념은, 상관빈도의 개념을 전제한다; 왜냐하면 그 개념의 정의(定義)가 둔감해지기를 특정 앞항들에 따른 선택에 둔감해지기를 - 요구하는 것이, 한 가지 속성이 등장하는 상관빈도이기 때문이다. 무한수열들을 다루는 우리의 정리들에서 나는 잠정적으로만 (64절까지) 상관빈도들의 극한이라는 (F으로 표시되는) 개념을 사용하여 유한 집합에서의 상관빈도(F) 대신하겠다. 이 개념의 사용으로 인하여, 우리가 어떤 수학적 규칙에 따라서 구축되는 준거-수열들에 우리 자신을 국한시킨다면, 문제가 발생하지 않는다. 그런 수열들에 대하여 우리는 항상 상응하는 상관빈도들의 수열이 수렴적인지 아닌지를 결정할 수 있다. 상관빈도들의 극한이라는 개념은, 수학적 규칙이 주어지지 않고 단지 경험적 규칙만 (예를 들어 수열을 동전던지기들과 연결하는) 주어지는 수열들의 경우에만 문제를 야기한다; 왜냐하면 이 경우들에는 극한이라는 개념이 정의(定義)되지 않기 때문이다 (51참조).

수열을 구축하는 데 대한 수학적 규칙의 보기는 다음과 같다: ‘수열 αn번째 항은 n4로 나누어질 수 있다는 조건으로만 0이 될 것이다’. 이것은, αF' (1) = 3/4; 그리고 αF' (0) = 1/4라는 상관빈도들의 극한들을 지닌 다음 무한 양자택일을 정의(定義)한다.

 

 

(α) 1 1 1 0 1 1 1 0 ...

 

수학적 규칙으로써 이런 방식으로 정의(定義)되는 수열들을 나는 간략하게 수학적 수열들로 지칭하겠다.

대조적으로 경험적 수열을 구축하는 데 대한 규칙은 예를 들어 다음과 같을 터이다: ‘동전 cn번째 던지기에서 뒷면이 나온다는 조건으로 그리고 그 조건으로만 수열 αn번째 항은 0이 될 것이다.’ 그러나 경험적 규칙들에는 무작위 특성을 지닌 수열들을 정의(定義)할 필요가 항상 있는 것은 아니다. 예를 들어 나는 다음 규칙을 경험적으로서 기술해야겠다: ‘n번째 초에 (어떤 0의 순간으로부터 계산하여) 진동자 p가 이 표시의 왼쪽에 있다는 조건으로만 수열의 n번째 항은 1이 될 것이다.’

그 보기는, 경험적 규칙을 수학적 규칙에 의하여 대체하는 것이 예를 들어 어떤 진동자와 관련된 특정 가설들과 측정들을 토대로 - 때때로 가능할 것임을 보여준다. 이런 방식으로, 우리가 지닌 목표들에 따라서 우리를 만족시키거나 만족시키지 않을 정확도를 지니고 우리의 경험적 수열에 근접하는 수학적 수열을 우리는 발견할 것이다. 우리의 현재 맥락에서 특별한 관심사인 것은, 그 다양한 빈도들이 특정 경험적 수열의 빈도들에 근접하는 수학적 수열을 획득하는 가능성이다 (우리의 보기가 확립하는 데 사용될 수 있을 터인).

수열들을 수학적 및 경험적 수열들로 나누면서 나는, ‘외연적이라기보다는 내포적으로 지칭될 구분을 이용하고 있다. 이유인즉 우리에게 수열이 연달아 외연적으로’, 다시 말해서 자체의 항들을 하나씩 열거함에 의하여 주어진다면 그리하여 우리는 아무리 길지라도 유한 구간인 그 수열의 유한한 부분을 알 수 있을 따름이다 이 구간의 속성들로부터 그 유한한 부분이 한 부분을 이루고 있는 수열이 수학적 수열인지 혹은 경험적 수열인지를 결정하는 것이 불가능하다. 구축에 대한 규칙이 주어질 때만 다시 말해서, ‘내포적 규칙’ - 우리는 수열이 수학적인지 아니면 경험적인지를 결정할 수 있다.

극한이라는 (상관빈도들의) 개념의 도움을 받아서 우리는 우리의 무한수열들을 다루고 싶어 하기 때문에, 우리는 우리의 연구를 수학적 수열들에 그리고 정말로 대응하는 상관빈도들의 수열이 수렴적인 수학적 수열들에만 국한시켜야 한다. 이 제한은 수렴성의 공리(公理)를 도입하는 것에 해당한다. (공리[公理]와 연결된 문제들은 63절에서 66절까지는 다루지지 않을 것인데 이유인즉 그 문제들을 대수들의 법칙[law of great numbers]’과 함께 토론하는 것이 편리한 것으로 판명되기 때문이다.)

그리하여 우리는 수학적 수열들에만 관심을 갖겠다. 그럼에도 불구하고 우리는, 그 수학적 수열들이 빈도들과 관련하여 우연-같거나 무작위적인 특징을 지닌 경험적 수열들에 근접한다고 우리가 예상하거나 추측하는 저 수학적 수열들에만 관심을 갖겠다; 왜냐하면 이것들이 우리의 주요 관심사이기 때문이다. 그러나 수학적 수열에 관하여 그 수열이 빈도들과 관련하여 경험적 수열에 근접할 것이라고 예상하거나 추측하는 것은 가설을 경험적 수열의 빈도들에 관한 가설 세우는 것에 다름이 아니다.

경험적인 무작위 수열들에서 빈도들에 대한 우리의 추산들이 가설들이라는 사실은 우리가 이 빈도들 산출할 방식들에 어떤 영향도 미치지 않는다. 분명히 유한집합들과 관련하여, 우리의 계산들을 시작할 빈도들을 우리가 어떻게 얻는가는 전혀 문제가 되지 않는다. 이 빈도들은 실제 셈에 의하여, 혹은 수학적 규칙으로부터, 혹은 이런저런 종류의 가설로부터 얻어질 것이다. 아니면 우리는 그냥 이 빈도들을 만들어낼 것이다. 빈도들을 산출하면서 우리는 몇 가지 빈도들을 주어진 것으로서 수용하여 다른 빈도들을 그 빈도들로부터 도출한다.

무한수열들에서의 빈도들의 추산들에 관해서 마찬가지다. 그리하여 우리의 빈도 추산들의 근원들에 관한 문제는 확률 계산에 관한 문제가 아니다; 그러나 이것은, 그 문제가 확률론의 문제들에 대한 우리의 토론으로부터 배제될 것임을 의미하지 않는다.

무한 경험적 수열들의 경우에 우리는 우리의 가설적 빈도들의 추산들에 대하여 두 가지 주요 근원들다시 말해서, 그 수열들이 우리에게 드러날 두 가지 방식들 구분할 수 있다. 한 가지 방식은 동등-우연 가설(혹은 동등-확률 가설) 근거한 추산이고 다른 한 가지 방식은 통계적 발견들의 외삽법에 근거한 추산이다.

동등-우연 가설에 의하여 나는, 다양한 일차적 속성들의 확률들이 동등하다고 주장하는 가설을 의미한다: 그 가설은 동등한 분포를 주장하는 가설이다. 동등-우연 가설은 통상적으로 대칭에 대한 고찰들에 근거한다. 고도로 전형적인 보기가, 정육면체의 여섯 면들이 지닌 대칭과 기하학적 등가(等價)에 근거한 주사위놀이에서의 동등한 빈도들에 대한 추측이다.

통계적 외삽법(外揷法: extrapolation)에 근거한 빈도 가설들에 관하여, 사망률들에 대한 추산들은 훌륭한 보기를 제공한다. 여기서 사망률에 관한 통계 자료들이 경험적으로 발견된다; 그리고 과거의 추세들이 지속적으로 매우 거의 안정될 것이라는 혹은 과거의 추세들이 많이 변하지 않을 것이라는 적어도 바로 앞 기간 동안에 - 가설에 근거하여 알려진 경우들에 대한 외삽법(外揷法: extrapolation)이 알려진 경우들로부터, 다시 말해서 경험적으로 분류되어 계산된 사건발생들로부터 실행된다.

귀납주의적 의향들을 지닌 사람들에게는 이 추산들이 지닌 가설적 특징을 간과하는 경향이 있을 것이다: 그들은 가설적 추산, 다시 말해서 통계적 외삽법(外揷法: extrapolation)에 근거한 빈도-예측을 가설적 추산의 경험적 근원들에 대한 빈도-예측과 과거 사건발생들과 사건발생들의 수열들 분류하여 실제로 계산함 혼동할 것이다. 우리가 확률들의 추산들을 다시 말해서, 빈도들에 대한 예측들 분류되어 계산된 과거 사건발생들로부터 (사망률 통계와 같은) ‘도출한다는 주장이 흔히 생긴다. 그러나 논리적 관점에서 이 주장에 대한 정당성이 없다. 우리는 전혀 논리적 도출을 하지 않았다. 우리가 실행했을 것은, 아무 것도 언제나 논리적으로 정당화할 수 없는 검증될 수 없는 가설을 제시한 것이다: 빈도들은 상수로 남아서 외삽법(外揷法: extrapolation)을 허용할 것이라는 추측. 심지어 동등-우연 가설들, 그 가설들이 통계적 경험에 다시 말해서 경험적으로 관찰된 빈도들에 근거한다고 가정하는 몇몇 귀납적 논리 신봉자들에 의하여 경험적으로 도출될 수 있는혹은 경험적으로 설명될 수 있는것으로 주장된다. 그러나 나 자신으로서는, 이런 종류의 가설적 빈도 추산을 실행하면서 우리는 흔히 대칭의 중요성에 관한 우리의 숙고행위들에 의하여 그리고 유사한 고찰들에 의해서만 영향을 받는다고 나는 믿는다. 그런 추측들은 귀납적 관찰사항들이 방대한 수량으로 축적됨에 의해서만 고취되어야 하는 이유를 나는 알지 못한다. 그러나 나는 우리의 추산들에 대한 기원들이나 근원들에 관한 이 문제들에게 많은 중요성을 부여하지 않는다. (2참조) 나의 견해로, 우리가 통계적 외삽법(外揷法: extrapolation)으로부터 얻을 예측성 추산을 포함하여 빈도들에 대한 모든 예측성 추산은 그리고 틀림없이 무한 경험적 수열들을 언급하는 모든 저 예측성 추산들 그 추산이 항상 우리가 관찰사항들을 근거로 단언할 자격이 있는 여하한 것도 멀리 초월할 것이기 때문에 항상 순수한 추측일 것이라는 사실에 관하여 완벽하게 확신하는 것이 더 중요하다.

동등-우연 가설들과 통계적 외삽법(外揷法-extrapolations)들을 내가 구분하는 것은 선험적경험적확률들이라는 고전적 구분과 상당히 잘 대응한다. 그러나 이 용어들이 매우 많은 다양한 의미들로 쓰이기 때문에, 그리고 이 용어들이 게다가 철학적 연상들로 무겁게 오염되어 있기 때문에 더 잘 회피된다.

무작위성의 공리(公理)에 대한 다음 검토에서, 무작위적인 경험적 수열들에 근접하는 수학적 수열들을 찾으려고 나는 시도하겠다; 이것은, 내가 빈도-가설들을 검토하고 있을 것임을 의미한다.*2

 

58 무작위성의 공리(公理)에 대한 검토

 

서수적(序數的: ordinal) 선택이라는 (다시 말해서 위치에 따른 선택) 개념과 이웃-선택이라는 개념 모두는 55절에서 도입되어 설명되었다. 이 개념들의 도움을 받아서 이제 나는 폰 미제스(von Mises)의 무작위성의 공리(公理)배제된 도박 체계의 원리 검토하겠는데 더 약한 요건임에도 불구하고 그 공리(公理)를 대신할 수 있는 더 약한 요건을 발견하려는 희망에서이다. 폰 미제스(von Mises)의 이론에서 이 공리(公理)’, 집단(collective)이라는 개념에 대한 그의 정의(定義)의 한 부분이다: 그는, 집단 안에서의 빈도들의 극한들이 여하한 종류의 체계적 선택에도 둔감할 것을 요구한다 (이 문장은 원문은 he demands that the limits of frequencies in a collective shall be insensitive to any kind of systematic selection whatsoever인데 demand that절에서 동사를 shall be로 사용하여 요구사항을 나타낼 수 없어서 shall없이 be만 쓰거나 should be로 써야 한다. 문법적 오류이다: 역자). (그가 지적하는 바와 같이, 도박 체계는 항상 체계적 선택으로서 간주될 수 있다.)

이 공리(公理)를 겨냥하여 가해진 비판의 대부분은, 그 공리(公理)의 정식화에 대하여 상대적으로 중요하지 않아서 피상적인 면에 집중한다. 그 비판의 대부분은, 가능한 선택들 가운데는 가령 5가 나오는 저 던지기들의 선택이 있을 것이라는 사실과 관련된다 (이 문장의 원문은 it is connected with the fact that, among the possible selections, there will be the selection, say, of those throws which come up five인데 새로운 문장을 시작되기 때문에 itIt의 오기로 보인다: 역자); 그리고 이 선택 안에서 분명히, 5들의 빈도는 원래 수열 안에 있는 것과 전혀 다를 것이다. 이것이, 폰 미제스(von Mises)가 무작위성의 공리(公理)를 자신이 정식화함에서 문제의 던지기의 결과와 독립적이어서 그리하여 선택될 항의 속성을 이용하지 않고 정의(定義)되는, 자신이 선택들(‘selections’ or ‘choices’) 지칭하는 것에 대하여 말하는 이유이다. 그러나 이 정식화를 겨냥하여 가해진 많은 공격들은, 의심스러운 표현들을 전혀 사용하지 않고도 우리가 폰 미제스(von Mises)의 무작위성의 공리(公理)를 정식화할 수 있다는 것을 지적함에 의해서만 모두 답변될 수 있다. 이유인즉 예를 들어 우리는 그 공리(公理)를 다음과 같이 표현할 것이기 때문이다: 집단(collective)에서 빈도들의 극한들은, 서수적(序數的: ordinal) 선택 및 이웃 선택 모두에 둔감할 것이고 또한 도박 체계로서 사용될 수 있는 이 두 가지 선택의 방법들의 모든 결합들에도 둔감할 것이다.*1

이 정식화와 동시에 위에 언급된 난제들을 사라진다. 그러나 다른 난제들이 남는다. 그리하여 아마도, 그렇게 강력한 무작위성의 공리(公理)로써 정의(定義)된 집단(collective)의 개념이 자기-모순적이 아니라는 것을 증명하는 것은 불가능할 것이다; 혹은 다시 말해서, ‘집단들(collectives)’의 집합이 공집합이 아니라는 것을 증명하는 것. (이것을 증명할 필연성이 캄케[Kamke]에 의하여 강조되었다.) 적어도 집단(collective)보기를 구축하여 저 방식으로 집단들(collectives)이 존재한다는 것을 밝히는 것은 불가능한 듯이 보인다. 이것은,

특정 조건들을 충족시킬 수 있는 무한수열의 보기가 수학적 규칙에 의해서 주어질 수 있을 따름이기 때문이다. 그러나 폰 미제스(von Mises)가 의미하는 바로서의 집단(collective)에 대해서, 정의(定義)에 의하여 그런 규칙이 있을 리가 없는데 왜냐하면 여하한 규칙도 도박 체계로서 혹은 선택의 체계로서 사용될 수 있을 터이기 때문이다. 이 비판은, 모든 가능한 도박 체계들이 배제된다면, 정말로 답변될 수 없는 듯이 보인다.*

모든 도박 체계들을 배제한다는 개념에 반대하여 또 다른 반론이 그럼에도 불구하고 제기될 것이다: 그 개념은 실제로 너무 많은 것을 요구한다는 것. 우리가 서술들의 체계를 이 경우에는 확률 계산에 관한 정리들, 특히 특별 곱셈정리나 베르누이(Bernoulli)의 정리 공리화(公理化)할 작정이라면 선택된 공리(公理)들은 이론체계의 정리들을 도출하는 데 충분해야 할 뿐만 아니라 또한 필연적이기도 해야 한다 (우리가 그 공리[公理]들을 그렇게 만들 수 있다면). 그럼에도 불구하고 모든 선택 이론체계들을 배제하는 것은, 베르누이(Bernoulli)의 정리와 그 정리의 따름정리들(corollaries)을 연역하는 데 불필요한 것으로 밝혀질 수 있다. 이웃-선택의 특별한 집합을 배제할 것을 요구하는 것으로 완전히 충분하다: 자의적으로 선택된 앞항들의 n-개수들에 따른 선택들에 그 수열이 둔감해야 한다고 요구하는 것으로 충분하다; 다시 말해서, 그 수열이 모든 n에 대한 사후-결과들로부터 n-자유이어야 한다고, 혹은 보다 간략하게 그 수열은 절대적으로 자유로워야 한다고.

그리하여 나는 폰 미제스(von Mises)의 배제된 도박 체계의 원리를 모든 n에 대하여 n-자유라는 의미에서 절대적 자유라는 덜 까다로운 요건에 의하여 대체할 것을 제안하고 따라서 우연-같은 수학적 수열들을 이 요건을 충족시키는 저 수열들로서 정의(定義)할 것을 제안한다. 이것의 주요 이점은, 이것이 모든 도박 체계들을 배제하지는 않아서 우리가 의미하는 바에서 절대적으로 자유로운수열들을 구축하는 데 대하여 수학적 규칙들을 부여하여 보기들을 구축하는 것이 가능하다는 것이다. (부록 iv(a)참조) 그리하여 위에 토론된 캄케(kamke)의 반론은 충족된다. 왜냐하면 우리는 이제, 우연-같은 수학적 수열들이라는 개념이 공허하지 않으며 그리하여 일관적임을 증명할 수 있기 때문이다.*

가장 엄격한 규칙들에 부합하는 수학적 수열들로써 우연 수열들이 지닌 고도로 불규칙적인 특징들을 우리가 추적하려고 해야 한다는 것은 혹시 기묘하게 보일 것이다. 폰 미제스(von Mises)의 무작위의 공리(公理)는 처음에는 우리의 직관들을 더 충족시키는 듯이 보일 것이다. 우연 수열이 틀림없이 완전히 불규칙적이어서 우리가 수열을 충분히 길에 지속함에 의하여 추측을 오류로 판정하려고 계속 열심히 노력한다는 조건으로만 수열의 어떤 나중 부분에서 모든 추측된 불규칙성이 실패하는 것으로 발견될 것임을 아는 것은 전적으로 만족스러운 듯이 보인다. 그러나 이 직관적 논증은 또한 나의 제안에게도 도움을 준다. 왜냐하면 우연 수열들이 불규칙적이라면, 더 강력한 이유 때문에 우연 수열들은 한 가지 특정 유형의 규칙적 수열들이 아닐 것이기 때문이다. 그리고 절대적 자유에 대한 우리의 요건은, 중요한 유형일지라도 규칙적 수열의 한 가지 특정 유형을 배제하기만 한다.

그 특정 유형이 중요한 유형일 것임은, 우리의 요건에 의하여 우리는 다음 세 가지 유형들의 도박 체계들을 암묵적으로 배제한다는 사실로부터 알려질 것이다 (다음 절 참조). 첫째 우리는 정상적이거나 순수한* 이웃 선택들을, 다시 말해서 그 안에서 우리가 이웃의 어떤 불변적 특징에 따라서 선택하는 이웃 선택들을 배제한다. 두 번째 우리는, k, n + k, 2n + k . . . 기타 등등으로 숫자가 매겨진 항들과 같은 그 간격이 불변적인 항들을 골라내는 정상적인서수적(序數的: ordinal) 선택을 배제한다. 그리고 마지막으로, 선택의 (예를 들어 자체의 이웃에 어떤 명시된 [불변적인] 특징들이 있다면, 모든 n번째 항의 선택) 이 두 가지 유형들의 [많은] 결합들을 우리는 배제한다. 이 모든 선택들의 특징적인 속성은, 그 선택들이 수열의 절대적 첫 항을 언급하지 않는다는 것이다; 그리하여 그 선택들은, 원래 수열의 숫자매기기가 또 다른 (합당한) 항으로써 시작한다면, 동일한 선택된 부분-수열을 낳을 것이다. 그리하여 나의 요건에 의하여 배제되는 도박 체계들은, 수열의 첫 번째 항을 알지 못하고도 사용될 수 있는 도박 체계들이다: 배제된 체계들은 특정 (선형적[線形的: linear]) 변형들과 관련하여 불변적이다: 그 체계들은 단순한 도박 체계들이다 (43참조). 다만* 절대적 (초기) 항으로부터5 항들의 절대적 간격들을 언급하는 도박 체계들은 나의 요건에 의하여 배제되지 않는다.

모든 n에 대한 n-자유의 - ‘절대적 자유요건은 또한, 우리들 대부분이 의식적이거나 무의식적으로 우연 수열들에 대해서 참이라고 믿는 것과 전적으로 잘 일치하는 듯이 보인다; 예를 들어 주사위의 다음 던지기 결과가

앞선 던지기들의 결과들에 의존하지 않는다는 것. (던지기 전에 주사위를 흔드는 관행은 이 독립성을 확보하려는 의도이다.)

 

59 우연-같은 수열들. 객관적 확률

 

언급된 것을 고려하여 이제 나는 다음 정의(定義)를 제안한다.

사건-수열이나 속성-수열, 특히 양자택일은 자체의 일차적 속성들이 지닌 빈도들의 극한들이 절대적으로 자유롭다, 다시 말해서 앞항들의 n-수의 속성들에 근거한 모든 선택에 둔감하다는 조건으로 그리고 그 조건으로만 우연-같은혹은 무작위적이라고 언급된다. 무작위적인 수열에 대응하는 빈도-극한은, 관련된 수열 안에서 문제의 속성에 대한 객관적 확률로 지칭된다. 그 빈도-극한은 F에 의하여 기호화된다. 이것은 또한 다음과 같이 표현될 것이다. 수열 α를 일차적 속성 β를 지닌 우연-같은 혹은 무작위적-같은 수열로 하라; 이 경우에 다음이 성립한다:

 

αF(β) = αF(β)

 

이제 우리는, 우리의 정의(定義)가 수학적 확률론의 주요 정리들을, 특히 베르누이(Bernoulli)의 정리를 도출하는 데 충분하다는 것을 밝혀야 할 것이다. 후속적으로 64절에서 여기에 주어진 정의(定義)는 그 정의(定義)를 빈도들의 극한이라는 개념과 독립적으로 만들기 위하여 수정될 것이다.*

 

60 베르누이(BERNOULLI)의 문제

 

56절에서 언급된 첫 번째 이항공식, .

 

F" (m) = C p q (1)

 

겹치는 구간들의 유한수열들에 대하여 성립한다. 그 이항공식은, 유한수열 α가 적어도 n1-자유라는 가정을 근거로 도출될 수 있다. 동일한 가정을 근거로,

우리는 무한수열들에 대하여 정확하게 대응하는 공식을 즉각적으로 얻는다; 다시 말해서, α가 무한하고 적어도 n1-자유라면,

 

F(m) = C p q (2)이다.

 

우연-같은 수열들은 절대적으로 자유롭기, 다시 말해서 모든 n에 대하여 n-자유이기 때문에 공식 (2)두 번째 이항공식 또한 틀림없이 그 수열들에게 적용된다; 그리고 그 공식은 우리가 선택할 모든 n의 값에 대하여 정말로 그 수열들에게 적용된다.

다음에서, 우리는 우연-같은 수열들 즉, 무작위 수열들에(앞 절에서 정의[定義]된 바와 같은) 관심을 가질 것이다. 우리는, 우연-같은 수열들에 대하여, 세 번째 이항공식 (3)이 공식 (2)에 덧붙여 틀림없이 성립한다는 것을 밝힐 작정이다; 그 공식은 이렇다.

 

F (m) = C p q (3)

 

공식 (3)은 두 가지 방식들에서 공식 (2)와 다르다: 먼저, 공식 (3)은 겹치는 구간들 의 수열들에 관해서 대신에 인접하는 구간들 의 수열들에 관해서 주장된다. 두 번째, 공식 (3)은 기호 F가 아니라 F를 포함한다. 이것은, 공식 (3)이 함축적으로, 인접하는 구간들의 수열들이 반대로 우연-같거나 무작위적이라는 것을 주장함을 의미한다; 왜냐하면 F, 다시 말해서 객관적 확률은 단지 우연-같은 수열들에 대해서 정의(定義)되기 때문이다.

(3)에 의하여 답변되는, 인접하는 구간들의 수열에서 속성 m의 객관적 확률이라는 문제를 다시 말해서 α F(m)의 값이라는 문제 나는 폰 미제스(von Mises)을 좇아 베르누이(Bernoulli)의 문제라고 부른다. 그 문제의 해답에 관하여 그리고 그리하여 세 번째 이항공식 (3)의 도출에 관하여, α가 우연-같거나 무작위적이라고 가정하는 것이 충분하다. (우리의 과제는, 특별 곱셈정리가 무작위 수열 α의 인접하는 구간들의 수열에 대하여 성립한다는 것을

밝히는 과제와 대등하다.)

공식 (3)에 대한 증명은* 두 가지 단계들로 수행될 것이다. 먼저 우리는, 공식 (2)가 겹치는 구간들의 수열 α 에 대해서뿐만 아니라 인접하는 수열들 α 에 대해서도 또한 성립한다는 것을 증명한다. 두 번째, 우리는 후자(後者)절대적으로 자유롭다는 것을 증명한다. (이 단계들의 순서는 뒤바뀔 수 없는데 왜냐하면 겹치는 구간들의 수열 α 은 분명히 절대적으로 자유롭지않기 때문이다; 사실상, 이런 종류의 수열은 사후-결과들을 지닌 수열들로 지칭될 것에 대한 전형적인 보기를 제공한다.3)

첫 번째 단계. 인접하는 구간들의 수열들 α α 의 부분-수열들이다. 그 수열들은 정상적인 서수적(序數的: ordinal) 선택에 의하여 이것들로부터 얻어질 수 있다. 그리하여 겹치는 수열들에서의 빈도들의 극한들인 F'(m)이 정상적인 서수적(序數的: ordinal) 선택에 둔감하다는 것을 우리가 증명할 수 있다면, 우리는 첫 번째 단계를 완수했다 (그리고 심지어 조금 더 멀리 갔다); 왜냐하면 우리는 다음 공식을 증명할 것이기 때문이다:

 

α F' (m) = F' (m) (4)

 

나는 먼저 n = 2의 경우에 이 증명을 개괄하겠다; 다시 말해서 나는

 

α F' (m)= α F' (m) (m 2) (4a)

 

참임을 증명하겠다; 그런 다음에 모든 n에 대하여 이 공식을 일반화하는 것은 쉬울 것이다.

겹치는 구간들의 수열 α 로부터 우리는 두 가지이자 단지 두 가지 인접하는 구간들의 구별된 수열들 α 를 선택할 수 있다; 한 가지 수열은 (A)에 의하여 표시될 것인데 α 의 첫 번째, 세 번째, 다섯 번째,..., 구간들을, 다시 말해서 숫자들 1,2: 3,4; 5,6;...으로 구성되는 α의 항들의 쌍들을 포함한다. 나머지 한 수열은 (B)에 의하여 표시되는데 α 의 두 번째, 네 번째, 여섯 번째,..., 구간들을 다시 말해서 숫자들 2,3; 4,5; 6,7;..., 기타 등등으로 구성되는 α의 항들의 쌍들을 포함한다. 이제 공식 (4a)두 가지 수열들 (A)(B)하나에 대하여 성립하지 않아서 구간 (다시 말해서 ) 0,0이 가령 수열 (A) 안에서 너무 자주 발생한다고 가정하라; 그렇다면 수열 (B)에서 상보적 편차가 틀림없이 발생한다; 다시 말해서, 구간 0,0충분히 자주 (이항공식과 비교하여 너무 자주’, 혹은 충분히 자주가 아닌’) 발생하지 않을 것이다. 그러나 이로 인하여 α의 전제된 절대적 자유는 부정된다. 왜냐하면 쌍 0,0(B)에서보다 (A)에서 더 자주 발생한다면, 충분히 긴 α의 구간들에서 쌍 0,0은 다른 간격들에서보다 어떤 특징적인 간격들에서 틀림없이 보다 자주 발생하기 때문이다. 더 빈번한 간격들은, 0,0 쌍들이 두 가지 α -수열들 중 하나에 속한다면 존재할 간격들일 터이다 (이 문장의 원문은 The more frequent distances would be those which would obtain if the 0,0 pairs belonged to one of the two α -sequences로 가정법이 사용되었는데 if절에 동사를 과거형인 belonged로 쓰고 주절에서 관계대명사절이 쓰여서 주절의 동사가 would be, 그리고 관계대명사절의 동사가 would obtain으로 쓰였는데 주절동사가 would + 동사원형으로 쓰였기 때문에 관계대명사절의 동사는 과거형 obtained로 써야 한다. 문법적 오류고 다음 문장도 역시 마찬가지로 문법적 오류가 보인다: 역자). 덜 빈번한 간격들은, 두 가지 α -수열들에 속한다면 존재할 간격들일 터이다. 그러나 이로 인하여 가정된 α절대적 자유는 부정될 터이다; 왜냐하면 두 번째 이항공식에 따라서 α절대적 자유, 길이 n의 특정 수열이 여하한 -수열에서 발생하는 빈도가 그 수열 안에서 발생하는 1들과 0들의 숫자에 의존하지 그 수열 안에서의 1들과 0들의 배열에는 의존한지 않는다는 것을 수반하기 때문이다.*

이것은 (4a)를 증명한다; 그리고 이 증명이 여하한 n에 대하여 쉽게 일반화될 수 있기 때문에, (4)의 유효성이 귀결된다; 이것으로 인하여 증명의 첫 번째 단계가 완료된다.

두 번째 단계. α -수열들이 절대적으로 자유롭다는 사실은 매우 유사한 논증에 의하여 밝혀질 수 있다. 다시, 우리는 먼저 α -수열들만 고려한다; 그리고 이 수열들과 관련하여 우선 그 수열들이 1-자유라는 것이 밝혀질 따름이다. 두 가지 α -수열들 중에서 한 가지, 예를 들어 수열 (A)1-자유가 아니라고 가정하라. 그렇다면 (A) 안에서 두 개의 항들로 (특정 α-) 구성되는 구간들 중 적어도 하나 다음에, 가령 구간 0,0 다음에 또 다른 구간 가령 1.1(A)절대적으로 자유라면 그럴 경우일 터인 것보다 틀림없이 더 자주 뒤따른다; 이것은, 이항공식으로 인하여 우리가 기대할 터인 것보다 앞-구간 0,0에 따른 (A)로부터 선택된 부분-수열 안에서 구간 1,1이 더 큰 빈도로 나타날 터임을 의미한다.

그러나 이 가정은 수열 α절대적 자유를 부정한다. 왜냐하면 구간 1,1(A)에서 구간 0,0을 너무 빈번하게 뒤따른다면 보상을 통하여 반대상황이 틀림없이 (B)에서 발생하기 때문이다; 이유인즉 그렇지 않다면 네 가지 항 0,0,1,1α의 충분히 긴 구간에서, 어떤 특징적인 간격들에서 - 즉 문제의 이중 쌍들이 동일한 α -수열에 속한다면 존재할 터인 간격들 너무 자주 발생할 터이기 때문이다. 게다가, 다른 특징적인 간격들에서 그 네 가지 항들은 충분히 자주 발생하지 않을 터이다 , 그 항들이 두 가지 α -수열들 모두에 속한다면 존재할 터인 저 간격들에서. 그리하여 우리는 이전과 동일한 상황에 직면한다; 그리고 우리는 유사한 고찰들에 의하여, 특징적인 간격들에서의 우선적 발생이라는 가정이 가정된 α절대적 자유와 양립할 수 없다는 것을 증명할 수 있다.

이 증명은 다시 일반화될 수 있어서 우리는 α-수열들에 대한 그 수열들이 모든 n에 대하여 1-자유일 뿐만 아니라 n-자유라고도 말할 것이다; 또 그리하여 그 수열들은 우연-같거나 무작위적이라고.

이로 인하여 두 가지 단계들에 대한 우리의 개괄은 완성된다. 그리하여 이제 우리에게는 (4)에서 FF에 의하여 대체할 자격이 있다; 그리하여 이것은, 세 번째 이항공식이 베르누이(Bernoulli)의 문제를 해결한다는 주장을 우리가 수용할 것임을 의미한다.

첨언하여 우리는, 겹치는 구간들의 수열들 α α절대적으로 자유로울때마다 정상적인 서수적(序數的: ordinal) 선택에 둔감함을 밝혔다.

인접하는 구간들의 수열들 α 에 대해서도 역시 마찬가지인데 왜냐하면 α 으로부터의 모든 정상적인 서수적(序數的: ordinal) 선택은, α 으로부터의 정상적인 서수적(序數的: ordinal) 선택으로서 간주될 수 있기 때문이다; 그리고 αα α 모두와 동일하기 때문에 그 선택은 그리하여 틀림없이 수열 α 자체에 적용된다 (이 문장의 원문은 and it must therefore apply to the sequence α itself, since α is identical with both α and α 인데 문장의 종지부가 누락되어 있다: 역자).

그리하여 다른 것들 가운데서, ‘절대적 자유로부터 이것은 이웃 선택의 특별한 유형에 대한 둔감성을 의미한다 정상적인 서수적(序數的: ordinal) 선택에 대한 둔감성이 뒤따른다는 것을 우리는 밝혔다. 쉽게 보일 수 있는 바와 같이 추가적 결론은 순수이웃 선택에 (다시 말해서, 자체의 이웃에 대한 불변적인 규정에 항의 서수적[序數的: ordinal] 숫자에 따라서 변하지 않는 규정 - 따른 선택) 대한 둔감성이다. 그리고 절대적 자유는 이 두 가지 유형의 선택의 모든* 결합들에 대한 둔감성을 수반할 것임이 최종적으로 귀결된다.

 

61 대수의 법칙(THE LAW OF GREAT NUMBERS) (베르누이[BERNOULLI]의 정리)

 

베르누이(Bernoulli)의 정리, 혹은 (11) ‘대수의 법칙은 순전히 산술적 추론에 의하여 우리가 n을 극한 n → ∞까지 가져갈 수 있다는 가정 하에서 세 번째 이항공식으로부터 도출될 수 있다. 그리하여 그 정리는 무한수열들 α에 관해서만 주장될 수 있다; 이유인즉 α -수열들의 n-구간들이 길이에서 무한정으로 증가할 수 있다는 것이 무한수열들 α에서만이기 때문이다. 그리하여 그 정리는 절대적으로 자유로운과 같은 그런 수열들에 관해서만 주장될 수 있는데 왜냐하면 우리가 n을 극한 n → ∞까지 가져갈 수 있는 것은 단지 모든 n에 대하여 n-자유라는 가정 하에서이기 때문이다.

베르누이(Bernoulli)의 정리는, (폰 미제스[von Mises]를 따라서) 내가 베르누이(Bernoulli)의 문제라고 α F(m)의 값이라는 문제라고 지칭했던 문제와 매우 흡사한 문제에 대한 해답을 제공한다. 56절에서 지적된 바와 같이 n-구간은 정확하게 m항의 1들을 포함할 때 속성 m을 지닌다고 언급될 것이다; 그렇다면 이 (유한) 구간 안에서 1들의 상관빈도는 물론 m/n이다. 이제 우리는 다음과 같이 정의(定義)한다: αn-구간에는, 자체의 1들의 상관빈도가 값 αF(l) = p로부터, 다시 말해서 수열 α 안에서의 1들의 확률로부터 δ보다 작게 편차를 낸다는 조건으로 그리고 그 조건으로만 속성 p가 있다; 여기서 δ는 우리가 원하는 대로 0에 가까운 것으로서 (그러나 0과는 다른) 선택된 작은 분수이다. 우리는 다음과 같이 말함에 의하여 이 상태를 표현할 수 있다: n 구간에는 | -p | < δ라는 조건으로 그리고 그 조건으로만 속성 p가 있다; 그렇지 않다면, 그 구안에는 속성 가 있다. 이제 베르누이(Bernoulli)의 정리는, α -수열들 안에서 이런 종류의 구간들의 속성 p를 소유한 구간들의 - 빈도값(the value of the frequency) 즉 확률이라는

문제에 답변한다; 그리하여 그 정리는 α F(p)의 값이라는 문제에 답변한다.

직관적으로 우리는 아마도, δ(δ > 0로써) 고정된다면 그리고 n이 증가한다면 속성 p를 지닌 이 구간들의 빈도와 그리하여 α F(p)의 값도 또한 증가할 것이라고 (그리고 그 값의 증가는 단조로울[monotonic] 것이라고) 추측할 것이다. 베르누이(Bernoulli)의 증명은 (확률 계산에 관한 여하한 교과서에서도 발견될 수 있는) 이항공식의 도움을 받아서 이 증가를 평가함에 의하여 나아간다. 그는, n이 무한히 증가한다면 아무리 작다할지라도 δ의 고정값에 대하여 α F(p)의 값이 최대값 1에 접근함을 발견한다. 이것은 다음에 의하여 기호들로 표현될 것이다.

 

α F(p) = 1 (p의 여하한 값에 대하여) (1)

 

이 공식은, 인접하는 구간들의 수열들에 대한 세 번째 이항공식을 변형함으로부터 귀결된다. 겹치는 구간들의 수열들에 대한 유사한 두 번째 이항공식은 동일한 방식에 의하여 다음 상응하는 공식을 즉각적으로 낳을 터이다.

 

α F(p) = 1 (2)

 

이 공식은, 겹치는 구간들의 수열들과 그 수열들로부터 유래하는 정상적인 서수적(序數的: ordinal) 선택과 그리하여 사후-결과들을 지닌 수열들에 (스몰루호프스키[Smoluchowski]에 의하여 연구된) 대하여 성립한다. 공식 (2) 자체는, 겹치지 않으며 그리하여 n-자유인 수열들이 선택되는 경우에 (1)을 낳는다. (2)는 베르누이(Bernoulli) 정리의 변종으로서 기술될 것이다; 그리고 여기서 베르누이(Bernoulli)의 정리에 관하여 말하는 것은 이 변종에 필요한 부분만 약간 고쳐서 적용된다.

 

베르누이(Bernoulli)의 정리, 다시 말해서 공식 (1)은 말로서 다음과 같이 표현될 것이다. 무작위 수열 α로부터 선택된 어떤 고정된 길이의 긴 유한 구간을, 이 구간 안의 1들의 빈도가 p로부터, 다시 말해서 무작위 수열 α 안의 1들의 확률값으로부터 겨우 작은 고정된 분수에 (우리가 자유롭게 선택할) 의하여 편차를 드러낸다는 조건으로 그리고 그 조건으로만 공정한 표본으로

지칭하자. 그렇다면 우리가 문제의 구간들을 충분히 길게 만든다는 조건으로만 공정한 표본을 발견할 확률이 우리가 원하는 만큼 가깝게 1에 접근한다고 우리는 말할 수 있다.*

이 정식화에서 확률이라는 (혹은 확률값’) 단어는 두 번 등장한다. 여기서 그 단어는 어떻게 해석되거나 번역될 수 있는가? 나의 빈도 정의(定義)의 의미에서 그 단어는 다음과 같이 번역되어야 할 터이다 (나는 확률이라는 단어를 빈도 언어로 두 번 번역하면서 이탤릭체로 표시한다): 모든 충분하게 긴 유한 구간들의 압도적인 다수공정한 표본들일 것이다; 다시 말해서, 그 압도적 다수들의 상관빈도는 자의적으로 고정된 작은 양에 의하여 문제의 무작위 수열의 빈도값 p로부터 편차를 나타낼 것이다; 혹은 더 간략하게: 빈도 p거의 모든 충분히 긴 구간들에서 근사치로 실현된다. (우리가 어떻게 값 p에 도달하는지는 우리의 현재 토론과 무관하다; 그것은, 가령, 가설적 추정의 결과일 것이다.)

베르누이(Bernoulli)의 빈도 α F(p)가 구간의 증가하는 길이 n과 비례하여 단조롭게 증가한다는 것과 그 빈도가 감소하는 n과 비례하여 단조롭게 감소한다는 것과 그리하여 상관빈도의 값은 짧은 구간들에서 상대적으로 드물게 실현된다는 것을 기억하면서 우리는 또한 다음과 같이 말할 수 있다:

베르누이(Bernoulli) 정리는, 더 긴 구간들은 대부분의 경우들에서 증가하는 길이에 비례하여 p로부터 점점 줄어드는 편차들을 보일 반면 절대적으로 자유롭거나 우연-같은 수열들의 짧은 구간들은 p로부터 비교적 큰 편차들을 그리하여 비교적 큰 진동들을 흔히 보일 것이라고 서술한다. 결론적으로, 충분히 긴 구간들에서 대부분의 편차들은 우리가 원하는 만큼 작아질 것이다; 혹은 달리 말해서, 큰 편차들은 우리가 원하는 만큼 드물어질 것이다.

따라서 계산에 의하여 아니면 혹시 다른 경험적 및 통계적 방법들에 의하여 자체의 부분-수열들 안에서 빈도들을 발견하기 위하여 우리가 무작위 수열의 매우 긴 구간을 고려한다면, 우리는 대다수의 경우들에서 다음 결과를 얻을 것이다. 특징적인 평균 빈도가 있어서 전체 구간에서 그리고 거의 모든 긴 부분-구간들에서 상관빈도들이 이 평균으로부터 다소 사소한 편차를 보일 것이지만 반면 더 작은 부분-구간들의 상관빈도들은 이 평균으로부터 더 큰 편차를 보이어 빈번할수록 더 짧게 우리는 그 상관빈도들을 선택한다. 이 통계적으로 발견될 수 있는 유한 구간들의 작용이라는 이 사실은 그 구간들의 유사-수렴적-작용(quasi-convergent-behaviour)로서 언급될 것이다; 또는 무작위 수열들은 통계적으로 안정적이다라는 사실로서.*

그리하여 베르누이(Bernoulli)의 정리는, 큰 구간들은 항상 불변성이나 수렴을 암시하는 방식으로 작용하는 반면 우연-같은 수열들의 더 작은 구간들은 흔히 큰 진동들을 보인다고 주장한다; 요컨대, 작은 구간들에서 우리는 무질서나 무작위성을 발견하고 큰 구간들에서는 질서나 불변성을 발견한다고 주장한다. ‘대수의 법칙(the law of great numbers)라는 표현이 언급하는 것이 이 작용이다.

 

62 베르누이(BERNOULLI)의 정리와 확률 서술들에 대한 해석

 

우리는 방금, 베르누이(Bernoulli)의 언어적 정식화에서 확률이라는 단어가 두 번 등장함을 보았다.

빈도이론가는 두 가지 경우들 모두에서 자체의 정의(定義)에 따라서 이 단어를 번역하면서 어려움을 겪지 않는다: 빈도이론가는 베르누이(Bernoulli)의 정리와 대수의 법칙(the law of great numbers)을 분명하게 해석할 수 있다. 주관적 이론의 옹호자들도 그 이론의 논리적 형태로 동일한 일을 할 수 있는가?

확률합리적 신뢰의 등급으로서 정의(定義)하고 싶어 하는 주관적 이론가는, ‘...의 확률이 우리가 원하는 만큼 가깝게 1에 접근한다라는 단어들이 ‘...라는 것은 거의 확실하1를 의미하는 것으로 해석할 때, 전적으로 일관적이며 그럴 권리가 있다. 그러나 그가 계속해서 ‘... 상관빈도는 주어진 수량보다 적음에 의하여 자체의 가장 개연적인 값 p로부터 편차를 보일 것이라는 것...’, 혹은 케인즈(Keynes)의 말로,2 사건 발생들의 비율이 주어진 수량보다 적음에 의하여 가장 개연적인 비율 p로부터 발산하는 것...’이라고 말할 때 그는 단지 자신의 난제들을 가릴 따름이다. 이것은, 적어도 처음 듣자마자 훌륭한 판단으로 들린다. 그리나 여기서도 우리가 개연적이라는 단어를 (때때로 억제된) 주관적 이론의 의미로 해석한다면 전체 이야기는 다음과 같이 진행된다: ‘상관빈도들이 주어진 수량보다 적음에 의하여 합리적 신뢰의 등급인 값 p로부터 편차를 보인다는 것은 거의 확실하다...’인데 이것은 내가 보기에

전적으로 무의미한 말이다.* 왜냐하면 상관빈도들은 상관빈도들에게만 비교될 수 있어서 상관빈도들로부터만 편차를 보이거나 편차를 보이지 않을 수 있기 때문이다. 그리고 분명히 베르누이(Bernoulli) 정리의 연역 이후에 연역 이전에 그 정리에 주어졌던 것과 다른 의미를 p에게 부여하는 것은 틀림없이 수용될 수 없다.3

그리하여 우리는, 주관적 이론이 베르누이(Bernoulli)의 정리를 통계적 대수의 법칙을 통하여 해석할 수 없다는 것을 안다. 통계적 법칙들의 도출은 빈도 이론의 틀 안에서만 가능하다. 우리가 엄격한 주관적 이론으로부터 시작한다면, 우리는 통계적 서술들에 결코 다다르지 못할 것이다 우리가 베르누이(Bernoulli)의 정리를 사용하여 그 격차를 줄이려고 노력한다할지라도 결코 우리는 통계적 서술들에 다다르지 못할 것이다.*

 

63 베르누이(BERNOULLI)의 정리와 수렴성의 문제

 

인식론적 관점에서, 위에 개괄된 나의 대수의 법칙(the law of great numbers) 연역은 만족스럽지 못하다; 왜냐하면 수렴성의 공리가 우리의 분석에서 수행한 역할이 전혀 분명하지 않기 때문이다.

나는 실제로, 나의 연구를 빈도 극한들을 지닌 수학적 수열들에 국한시킴에 의하여 이런 종류의 공리를 묵시적으로 도입했다. (57 참조.) 결론적으로 우리는 아마도 심지어, 우리가 연구한 결과가 대수의 법칙의 도출 하찮다고 생각하려는 충동을 받을지도 모른다; 왜냐하면 절대적으로 자유로운

수열들이 통계적으로 안정적이라는 사실이 혹시, 함축적으로가 아니라면 공리적으로 가정된 그 수열들의 수렴성에 의하여 수반되는 것으로서 간주될 것이기 때문이다.

그러나 이 견해는, 폰 미제스(von Mises)가 분명하게 증명한 바와 같이, 오류일 터이다. 왜냐하면 베르누이(Bernoulli)의 정리가 그 수열들에 대하여 성립하지 않는다할지라도 수렴성의 공리를 충족시키는 수열들이 있기 때문인데 이유인즉 1에 가까운 빈도로써, p로부터 여하한 정도까지 편차를 드러낼 여하한 길이의 구간들도 그 수열들 안에서 등장하기 때문이다. (이 경우들에서 극한 p의 존재는, 편차들이 무한히 증가할지라도 서로 상쇄한다는 사실에 기인한다.) 그런 수열들은, 대응하는 빈도 수열들이 사실상 수렴적이라 할지라도, 자의적으로 큰 구간들에서 마치 발산적인 것처럼 보인다. 그리하여 대수의 법칙(the law of great numbers)은 수렴성의 공리의 하찮은 결론이 결코 아니어서 이 공리는 그 법칙을 연역하는 데 전적으로 불충분하다 (이 문장의 원문은 Thus the law of great numbers is anything but a trivial consequence of the axiom of convergence, and this axiom is quite insufficient for its deduction.인데 its가 무엇의 소유격인지 불분명하다: 역자의 생각에 따라서 대수의 법칙의 소유격으로 해석했으나 확실하지 않다: 역자). 이것이, 내가 수정한 무작위성의 공리인 절대적 자유의 요건이 제거될 수 없는 이유이다.

그러나 우리의 이론 재구축은, 대수의 법칙(the law of great numbers)이 수렴성의 공리와 독립적일 것이라는 가능성을 제시한다. 왜냐하면 베르누이(Bernoulli)의 정리가 이항공식으로부터 즉각적으로 귀결됨을 우리가 알았기 때문이다; 게다가 나는, 첫 번째 이항공식이 유한수열들에 대해서도 도출될 수 있고 그리하여 물론 수렴성의 공식 없이도 그렇다는 것을 증명했다. 가정되어야 했던 유일한 것은, 준거-수열 α가 적어도 n1-자유였다는 것이었다; 그 가정으로부터 특별 곱셈정리의 유효성이 귀결되었고 그 가정을 사용하여 첫 번째 이항공식의 유효성이 귀결된 가정. 극한으로 이행하기 위하여, 그래서 베르누이(Bernoulli)의 정리를 얻기 위하여 우리는 n을 원하는 만큼 크게 만들 것이라고 가정하는 것이 필요할 따름이다. 이로부터 심지어 유한수열들에 대해서도 그 수열들이 충분히 큰 하나의 n에 대하여 n-자유라면 베르누이(Bernoulli)의 정리가 참임을 보일 수 있다.

그리하여 베르누이(Bernoulli)의 정리 연역은, 빈도 극한의 존재를 공준하는(postulating) 공리에 의존하는 것이 아니라 단지 절대적 자유나 무작위성에 의존하는 듯이 보인다. 극한 개념은 단지 부수적 역할을 할뿐이다: 극한 개념은, 어떤 상관빈도의 구상을 (첫 번째 사례에서 유한집합에 대해서 정의[定義]될 따름이고 그 구상이 없으면 n-자유라는 개념이 정식화될 수 없는) 무한히 계속될 수 있는 수열들에게 적용할 목적으로 사용된다.

게다가, 베르누이(Bernoulli) 자신은 자신의 정리를 고전적 이론의 틀 안에서 연역했는데 고전적 이론은 수렴성의 공리를 포함하지 않는다는 것이 잊혀서는 안 된다; 또한 빈도들의 극한으로서의 확률의 정의(定義)는 고전적 형식주의의 해석일 따름이라는 그리고 유일하게 가능한 해석은 아니다 것도 잊혀서는 안 된다.

나는 나의 추측을 수렴성의 공리에 대한 베르누이(Bernoulli)의 정리의 독립성 n-자유를 (합당하게 정의[定義]) 제외하여 어떤 것도 가정하지 않고 이 정리를 연역함에 의하여 정당화하려고 노력하겠다.* 그리고 나는, 그 일차적 속성들이 빈도 극한들을 소유하지 않는 저 수학적 수열들에 대해서조차 나의 추측이 성립한다는 것을 밝히려고 노력하겠다.

이것이 밝혀질 수 있다는 조건으로만 나는 나의 대수의 법칙(the law of great numbers) 연역을 인식론자의 관점에서 만족스러운 것으로서 간주하겠다. 왜냐하면 우연-같은 경험적 수열들이 내가 유사-수렴적이나 통계적으로 안정된으로서 기술한 저 고유한 작용을 보이는 것은 경험의 사실이기 혹은 그렇다고 적어도 우리는 때때로 듣는다 때문이다. (61절 참조.) 긴 구간들의 작용을 통계적으로 기록함에 의하여 우리는, 상관빈도들이 점점 더 확정값에 접근한다는 것과 그 사이에서 상관빈도들이 진동하는 구간들은 점점 작아진다는 것을 우리는 발견할 수 있다. 매우 많이 토론되고 분석된 이 소위 경험적 사실은 정말로 흔히 대수의 법칙(the law of great numbers)의 경험적 입증으로서 간주되는데 다양한 각도들에서 관찰될 수 있다. 귀납주의적 의향들을 지닌 사상가들은 대부분, 그 경험적 사실을 더 단순한 서술로 환원될 수 없는 근본적인 자연의 법칙으로서 간주한다 (이 문장의 원문은 Thinkers with inductivist leanings mostly regard it as a fundamental law of nature, not reducible to any simpler statement인데 not reducible to any simpler statement이 분사구문이 아니기 때문에 문장 안의 쉼표는 불필요하다: 역자); 수용되기만 해야 하는 우리 세상의 특유함으로서. 그들은, 합당한 형태로 표현되어 예를 들어 수렴성의 공리들의 형태로 이 자연의 법칙은, 그리하여 자연과학의 특징을 띨 터인 확률이론의 토대가 되어야 한다고 믿는다.

이 소위 경험적 사실에 대한 내 자신의 태도는 다르다. 나에게는, 그 경험적 사실이 수열들의 우연-같은 특징으로 환원될 수 있다고 믿는 경향이 있다; 그 경험적 사실이, 이 수열들이 n-자유라는 사실로부터 도출될 것이고 믿는 경향. 나는 확률론 분야에서의 베르누이(Bernoulli)와 푸아송(Poisson)의 탁월한 업적을, 정확하게 이 경험의 사실로 주장되는 것이 항진명제(恒眞命題: tautology)라는 것과 작은 것들에서의 무질서로부터 (그 무질서가 합당하게 정식화된 n-자유의 조건을 충족한다면) 논리적으로 일종의 큰 것에서 안정성을 지닌 질서가 귀결됨을 증명하는 방식을 그들이 발견했다는 것에서 발견한다.

수렴성의 공리를 가정하지 않고 우리가 베르누이(Bernoulli) 정리를 연역하는 데 성공한다면 우리는, 대수의 법칙(the law of great numbers)에 관한 인식론적 문제를 공리적 독립성의 문제로 그리하여 순전히 논리적인 문제로 환원할 것이다. 이 연역은 또한 수렴성의 공리가 모든 실제적 적용사례들에서 (경험적 수열들의 근사치적 작용을 계산하는 시도들에서) 완전히 잘 작용하는 이유를 설명할 터이다. 왜냐하면 수렴적 수열들에 대한 제한이 틀림없이 불필요한 것으로 판명될지라도 수렴적인 수학적 수열들을, 논리적인 원인들 때문에 통계적으로 안정된 경험적 수열들의 근사치적 작용을 계산하는 데 대하여 사용하는 것은 틀림없이 불합리할리가 없기 때문이다.

 

64 수렴성의 공리 제거. ‘우연의 이론에 관한 근본적인 문제의 해답

 

지금까지 빈도 극한들은, 무한수열들에 적용될 수 있는 상관빈도라는 분명한 개념을 제공하는 기능 외에 우리가 확률이론을 재구축하는 데 다른 기능이 없어서 상관빈도라는 개념의 도움을 받아서 우리는 절대적-자유라는 개념을 (사후-결과들로부터) 정의(定義)할 것이다. 이유인즉 앞항들에 따른 선택에 둔감할 필요가 있는 것은 상관빈도이기 때문이다.

앞에서 우리는 암묵적으로 수렴성의 공리를 도입하여 우리의 연구를 빈도 극한들을 지닌 양자택일들에 제한시켰다. 이제 이 공리로부터 우리를 해방시키기 위하여 나는 어떤 다른 제한에 의하여 그 제한을 대체하지 않고 그 제한을 제거하겠다. 이것은 폐기된 빈도 극한의 기능을 이어받을 수 있는 그래서 모든 무한 준거 수열들에 적용될, 빈도 개념을 우리가 구축해야 할 것임을 의미한다.*

이 조건들을 충족시키는 한 가지 빈도 개념은 상관빈도들의 수열의 축적점(a point of accumulation)이라는 개념이다. (α, 주어진 항 다음에 아무리 적을지라도 주어진 수량보다 더 적음에 의하여 α로부터 편차를 보이는 항들이 있다면 수열의 축적점이라고 언급된다.) 이 개념이 모든 무한 준거 수열들에게 무제한으로 적용될 수 있다는 것은, 모든 무한 양자택일에 대하여 적어도 하나의 그런 축적점이 그 양자택일에 대응하는 상관빈도들의 수열에 관하여 틀림없이 존재한다는 사실로부터 알려질 것이다. 상관빈도들은 결코 1보다 클 리도 없고 0보다 작을 리도 없기 때문에 그 빈도들을 지닌 수열은 틀림없이 10에 의하여 유계된다(有界된다: bounded). 그리고 무한 유계(有界: bounded) 수열로서, 그 수열에는 틀림없이 (볼차노[Bolzano]와 바이어슈트라스[Weierstrass]의 유명한 정리에 따라) 적어도 하나의 축적점이 있다.1

요컨대, 양자택일 α에 대응하는 상관빈도들의 수열의 모든 축적점은 α중간빈도(middle frequency)로 지칭될 것이다. 그렇다면 우리는 다음과 같이 말할 수 있다: 수열 α유일한 중간빈도가 있다면, 이것은 동시에 자체의 빈도 극한이다; 그리고 반대로: 수열 α에 빈도 극한이 없다면, 그 수열에는 하나 이상의 중간빈도가 있다.

중간빈도라는 개념은 우리의 목표와 관련하여 매우 합당한 것으로 밝혀질 것이다 (이 문장의 원문은 The idea of a middle frequency will be found

very suitable for our purpose.인데 found 다음에 to be가 누락된 듯하다: 역자). 이전에 pα의 빈도 극한이었다는 것이 우리의 추산이었던 아마도 가설적 추산 것과 꼭 마찬가지로, 이제 우리는 pα의 중간빈도라는 추산으로써 연구를 한다. 그리고 우리가 필요한 특정 예방조치들을 취한다면, 우리는 이 추산된 중간빈도들의 도움을 받아서 우리가 빈도 극한들로써 계산하는 방식과 유사한 방식으로 계산들을 할 수 있다. 게다가 중간빈도라는 개념은 아무런 제한 없이 모든 가능한 무한 준거 수열들에게 적용될 수 있다.

이제 우리가 우리의 기호 αF' (β)를 빈도 극한이라기보다는 중간빈도로서 해석하려고 한다면 그리고 따라서 우리가 객관적 확률의 정의(定義)를 변경하면 (59), 우리의 공식들 대부분은 여전히 도출될 수 있을 것이다. 그러나 한 가지 난제가 나타난다: 중간빈도들은 독특하지 않. 중간빈도가 αF' (β) = p라고 우리가 추산하거나 추측한다면, 이것은 p 외에 αF' (β)의 값들이 있다는 가능성을 배제하지 않는다. 이것이 그렇지 않을 것이라고 우리가 상정한다면 그리하여 우리는 함축에 의하여 수렴의 공리를 도입한다. 다른 한편으로 우리가 그런 유일성의 공준 없이 객관적 확률을 정의(定義)한다면, 우리는 모호한 확률의 개념을 얻는다 (적어도 첫 번째 사례에서); 왜냐하면 특정 상황 하에서 수열은 동시에 절대적으로 자유로운몇 가지 중간빈도들을 지닐 것이기 때문이다 (부록 ivc절 참조). 그러나 우리가 모호하지 않거나 독특한 확률들로써 연구하는 데 익숙하기 때문에 이것은 수용되기 어렵다; 다시 말해서 동일한 속성에 대하여 동일한 준거수열 안에 유일한 하나의 확률 p가 있을 수 있다고 가정하는 데 익숙하기 때문에.

그러나 극한 공리 없이 독특한 확률 개념을 정의(定義)하는 어려움은 쉽게 극복될 수 있다. 우리는 수열이 절대적으로 자유로울것이라고 상정한 이후에 유일성에 대한 요구를 마지막 단계로서 도입할 것이다 (결국 가장 자연스러운 절차가 그러한 바와 같이). 이로 인하여 우리는 우연-같은 수열들에 대한 그리고 객관적 확률에 대한 우리의 정의(定義)의 다음 수정사항을 우리의 문제에 대한 해답으로서 제시하게 된다.

α(하나 혹은 몇 가지 중간빈도들을 지닌) 양자택일로 하라. α1들이,

절대적으로 자유로운유일한 중간빈도 p를 갖도록 하라; 그렇다면 우리는, α가 우연-같거나 무작위라고 그리고 pα 안에서 1들의 객관적 확률이라고 말한다.

이 정의(定義)를 두 가지 공리적 요건들로 나누는 것이 도움이 될 것이다.*

(1) 무작위성의 요건: 양자택일이 우연-같이 되려면, 적어도 하나의 절대적으로 자유로운중간빈도, 다시 말해서 그 양자택일의 객관적 확률 p가 있어야 한다.

(2) 유일성의 요건: 동일한 우연-같은 양자택일의 동일한 속성에 대하여 유일한 확률 P가 있어야 한다.

새로운 공리 체계의 일관성은 이전에 구축된 사례에 의하여 확보된다. 그 수열들이 유일한 확률을 지닌 반면 그럼에도 불구하고 빈도 극한을 지니 않는 수열들을 구축하는 것이 가능하다 (부록 ivb참조). 이것은, 새로운 공리적 요구사항들이 실제로 옛 공리적 요구사항들보다 더 넓거나 덜 요구적임을 보여준다. 우리가 우리의 옛 공리들을 다음 형태로 서술한다면 (우리가 그렇게 할 것과 같이) 이 사실은 훨씬 더 명백해진다:

 

(1) 무작위의 요건: 위에서처럼.

(2) 유일성의 요건: 위에서처럼.

(2) 수렴의 공리: 동일한 우연-같은 양자택일의 동일한 속성에 대하여 자체의 확률 p를 제외하고 추가적인 중간빈도는 존재하지 않는다.

 

제안된 요건들의 체계로부터 우리는 베르누이(Bernoulli)의 정리를 연역할 수 있고, 그 정리를 사용하여 고전적 확률 계산의 모든 정리들을 연역할 수 있다. 이로 인하여 우리의 문제는 해결된다: 이제 수렴성의 공리를 사용하지 않고 빈도이론의 틀 안에서 대수의 법칙(the law of great numbers)을 연역하는 것이 가능하다. 게다가 61절의 공식 (1)과 베르누이(Bernoulli) 정리의 언어적 정식화가 변하지 않은 채로 남을 뿐만 아니라5, 우리가 그 정리에 부여한 해석 또한 변하지 않는 채로 남는다: 빈도 극한이 없는 우연-같은 수열의 경우에 충분히 긴 수열들은 거의 모든 p로부터의 작은

편차들만을 보이는 것은 여전히 참일 것이다. 그런 수열들에서 (빈도 극한들을 지닌 우연-같은 수열들에서와 같이) 유사-발산적으로 작용하는 여하한 길이의 구간들은 물론 때때로 등장할 것인데, 다시 말해서 여하한 수량에 의해서도 p로부터 편차를 보이는 구간들이다. 그러나 그런 구간들은 틀림없이, 그 수열 안에서 모든 (혹은 거의 모든) 구간들이 유사-수렴적으로 작용하는 수열의 극단적으로 긴 부분들에 의하여 보상을 받기 때문에, 상대적으로 드물 것이다. 계산에 의하여 증명되는 바와 같이, 말하자면 이 확장들이 보상하는 발산적으로 작용하는 구간들보다 이 확장들은 몇 가지 규모의 서열들에 의하여 틀림없이 더 길 것이다 (이 문장의 원문은 As calculation shows, these stretches will have to be longer by several orders of magnitude, as it were, than the divergently-behaving segments for which they compensate.인데 문장상의 stretchesorders of magnitude확장들규모의 서열들로 해석했으나 정확한 한글 표현이 무엇인지 알 수 없다: 역자).*

이것은 우연의 이론에 관한 근본적인 문제(49절에서 지칭된 바와 같이) 해결하는 장소이기도 하다. 단칭 사건들의 예측불가능성과 불규칙성으로부터 그 단칭 사건들에 대한 확률 계산 규칙들의 적용가능성으로의 외견상으로 역설적인 추론은 정말로 타당하다. 공정한 근사치의 정도로써, 재발하는 빈도들 중 - ‘중간빈도들중에서 - 오직 한 가지 빈도만 앞항들에 따른 선택에서 발생하여 사후-결과들이 야기되지 않는다는 가설적 가정을 통하여 우리가 불규칙성을 표현한다면 그 추론은 타당하다. 왜냐하면 이 가정들을 근거로, 대수의 법칙(the law of great numbers)이 항진명제적(恒眞命題的: tautological)임을 증명하는 것이 가능하기 때문이다. 말하자면 그 수열 안에서 여하한 것도 이런저런 때에 발생할 비록 몇 가지 것들은 드물게만 - 불규칙 수열에서 특정 규칙성이나 안정성이 매우 큰 부분-수열들에서 나타날 것이라는 결론을 지지하는 것은 수용될 수 있고 자기-모순적이 (때때로 주장되는 바와 같이6) 아니다. 또한 이 결론은 하찮은 것도 아닌데 이유인즉 그 결론과 관련하여 우리에게는 특별한 수학적 도구들이 (볼차노[Bolzano]와 바이어슈트라스[Weierstrass] 정리, n-자유라는 개념, 베르누이[Bernoulli]의 정리) 필요하기 때문이다. 예측불가능성에서 예측가능성으로 혹은 무지에서 지식으로의 외견상 논증의 역설은, 불규칙에 대한 가정인 빈도 가설의 형태로 (사후-결과들이 없는 형태) 표현될 수 있다는 것과 우리가 저 논증의 타당성을 증명하고 싶어 한다면 그 가정이 이 형태로 표현되어야 한다는 것을 우리가 깨달을 때, 사라진다.

이제 왜 옛 이론들인 내가 근본적인 문제라고 지칭하는 것을 공정하게 판단할 수 없었는지가 또한 분명해진다. 주관적 이론은, 인정되는 바와 같이, 베르누이(Bernoulli)의 정리를 연역할 수 있다; 그러나 주관적 이론은 베르누이(Bernoulli)의 정리를 대수의 법칙(the law of great numbers)의 방식을 뒤쫓아 빈도들과 관련하여 일관되게 결코 해석할 수 없다 (62참조). 그리하여 주관적 이론은 확률 예측들의 통계적 성공을 결코 설명할 수 없다. 다른 한편으로 옛 빈도이론은, 자체의 수렴성의 공리에 의하여, 큰 수들에서 명시적으로 규칙성을 상정한다. 그리하여 이 이론 안에서 작은 수들에서의 불규칙성으로부터 큰 수에서의 안정성으로의 추론 문제는 일어나지 않는데 왜냐하면 그 문제가 작은 수들에서의 불규칙성과 (무작위성의 공리) 함께 큰 수들에서의 안정성으로부터 (수렴성의 공리) 특별한 형태의 큰 수들에서의 안정성으로의 (베르누이[Bernoulli]의 정리, 대수의 법칙[the law of great numbers]) 추론을 포함할 따름이기 때문이다.*

수렴성의 공리는 확률 계산 근거들의 필수적인 부분이 아니다. 이 결론으로써 나는 수학적 계산에 대한 나의 분석을 끝낸다.7

이제 우리는 보다 두드러지게 방법론적인 문제들에, 특히 확률 서술들을 결정하는 방법이라는 문제에 대한 고찰로 선회한다.

 

65 결정가능성의 문제

 

어떤 방식으로 우리가 확률 개념을 정의(定義)하거나 공리적 정식화들을 우리가 선택할지라도: 이항공식이 이론체계 안에서 도출될 수 있다면, 확률

서술들은 오류로 판정될 수 없다. 확률 가설들은 관찰될 수 있는 것을 배제하지 않는다; 확률 추산들은 기초명제를 부정하지도 않고 기초명제에 의하여 부정되지도 않는다; 또한 확률 추산들은 유한한 숫자의 기초명제들의 접속에 의하여 부정될 수도 없다; 그리고 따라서 관찰사항들의 유한한 숫자에 의해서 부정될 수가 없기도 하다.

어떤 양자택일 α에 대하여 우리가 동등한-기회 가설들을 제안했다고 가정하자; 예를 들어, 특정 동전을 사용한 던지기들인 동등한 빈도로써 ‘1’‘0’이 나올 것이어서 αF(l) = αF(0) = ½라고 우리가 추산했다고; 그리고 ‘1’이 예외 없이 반복해서 나오는 것을 우리가 경험적으로 발견한다고 가정하자; 그렇다면 의심의 여지없이 실제로 우리는 추산을 포기할 것이고 그 추산이 오류로 판정된 것으로가 간주할 것이다. 그러나 논리적 의미에서 오류판정의 문제는 있을 리가 없다. 이유인즉 우리는 확실히 던지기들의 유한한 수열만을 관찰할 수 있기 때문이다. 그리고 이항공식에 따라서 ½로부터 큰 편차들을 지닌 매우 긴 유한한 구간을 우연히 만날 확률은 극도로 작을지라도, 그럼에도 불구하고 그 확률은 틀림없이 항상 0보다 크다. 심지어 가장 큰 편차를 지닌 유한한 구간의 충분히 드문 사건발생으로 인하여 추산은 그리하여 부정되지 않는다. 사실상 우리는 그 사건발생이 실제로 일어날 것을 틀림없이 기대한다: 이것은 우리의 추산의 결론이다. 그런 구간의 계산될 수 있는 희소성이 확률 추산을 오류로 판정하는 수단이 될 것이라는 희망은 환상에 지나지 않는 것으로 판명되는데 왜냐하면 길고 크게 편차를 보이는 구간의 빈번한 발생도 심지어 더 길고 더 크게 편차를 보이는 구간의 한 차례 발생에 지나지 않는다고 항상 언급될 것이기 때문이다. 그리하여 우리에게 외연적으로 주어진 사건들의 수열들은 없고 그러므로 기초명제들의 유한한 n-숫자도 없는데 그 유한한 n-숫자는 확률 서술을 오류로 판정할 수 있을 터이다.

오직 사건들의 무한수열에 의해서만 규칙에 의하여 내포적으로 정의(定義)확률 추산이 부정될 수 있을 터이다. 그러나 이것은 38절에 제시된 고찰들을 고려하여 (43참조), 확률 가설들은 자체의 차원이 무한하기 때문에 오류로 판정될 수 없다는 것을 의미한다. 그리하여 우리는 실제로 확률 가설들은 경험적으로 정보가 없는 것으로서, 경험적 내용이 없는 것으로서 기술해야 한다.

그럼에도 불구하고 확률들에 대한 가설적 추산들로부터 획득된 예측들을

사용하여 물리학이 이룩한 성공사례들을 보면 그런 견해는 분명히 수용될 수 없다. (이것은 훨씬 이전에 주관적 이론에 의하여 확률 서술들을 항진명제들[恒眞命題: tautologies]로서 해석하는 것에 반대하여 여기서 사용된 것과 동일한 논증이다.) 이 추산들 중 많은 추산들은 다른 물리학적 가설보다 (예를 들어, 결정론적 특징을 지닌 물리학적 가설) 과학적 중요성에서 열등하지 않다. 그리고 물리학자는 자신이 어떤 특정 확률 가설을 경험적으로 확인된 것으로서 수용할 것인지 혹은 자신이 그 가설을 실제로 오류로 판정된 것으로서 다시 말해서 예측의 목적으로서 무익한 것으로서 배척해야 하는지를 통상적으로 매우 잘 결정할 수 있다. 실제적 오류판정, 고도로 비개연적인 사건들을 배제된 것으로서 금지된 것으로서 간주하는 방법론적 결정을 통해서만 획득될 수 있다는 것은 상당히 분명하다. 그러나 무슨 권리로써 그 사건들은 그렇게 간주될 수 있는가? 어디에 우리는 선을 그을 수 있는가? 고도의 비개연성은 어디에서 시작되는가?

순전히 논리적 관점에서 확률 서술들이 오류로 판정될 수 없다는 사실에 대하여 의심의 여지가 있을 리가 없기 때문에 우리가 확률 서술들을 경험적으로 사용한다는 동등하게 의심의 여지가 없는 사실은, 내가 제시하는 구획설정의 기준에 결정적으로 의존하는 방법에 관한 나의 기본적 개념들에 대한 결정적인 타격으로서 틀림없이 보인다. 그럼에도 불구하고 바로 이 개념들을 확고하게 적용함에 의하여 내가 제기한 문제들에 결정가능성이라는 문제인 답변하려고 노력하겠다. 그러나 그렇게 하기 위하여 나는 먼저, 확률 서술들 사이의 논리적 상호-관계들과 확률 서술들의 기초명제들에 대한 논리적 관계들을 모두를 고려하면서, 확률 서술들의 논리적 형태를 분석해야 하겠다.*

 

66 확률 서술들의 논리적 형태

 

확률 추산들은 오류로 판정될 수 없다. 아무리 수가 많고 선호적이라 할지라도 경험적 결과들이 앞면들의 상관빈도가 ½이고 항상 ½일 것임을 최종적으로 증명하지 않는 것을 알기에 물론 그 추산들은 검증될 수도 없고 이것은, 다른 가설들에 대하여 성립하는 것과 동일한 이유들 때문에 그러하다 (이 문장의 원문은 Neither, of course, are they verifiable, and this for the same reasons as hold for other hypotheses, seeing that no experimental results, however numerous and favourable, can ever finally establish that the relative frequency of 'heads' is ½, and will always be ½.인데 문맥상 그러하다로 해석했지만 주어 this의 동사가 누락되어 있다: 역자).

확률 서술들과 기초명제들은 그리하여 서로 부정할 수도 없고 서로 수반할 수도 없다. 그럼에도 불구하고 이것으로부터 확률 서술들과 기초명제들 사이에 어떤 종류의 논리적 관계들로 성립하지 않는다고 결론을 내리는 것을 잘못일 터이다. 그리고 논리적 관계들이 이 두 가지 종류의 서술들 사이에 정말로 존재하는 (관찰사항들의 수열들이 분명히 빈도 서술과 다소 밀접하게 일치할 것이기 때문에) 반면, 이 관계들의 분석으로 인하여 우리가 고전적 논리의 족쇄들을 부셔버리는 특별한 확률론적 논리를 도입해야 한다고 믿는 것도 동등하게 오류일 터이다. 그런 견해들에 반대하여 나는 문제의 관계들이 연역가능성부정(contradiction)이라는 고전적인논리적 관계들을 통하여 완전히 분석될 수 있다고 믿는다.*1

확률 서술들의 오류판정 불가능성과 검증불가능성으로부터 그 서술들에는 오류로 판정될 수 있는 결론들이 없다는 것과 그리하여 그 서술들 자체는 검증될 수 있는 서술들의 결론들일 수가 없다는 것이 추론될 수 있다. 그러나 반대 가능성들이 배제되지 않는다. 왜냐하면 (a) 그 서술들에는 일방적으로 검증될 수 있는 결론들이 (순전히 존재적 결론들이나 있다-결론들[there-is-consequences]) 있거나 (b) 그 서술들 자체가 일방적으로 오류로 판정될 수 있는 전칭명제들의 (-서술들[all-statements]) 결론들일 것이기 때문이다.

확률 (b)는 확률 서술들과 기초명제들 사이의 논리적 관계를 설명하는 데 도움이 되지 않을 것이다: 오류로 판정될 수 없는 서술 다시 말해서 거의 말하는 게 없는 서술은, 오류로 판정될 수 있어서 더 많은 것을 말하는 서술의 결론 집합(consequence class)에 속할 수 있다는 것은 아주 명백하다.

우리에게 더 큰 관심사인 것은 전혀 하찮지 않아서 사실상 확률 서술들과 기초명제들 사이의 관계를 우리가 분석하는 데 근본적인 것으로 판명되는 가능성 (a)이다. 왜냐하면 모든 확률 서술로부터 존재서술들의 무한집합이 연역될 수 있지만 역순으로는 연역될 수 없다는 것을 우리가 발견하기 때문이다. (그리하여 확률 서술은 이 존재서술들 중 어떤 존재서술보다도 더 많은 것을 주장한다.) 예를 들어, p를 특정 양자택일 대하여 가설적으로 추산된 확률로 하라 (그리고 0 p 1로 하라); 그러면 우리는 이 추산으로부터 예를 들어 1들과 0들 모두가 수열에서 출현할 존재적 결론을 연역할 수 있다. (물론 많은 훨씬 덜 단순한 결론들도 또한 뒤따른다 예를 들어 매우 작은 수량에 의해서만 p로부터 편차를 보이는 저 구간들이 발생할 것이다. [이 문장의 원문은 Of course many far less simple consequences also follow for example, that segments will occur which deviate from p only by a very small amount.인데 thatthose의 오기로 보인다: 역자].)

그러나 우리는 이 추산으로부터 훨씬 더 많은 것을 연역할 수 있다; 예를 들어 속성 ‘1’을 지닌 항과 속성 ‘0’을 지닌 또 다른 항이 반복적으로있을 것이라는 점; 다시 말해서 여하한 x 이후에 수열 안에서 속성 ‘1’을 지닌 y항과 또한 속성 ‘0’을 지닌 z항이 발생할 것이라는 점. 이런 형태의 서술은 (‘모든 x에 대하여 관찰가능하거나 외연적으로 시험 가능한 속성 β를 지닌 y가 있다’) 오류로 판정될 수 없기도 하고 그 서술에는 오류로 판정될 수 있는 결론들이 없기 때문에 검증될 수도 없기도 그 서술을 가설적으로 만든 모든이나 모든 ...에 대한때문에 하다.* 그럼에도 불구하고 그 서술은 우리가 그 서술의 존재적 결론들 중에서 많은 결론들을 검증하는 데 성공하거나 결론들을 거의 검증하지 못하거나 하나도 검증하지 못할 것이라는 의미에서 더 잘 혹은 덜 잘 확인될수 있다; 그리하여 그 서술은, 확률 서술들의

특징으로 보이는 관계에서 기초명제와 관련된다. 위의 형태의 서술들은 보편화된 존재명제들이나 (보편화된) ‘존재가설들로 지칭될 것이다.

나의 주장은, 기초명제들에 대한 확률 추산들의 관계와 그 추산들이 더 많이 혹은 더 적게 잘 확인되는가능성은 모든 확률 추산들로부터 존재가설들이 논리적으로 연역될 수 있다는 사실을 고찰함에 의하여 이해될 수 있다는 것이다. 이것은, 확률 서술들 자체가 아마도 존재적 가설들의 형태를 지니지 않을 것인지의 문제를 제기한다.

모든 (가설적) 확률 추산은, 문제의 경험적 수열이 거의 우연-같거나 무작위적이라는 추측을 수반한다. 다시 말해서, 그 추산은 확률 계산 공리들의 (근사치적) 적용가능성과 진실성을 수반한다. 그리하여 우리가 지닌 문제는, 이 공리들이 내가 존재가설들로 지칭한 것을 표상하는지의 문제와 대등하다.

64절에서 제시된 두 가지 요건들을 우리가 검토한다면 무작위성의 요건이 사실상 존재가설의 형태를 지님을 우리는 발견한다. 다른 한편으로 유일성의 요건은 이 형태를 지니지 않는다; ‘오직 하나의 ...가 있다라는 형태의 서술에는 틀림없이 전칭명제의 형태가 있기 때문에 유일성의 요건은 그 형태를 지닐 리가 없다. (그런 형태의 서술은 하나 이상의...가 없다모든...은 동일하다로서 번역될 수 있다.)

확률 서술들과 기초명제들 사이에서 논리적 관계를 확립하는 것은 아마도 지칭될 바와 같이 확률 추산들의 존재적 요소들과 그리하여 무작위성의 요건뿐이라는 것이 이제 여기서 나의 주장이다. 따라서 유일성의 요건은 전칭명제로서 어떤 외연적 결론들도 지니지 않을 터이다. 요구된 속성들을 지닌 값 p가 존재한다는 것은 정말로 외연적으로 확인될수 있다 물론 잠정적으로만 일지라도; 그러나 오직 하나의 그런 값이 존재하는 것은 확인될 수 없다. 이 후자(後者) 서술은 전칭인데 기초명제들이 그 서술을 부정할 수 있다는 조건으로만 외연적으로 유의미할 터이다; 다시 말해서 기초명제들은 하나 이상의 그런 값의 존재를 증명할 수 있을 터이라면. 기초명제들을 그런 값의 존재를 증명할 수 없기 때문에 (왜냐하면 오류판정 불가능성은 이항공식과 밀접하게 연결된 것을 우리가 기억하기 때문에), 유일성의 요건은 틀림없이 외연적으로 무의미하다.*

이것이, 우리가 이론체계로부터 유일성의 요건을 배제한다면 확률 추산과

기초명제들 사이에 성립하는 논리적 관계들과 확률 추산에 대하여 등급이 매겨진 확인가능성이 영향을 받지 않는 이유이다. 이렇게 함에 의하여 우리는 이론체계에 순수 존재가설의 형태를 부여할 수 있을 터이다. 그러나 그럴 경우에 우리는 확률 추산들의 유일성을 포기해야 할 터이고,* 그리하여 (유일성에 관한 한) 통상적인 확률 계산과 다른 것을 얻을 터이다.

그리하여 유일성의 요건은 분명히 불필요하지 않다. 그렇다면 그 요건의 논리적 기능은 무엇인가?

무작위의 요건이 확률 서술들과 기초명제들 사이 관계를 증명하는 데 도움이 되는 반면, 유일성의 요건은 다양한 확률 서술들 자체 사이의 관계들을 규제한다. 유일성의 요건이 없다면 이 확률 서술들 중 몇몇은 아마도 존재가설들로서 다른 확률 서술들로부터 도출될 수 있지만 그 확률 서술들은 결코 서로 부정할 수는 없을 터이다. 유일성의 요건만이, 확률 서술들이 서로 부정할 수 있다는 것을 보장한다; 왜냐하면 이 요건에 의하여 확률 서술들은, 그 구성요소들이 전칭명제이고 존재가설인 접속의 형태를 얻기 때문이다; 그리고 이런 형태의 서술들은, 여하한 이론의 예를 들어 오류로 판정될 수 있는 이론 - ‘정상적인전칭명제들이 할 수 있는 것과 정확하게 동일한 논리적 관계들에서 (대등함, 도출가능성, 양립가능성 그리고 양립불가능성) 서로 관계를 맺을 수 있다.

이제 우리가 수렴성의 공리를 고찰한다면, 그 공리에는 오류로 판정될 수 없는 전칭명제의 형태가 있기 때문에 그 공리는 유일성의 요건과 같다는 것을 우리는 발견한다. 그러나 그 공리는 우리의 요건이 요구하는 것보다 더 많은 것을 요구한다. 그러나 이 추가적 요구는 또한 외연적 중요성을 지닐 수 없다; 게다가 그 추가적 요구에는 논리적이거나 형식적 중요성은 없고 다만 내포적 중요성이 있다: 그 추가적 요구는, 빈도 극한들이 없는 모든 내포적으로 정의(定義)(다시 말해서 수학적) 수열들의 배제에 대한 요구이다. 그러나 적용사례들의 관점에서, 이 배제는 심지어 내포적으로도 중요성이 없는 것으로 판명되는데 왜냐하면 응용확률론에서 우리는 물론 수학적 수열들 자체들을 다루지 않고 다만 경험적 수열들에 관한 가설적 추산들을 다루기 때문이다. 빈도

극한들이 없는 수열들의 배제는 그리하여, 그 경험적 수열들에 대하여 그 수열들에는 빈도 극한이 없다고 우리가 가정하는 저 경험적 수열들은 우연-같거나 무작위적인 것으로서 우리가 취급하는 것을 경고하는 역할을 할 수만 있을 터이다. 그러나 이 경고에 반응하여 우리는 어떤 가능한 행동을 취할 수 있을 터인가? 발산의 기준들이 경험적 수열들에 적용될 수 없듯이 수렴성의 기준들도 경험적 수열들에 적용될 수 없는 것을 알기에 이 경고를 고려하여 우리는 경험적 수열들의 가능한 수렴이나 발산에 관하여 어떤 종류의 고찰들이나 추측들에 몰두하거나 그 고찰들이나 추측들을 삼가야 하는가? 이 모든 당혹스러운 질문들은 수렴성의 공리가 제거되자마자 사라진다 (이 문장의 원문은 All these embarrassing questions 5 disappear once the axiom of convergence has been got rid of.인데 종속절에서 현재완료 형태로 표현된 has been got rid of는 시제 상으로 현재로 표현하여 is got rid of로 쓰는 것일 옳다: 역자).

그리하여 우리의 논리적 분석으로 인하여 이론체계의 다양한 부분적 요건들의 형태와 기능 모두가 투명해지고, 어떤 이유들로 무작위성의 공리는 불합리하고 유일성의 요건은 합당한지가 밝혀진다. 그러는 동안 결정가능성이라는 문제는 점점 더 악화되는 듯하다. 그리고 우리에게는 우리의 요건들을 (혹은 공리들) ‘무의미하다고 지칭할 의무는 없을지라도, 마치 우리가 그 요건들을 비-경험적으로 억지로 기술해야 하는 것처럼 보인다. 그러나 확률 서술들에 대한 이 기술은 그 기술을 표현하기 위하여 우리가 어떤 단어들을 사용할지라도 우리의 접근방식의 주요 개념을 부정하지 않는가?

 

67 사변적 형이상학의 확률론적 이론체계

 

물리학에서의 가장 중요한 확률 서술들의 이용은 이렇다: 특정 물리학적 규칙성들이나 관찰될 수 있는 물리학적 효과들은 거시 법칙들(macro laws)’로서 해석된다; 다시 말해서 그것들은 대량 현상들로서 혹은 가설적이나 직접적으로 관찰될 수 없는 미시적(micro) 사건들의 관찰 가능한 결과들로서 해석되거나 설명된다. 거시 법칙들은 다음 방법에 의하여 확률 추산들로부터 연역된다: 문제의 관찰된 규칙성과 일치하는 관찰들이 1에 매우 근접한 확률로써, 다시 말해서 우리가 선택하는 대로 작아질 수 있는 수량에 의하여 1로부터 편차를 보이는 확률로써 기대될 수 있음을 우리는 증명한다. 우리가 이것을 증명했을 때, 우리의 확률 추산에 의하여 우리가 문제의 관찰 가능한 효과를 거시 효과로서 설명했다고 우리는 말한다.

그러나 우리가 이런 방식으로 확률 추산들을 특별한 사전 주의사항들을 도입하지 않고 관찰 가능한 규칙성들에 대한 설명과 관련하여 사용한다면, 우리는 일반적인 용법에 따라서 사변적 형이상학에 전형적인 것으로 잘 기술될 수 있는 사변들에 즉각적으로 빠지게 된다.

왜냐하면 확률 서술들은 오류로 판정될 수 없어서, 확률 추산들에 의하여 우리가 원하는 여하한 규칙성도 설명하는것이 이런 정도로 틀림없이 항상 가능하기 때문이다. 예를 들어 중력의 법칙을 고려하라. 우리는 다음 방식으로 이 법칙을 설명하기위하여 가설적 확률 추산들을 고안할 것이다. 우리는 어떤 종류의 사건들을 기초적이거나 원자적 사건들로서 작동하기 위하여 선택한다; 예를 들어 미립자의 운동. 우리는 이 사건들의 일차적 속성이 될 수 있는 것을 또한 선택한다; 예를 들어 입자가 움직이는 방향이나 속도. 그런 후에 우리는, 이 사건들이 우연-같은 분포를 보인다고 가정한다. 마지막으로 특정 유한 공간영역 안의 그리고 특정 유한 기간 동안의 특정 우주적 기간’ - 모든 입자들이 특화된 정확성으로 우연히 중력의 법칙에 의하여 요구되는 방식으로 움직일 것이라는 확률을 우리는 계산한다. 계산된 확률은 물론 매우 작을 것이다; 사실상 무시될 정도로 작을 것이지만 여전히 0은 아닐 것이다. 그리하여 사건들의 축적의 결과로서 우리의 관찰들이 중력의 법칙과 모두 일치할 한 가지 그런 우주적 기간의 발생을 우리가 1에 가까운 (혹은 자의적으로 작은 값 ε보다 많지 않은 값에 의하여 1로부터 편차를 보이는) 확률로써 기대하기 위하여, 수열의 n-구간이 얼마나 길어할 터인지 혹은 달리 표현하여 전체 과정에 대하여 지속기간이 얼마나 길게 상정되어야 하는지의 질문을 우리는 제기할 수 있다. 우리가 선택하는 만큼 1에 가까운 값에 대하여, 극도로 클지라도 확정되고 유한한 숫자를 우리는 얻는다. 그리하여 우리는 다음과 같이 말할 수 있다: 수열의 구간에 이 매우 긴 길이가 있다고 혹은 달리 표현하여, ‘세계가 충분히 길게 지속된다고 우리가 가정한다면 무작위성에 대한 우리의

가정으로 인하여 우리는 실제로무작위적 분산을 제외하고 아무것도 발생하지 않을지라도 중력의 법칙이 여전히 유효한 우주적 기간의 발생을 기대할 자격이 우리에게 있다. 무작위성을 가정함을 통한 이런 유형의 설명은 우리가 선택하는 여하한 규칙성에도 적용될 수 있다. 사실상 우리는 이런 방식으로 우리의 전체 세계를 그 세계에 대하여 관찰된 모든 규칙성들을 사용하여 무작위적 혼돈에서의 한 단계로서 순전히 우연적인 사건일치들의 축적으로서 - ‘설명할 수 있다.

이런 종류의 사변들은 형이상학적이라는 것과 그 사변들이 과학에 관해서는 중요성이 없다는 것이 내가 보기에 분명하다. 그리고 이 사실이 그 사변들의 오류판정 불가능성과 우리가 항상 그리고 모든 상황에서 그 사변들에 몰두할 수 있다는 사실과 - 연결되어 있다는 것도 동등하게 분명한 듯하다. 그리하여 구획설정에 관한 나의 기준은 여기서 형이상학적이라는 단어의 일반적인 사용과 전적으로 잘 일치한다.

그리하여 확률을 포함하는 이론들은, 그 이론들이 특별한 예방조치들 없이 적용된다면, 과학적인 것으로서 간주될 수 없다. 그 이론들이 경험적 과학의 관행에서 여하히 이용될 수 있다면 우리는 그 이론들의 형이상학적 이용을 배제해야 한다.*

 

 

 

 

 

68 물리학에서의 확률

 

결정가능성이라는 문제는 물리학자가 아니라 방법론자만 괴롭힌다.* 실제로 적용 가능한 확률 개념을 만들어내라는 요구를 받으면 물리학자는 아마도 혹시 다음과 같은 사고방식들로 확률의 물리학적 정의(定義)와 같은 것을 제시할 것이다: 통제된 조건들 하에서 수행된다할지라도 다양한 결과들을 낳는 특정 실험들이 있다. 이 실험들 중 몇 가지 실험들의 동전던지기들과 같이 우연-같은실험들 - 경우에 빈번한 반복은, 추가적인 반복에서 우리가 문제의 사건 확률이라고 부를 어떤 고정된 값에 점점 더 근접하는 상관빈도들과 비례하는 결과들을 낳는다. 이 값은 ‘... 연속적인 긴 실험들을 통하여 여하한 정도의 근사치까지 경험적으로 결정될 수있다;1 이것은 확률에 대한 가설적 추산을 오류로 판정하는 것이 왜 가능한지를 부수적으로 설명한다.

이 사고방식들로의 정의(定義: definitions)들에 반대하여 수학자들과 논리학자들 모두는 반론들을 제기할 것이다; 특히 다음 반론들:

(1) 베르누이(Bernoulli)의 정리에 따라서 오직 거의 모든 긴 구간들만 통계적으로 안정적이기, 다시 말해서 수렴적인 양 작동하기 때문에 정의(定義)는 확률 계산과 일치하지 않는다. 저 이유 때문에, 확률은 이 안정성에 의하여, 다시 말해서 유사-수렴적 작동에 의하여 정의(定義)될 수 없다. 왜냐하면 거의 모든이라는 표현은 틀림없이 정의항(定義項: definiens)에서 발생한다 자체가 매우 개연적인에 대한 동의어일 따름이기 때문이다. 그리하여 정의(定義)는 순환적이다; ‘거의라는 단어를 탈락시킴에 의하여 쉽게 은폐될 (그러나 제거되는 것은 아니다) 수 있는 사실. 이것이 물리학자의 정의(定義)가 수행한 것이다; 그리고 그것은 그리하여 수용될 수 없다.

(2) 언제 일련의 실험들은 길다고 지칭될 수 있는가? ‘길다고 지칭될 것에 대한 기준이 주어지지 않으면 우리는 언제 혹은 과연 우리가 확률에 대한 근사치에 도달했는지를 알 수 없다.

(3) 바라던 근사치가 사실상 도달되었다는 것을 우리는 어떻게 알 수 있는가?

이 반론들의 정당화된다고 내가 믿을지라도, 나는 그럼에도 불구하고 물리학자의 정의(定義)를 유지할 수 있다고 믿는다. 앞 절에서 개괄된 논증들에 의하여 나는 이 믿음을 지지하겠다. 이것들은, 확률 가설들에게 무제한적인 적용이 허용될 때 확률 가설들은 모든 정보 내용을 상실한다는 것을 증명했다. 물리학자는 확률 가설들을 결코 이런 방식으로 사용하지 않을 터이다. 그의 사례를 뒤좇아 나는 확률 가설들의 무제한적인 적용을 수용하지 않겠다: 나는, 물리학적 효과들을 다시 말해서 재생될 수 있는 규칙성들을 사건들의 축적들로서 결코 설명하지 않을 방법론적 결정을 우리가 취할 것을 제안한다. 이 결정으로 인하여 자연히 확률의 개념이 수정된다: 이 결정은 확률의 개념을 좁힌다.* 그리하여 반론 (1)은 나의 입장에 영향을 미치지 않는데, 왜냐하면 나는 확률의 물리학적 개념과 수학적 개념이 일치한다고 전혀 주장하지 않기 때문이다; 반대로 나는 그 개념들의 일치를 부인한다. 그러나 (1) 대신에 새로운 반론이 나타난다.

(1) 언제 우리는 축적된 사건들에 대하여 말할 수 있는가? 아마도 작은 확률의 경우에서이다. 그러나 확률은 언제 작은? 우리는, 내가 방금 제시한 제안이 수학적 문제의 정식화를 변경함에 의하여 작은 확률로부터 자의적으로 큰 확률을 만드는 방법의 (앞 절에서 토론된) 사용을 배제한다는 것을 우리는 고려할 것이다. 그러나 제안된 결정을 수행하기 위하여 우리는 우리가 무엇을 작은 것으로서 간주해야 하는지를 알아야 한다.

다음 쪽들에서 제안된 방법론적 규칙이 물리학자의 정의(定義)와 일치한다는 것과 문제 (1), (2), 그리고 (3)에 의하여 제기된 반대론들은 그 규칙의 도움을 받아서 답변될 수 있다는 것이 밝혀질 것이다. 우선 나는 오직 한 가지 확률 계산 적용의 전형적인 경우를 염두에 두고 있다: 나는, 정확한 (거시) 법칙들의 - 가스 압력과 같은 도움을 받아서 기술될 수 있는 그리고 분자 충돌들과 같은 미시적 과정들의 매우 큰 축적에 기인하는 것으로 우리가 해석하거나 설명하는 특정 재생 가능한 거시 효과들의 경우를 염두에 두고 있다. 다른 전형적인 경우들은 (통계적 진동들이나 우연-같은 개별적 과정들의 통계와 같은) 큰 어려움 없이 이 경우로 환원될 수 있다.*

미시적 사건들의 무작위적 수열들로 환원될 수 있는, -입증된 법칙에 의하여 기술되는 이런 유형의 거시적 효과를 고찰하자. 그 법칙이 특정 상황 하에서 물리학적 규모가 값 p를 지닌다고 주장하도록 하라. 효과가 정확하여 어떤 측정될 수 있는 진동들도 발행하지 않는데 다시 말해서 그 간격 안에서 측정과 관련하여 지배적인 기교에 내재한 부정확성 때문에 여하한 경우에도 우리의 측정들이 진동할 저 오차 φ(부정확성의 오차: 37참조) 넘어서는 p로부터의 편차들은 발생하지 않는다고 우리는 가정한다. 이제 우리는, 미시적 사건들의 수열 α 안에서 p가 확률이라는 가설을 제시한다; 그리고 추가적으로, n 숫자의 미시적 사건들이 효과를 낳는 데 기여한다는 가설을. 그렇다면 (61참조) 모든 선택된 값 δ에 대하여 확률 α F(p)다시 말해서 측정된 값이 간격 p에 속할 것이라는 확률을 우리는 계산할 수 있다. 상보적 확률은 ε에 의하여 표시될 것이다. 그리하여 우리는 α F( ) = ε를 얻는다. 베르누이(Bernoulli)의 정리에 따라서, εn이 무한히 증가함에 따라서 0으로 향한다.

ε가 매우 작아서무시될 수 있다 우리는 가정한다. (‘작은이 무엇을 의미하는지와 관련되는 질문 (1), 이 가정에서, 곧 다루어질 것이다.) p는 그 안에서 측정들이 값 p에 근접하는 간격으로서 분명하게 해석될 수 있다. 이것으로부터 우리는, 세 가지 수량 ε, n, 그리고 p가 세 가지 질문 (1), (2), 그리고 (3)과 대응함을 안다. pδ는 자의적으로 선택될 수 있는데 εn에 대한 우리의 선택의 자의성을 제한한다. 정확한 거시적 효과 p φ)를 연역하는 것이 우리의 과제이기 때문에 우리는 δφ보다 더 크다고 가정하지 않을 것이다. 재생 가능한 효과 p에 관한 한, 우리가 연역을 어떤 값 δ ⩽ φ에 대하여 수행할 수 있다면 연역을 만족스러울 것이다. (여기서 φ는 주어지는데 왜냐하면 φ가 측정하는 기교에 의하여 결정되기 때문이다.) 이제 δ를 선택하여 δ(근사치로) φ와 대등하도록 하자. 그렇다면 우리는 질문 (3)을 다른 두 가지 질문들인 (1)(2)로 환원했다.

δ(다시 말해서 p) 선택에 의하여 모든 n에 대하여 이제 ε의 하나의 값이 독특하게 대응하기 때문에 우리는 nε 사이의 관계를 증명했다. 그리하여 (2), 다시 말해서 언제 n이 충분히 긴가?라는 질문은 (1)다시 말해서 언제 ε가 작은가?라는 질문으로 환원되었다 (그리고 역순도 성립한다).

그러나 이것은, 우리가 ε의 어떤 특정 값무시할 수 있을 만큼 작은 것으로서 무시될 수 있다는 것을 결정할 수 있을 터이라는 조건으로만 세 가지 질문들 모두가 답변될 수 있을 터임을 의미한다. 이제 우리의 방법론적 규칙은 ε작은 값들을 무시하는 결정에 해당한다; 그러나 우리는 ε의 확정적인 값에 영원히 매달릴 각오가 되어 있지 않을 것이다.

우리가 우리의 질문을 물리학자에게 한다면, 다시 말해서, 우리가 물리학자에게 어떤 ε를 그가 무시할 0.001, 아니면 0.000001, 혹은 ...? 각오가 되어있는지를 묻는다면 그는 아마도 ε가 자신의 관심을 전혀 끌지 않는다고 답변할 것이다 (이 문장의 원문은 If we put our question to a physicist, that is, if we ask him what ε he is prepared to neglect 0.001, or 0.000001, or ...? he will presumably answer that ε does not interest him at all;인데 물음표 뒤에 문장부호 이음표인 줄표 가 누락된 듯하다: 역자); 자신은 ε가 아니라 n을 선택했다고. 그리고 자신은, np사이의 상호관계를 우리가 아마도 만들기로 결정할 값 ε여하한 변화들과 주로 독립적으로 만드는 정도로 n을 선택했다고.

베르누이의(Bernoullian) 분표의 수학적 특유성들 때문에 물리학자의 답변은 정당화된다: 모든 n에 대하여 εp 사이의 함수적 의존을 결정하는 것이 가능하다.* 이 함수를 검토하면, 모든 (‘’) n에 대하여 p의 특징적인 값이 존재하여 이 값의 이웃에서 값 pε의 변화들에 고도로 둔감한 것이 밝혀진다. 이 둔감성은 증가하는 n에 비례하여 증가한다. 우리가 극단적인 대량-현상들의 경우에 기대해야 하는 규모의 서열을 지닌 n을 우리가 고려한다면, 자체의 특징적인 값의 이웃에서 p가 매우 고도로 ε의 변화들에 둔감하여 ε의 규모의 서열이 변한다할지라도 p는 전혀 변하지 않는다. 이제 물리학자는 보다 첨예하게 정의(定義)p의 경계선들에게 가치를 부여하지 않을 것이다. 그리고 전형적인 대량 현상들의 경우에는 이 연구가 그 경우에 국한되는데 p, 우리의 측정 기교에 의존하는 정확성의 오차 ±φ와 대응하는 것으로 고려될 수 있음을 우리는 기억한다; 그리고 이것에는 첨예한 한계들이 없고 다만 내가 37절에서 응축 한계들이라고 지칭한 것만 있다. 그리하여 우리가 결정할 수 있는 p의 특징적인 값의 이웃에서 p의 둔감성이 적어도 매우 커서 심지어 ε의 규모의 서열에서의 변화들로 인하여 p의 값이 ±φ의 응축 경계선들 안에서만 진동하게 될 때 우리는 n을 크다고 부를 것이다. (n → ∞라면, p는 완전히 둔감해진다.) 그러나 이렇다면 우리는 더 이상 ε의 정확한 결정에 관여할 필요가 없다: 우리가 무엇이 작은 것으로서 간주되어야 한다고 정확하게 서술하지 않았다할지라도 작은 ε를 무시하겠다는 결정으로 충분하다. 그 결정은, 위에 언급된 p의 특징적인 값들로써 연구를 하겠다는 결정에 해당하는데 그 값들은 ε의 변화들에 둔감하다.

극단적으로 비개연적인 것들은 무시되어야 한다는 규칙은 (위의 것을 고려해서만 충분히 명시적이 되는 규칙) 과학적 객관성에 대한 요구에 부합한다. 왜냐하면 우리의 규칙에 대한 분명한 반론은 명백히, 심지어 가장 큰 비개연성도 아무리 작아도 확률로 남는다는 것과 결론적으로 심지어 가장 비개연적인 과정들도 다시 말해서 우리가 무시하자고 제안하는 비개연적인 과정들 언젠가는 발생하리라는 것이기 때문이다. 그러나 이 반론은 재생될 수 있는 물리학적 효과라는 개념객관성이라는 개념과 밀접하게 관련된 개념 (8참조) - 상기함에 의하여 제거될 수 있다. 나는 비개연적인 사건들이 혹시 발생할 것이라는 가능성을 부인하지 않는다. 나는 예를 들어, 작은 부피의 가스 속의 분자들이, 혹시, 짧은 시간동안 부피의 한 부분으로 물러나지 않는다고 주주장하지 않으며 가스의 큰 부피 속에서 자연스러운 압력의 진동들이 결코 발생하지 않는다고도 주장하지 않는다. 내가 정말로 주장하는 것은, 그런 사건발생들은 물리학적 효과들이 아닐 터이라는 것인데 왜냐하면 그 사건발생들의 거대한 비개연성 때문에 그 사건발생들은 마음대로 재생될 수 없기 때문이다. 물리학자가 우연히 그런 과정을 관찰했다할지라도 그는 그 과정을 전적으로 재생할 수 없을 터이고 그리하여 실제로 이 경우에 무슨 일이 발생했는지와 자신이 관찰의 오류를 저지르지 않았는지를 결코 결정할 수 없을 터이다. 그러나 확률 추산으로부터 지적된 방식으로 연역된 거시 효과로부터 재생될 수 있는 편차들을 우리가 발견한다면 우리는 확률 추산이 오류로 판정된다고 가정해야 한다.

그런 고찰들은, 에딩튼(Eddington)이 두 가지 종류의 물리법칙들을 구분하는 그의 다음 선언과 같은 선언들을 우리가 이해하는 데 도움을 줄 것이다: ‘어떤 일들은 물리적 세상에서 일어나는 적이 없는데 왜냐하면 그것들은 불가능하기 때문이다; 다른 일들도 그러한데 왜냐하면 그것들은 너무 비개연적이기 때문이다. 첫 번째 것들을 금지하는 법칙들은 일차적 법칙들이다; 두 번째 것들을 금지하는 법칙들을 2차적 법칙들이다.’ 이 정식화에게 혹시 비판의 여지가 없지는 않을지라도 (나는 극단적으로 비개연적인 일들이 발생하는지 아닌지에 관한 실험 불가능한 주장들을 삼가는 것을 선호해야겠다), 이 정식화는 물리학자의 확률이론 적용에 잘 부합한다.

통계적 진동들이나 우연-같은 개별적 사건들의 통계와 같은 확률이론이 적용될 다른 경우들은 우리가 토론하고 있던 경우인 정확하게 측정될 수 있는 거시 효과의 경우로 환원될 수 있다. 통계적 진동들에 의하여 나는 브라운 운동(Brownian movement)과 같은 현상들을 이해한다. 여기서 측정 정확성의 오차는 φ), 효과에 기여하는 미시적 사건들의 숫자 n에 특징적인 간격 p보다 작다; 그러므로 p로부터 측정 가능한 편차들은 고도로 개연적인 것으로서 기대될 수 있다. 진동 자체가 재생될 수 있는 효과가 되기 때문에 그런 편차들이 발생한다는 사실은 시험될 수 있다; 그리고 이 효과에 나의 이전 논증들이 적용된다: 나의 방법론적 요건들에 따라서 특정 규모를 넘는 (어떤 간격 p를 넘는) 진동들은 틀림없이 재생이 불가능한데 똑같은 방향으로의 진동들의 긴 수열들과 기타 등등도 그러하다. 상응하는 논증들이 우연-같은 개별적 사건들의 통계에 대하여 유효할 터이다.

 

이제 나는 결정가능성이라는 문제에 관한 나의 논증들을 요약할 것이다.

우리는 문제는 다음과 같았다: 확률 가설들은 오류로 판정될 수 없는 것을 우리가 보았던 경험과학에서 어떻게 자연법칙들의 역할을 할 수 있는가? 우리의 답변은 이렇다: 확률 서술들은, 오류로 판정될 수 없는 한, 형이상학적이어서 경험적 중요성을 지니지 못한다; 그래서 그 서술들이 경험적 서술들로서 사용되는 한 그 서술들은 오류로 판정될 수 있는 서술들로서 사용된다.

그러나 이 답변은 또 다른 질문을 제기한다: 확률 서술들이 오류로 판정될 수 없는 오류로 판정될 수 있는 서술들로서 사용될 수 있다는 것은 어떻게 가능한가? (그 서술들이 그렇게 사용될 수 있다는 사실은 의심의 여지가 없다: 물리학자는 언제 확률 가정을 오류로 판정된 것으로서 간주하는지를 충분히 잘 알고 있다.) 이 질문에는 두 가지 면들이 있는 것을 우리는 발견한다. 한편으로, 우리는 확률 서술들을 사용하는 가능성을 그 서술들의 논리적 형태와 관련하여 이해될 수 있게 만들어야 한다. 다른 한편으로 그 확률 서술들의 사용을 오류판정이 가능한 서술들로서 통제하는 규칙들을 우리는 분석해야 한다.

66절에 따라서, 수용된 기초명제들은 제시된 어떤 확률 추산과 다소 잘 부합할 것이다; 그 기초명제들은 확률 수열의 전형적인 구간을 더 잘 혹은 덜 잘 표상할 것이다. 이것은 어떤 종류의 방법론적 규칙의 적용에 대하여 기회를 제공한다; 예를 들어 기초명제들과 확률 추산 사이의 일치가 어떤 최소한의 표준에 부합해야 한다고 아마도 요구하는 규칙. 그리하여 그 규칙은 아마도 어떤 자의적인 선을 그어서, 이례적이거나 비-표상적인 구간들은 금지되는반면 오직 합당하게 표상적인 구간들만이 (혹은 합당하게 공정한 표본들’) ‘허용될것을 명령할 것이다.

이 제안에 대하여 더 면밀하게 분석한 바, 허용되는 것과 금지되는 것 사이의 분계선은 아마도 처음에 생각된 것만큼 완전히 자의적으로 그어질 필요가 없다는 것이 우리에게 밝혀졌다. 그리고 특히 그 분계선을 관대하게그을 필요가 없다는 것이. 왜냐하면 허용되는 것과 금지되는 것 사이의 분계선이 다른 법칙들의 경우에서와 꼭 마찬가지로 우리의 측정들이 도달 가능한 정확도에 의하여 결정되는 방식으로 규칙을 짜는 것이 가능하기 때문이다.

우리의 방법론적 규칙은 구획설정의 기준에 따라서 제시되는데 이례적인 구간들의 발생을 금지하지 않는다; 또한 그 규칙은 편차들의 반복되는 발생을 (물론 확률 수열들에 관해서 전형적인) 금지하지도 않는다. 이 규칙이 금지하는 것은 체계적인 편차들의 예측 가능하고 재생 가능한 발생이다; 특정 방향으로의 편차들이나 확정적인 정도로 이례적인 구간들의 발생과 같은. 그리하여 그 규칙은 대략적인 일치에 지나지 않는 것이 아니라 재생될 수 있어서 시험될 수 있는 모든 것에 대한 최선의 가능한 일치를 요구한다; 요컨대, 모든 재생 가능한 효과들에 대한.

 

69 법칙과 우연

 

우리는 때때로, 주사위 던지기는 우연적 즉 우연에 종속되는 반면 혹성들의 움직임들은 엄격한 법칙들을 따른다고 언급되는 것을 듣는다. 나의 견해로 차이점은, 우리가 지금까지 혹성들의 움직임은 예측할 수 있었지만 던져지는 주사위의 개별적 결과들을 예측할 수 없었다는 사실에 놓여있다 (이 문장의 원문은 In my view the difference lies in the fact that we have so far been

able to predict the movement of the planets successfully, but not the individual results of throwing dice.인데 주사위가 던질 수 없고 던져지기 때문에 throwing dice라는 표현은 a dice being thrown으로 표현하는 것일 옳다: 역자).

예측들을 연역하기 위하여 우리에게는 법칙들과 초기 조건들이 필요하다; 합당한 법칙들이 이용될 수 없다면 혹은 초기 조건들이 발견될 수 없다면 예측하기와 관련된 과학적 방법은 붕괴한다. 주사위 던지기에서, 우리에게 결여되는 것은 분명히 초기 조건들에 대한 충분한 지식이다. 초기 조건들에 대하여 충분히 정확한 측정들이 있다면 이 경우에도 역시 예측들을 내놓은 것이 가능할 터이다; 그러나 올바른 주사위 던지기에 (주사위-상자 흔들기) 대한 규칙들은 우리가 초기 조건들을 측정하는 것을 막는 방식으로 선택된다. 놀이의 규칙들과, 무작위 수열의 다양한 사건들이 발생할 수 있는 조건들을 결정하는 다른 규칙들을 나는 틀 조건들(frame conditions)이라고 부르겠다. 그 규칙들은 주사위들이 정품일(true)’ (균질의 재료로 만들어진) 것과 그 주사위들이 잘 흔들어질 것, 기타 등등과 같은 요건들로 구성된다.

예측이 성공하지 못할 다른 경우들이 있다. 아마도 합당한 법칙들을 정식화하는 것이 지금까지 가능하지 않았다; 아마도 법칙을 발견하려는 모든 시도들은 실패해서 모든 예측들이 오류로 판정되었다. 그런 경우들에서 우리는 언젠가 만족스러운 법칙을 발견함을 체념할 것이다. (그러나 문제가 우리의 관심을 많이 끌지 않는 것이 아니라면 우리는 시도하기를 포기할 것 같지 않다 이것은 예를 들어 우리가 빈도 예측들에 만족한다면 사실일 것이다.) 그러나 어떤 경우에도 우리는 최종적으로 특정 분야에 법칙들이 없다고 말할 수 없다. (이것은 검증 불가능성의 결론이다.) 이것은, 나의 견해로 인하여 우연이라는 개념이 주관적이 된다는 것을 의미한다.* 우리의 지식이 예측하기에 충분하지 않을 때 나는 우연을 말한다; 우리에게 초기 조건들에 관한 지식이 없기 때문에 우리가 우연을 말하는 주사위 던지기의 경우에서처럼. (상상컨대 훌륭한 도구들을 갖춘 물리학자는 다른 사람들이 예측할 수 없을 터인 주사위 던지기를 예측할 수 있을 터이다.)

이 주관적인 견해에 반대하여, 객관적인 견해가 때때로 옹호되었다. 사건들은 본질적으로 결정되거나 결정되지 않는다는 형이상학적 개념을 이것이 사용하는 한, 나는 여기서 이것을 심층적으로 검토하지 않겠다. (71절 및 78참조.) 우리가 우리의 예측에 성공한다면 우리는 법칙들을 말할 것이다; 그렇지 않다면 우리는 법칙들이나 불규칙성들의 존재나 비-존재에 관하여 아무것도 알 수 없다.*

아마도 이 형이상학적 개념보다 더 고찰할 가치가 있는 것은 다음 견해이다. 우리의 확률 추산들이 입증될 때 우리는 객관적인 의미에서 우연과 조우한다고 언급될 것이다; 법칙들로부터 연역된 우리의 예측들이 입증될 때 우리가 인과적 규칙성들과 조우하는 것과 꼭 마찬가지로.

이 견해에 함축된 우연에 대한 정의(定義)는 전적으로 무익한 것을 아닐 것이지만, 그렇게 정의(定義)된 개념은 법칙의 개념에 반하지 않는다는 것이 강력하게 강조되어야 한다: 내가 확률 수열들을 우연-같다고 지칭한 것은 이 이유 때문이었다. 일반적으로 실험적 결과들의 수열은, 수열을 정의(定義)하는 틀 조건들(frame conditions)이 초기 조건들과 다르다면, 우연-같을 것이다; 동일한 틀 조건들(frame conditions) 하에서 수행되는 개별적 실험들이 다양한 초기 조건들 하에서 진행되어 그리하여 다양한 결과들을 낳을 때. 그 항들이 전혀 예측될 수 없는 우연-같은 수열들이 있는지를 나는 알지 못한다. 수열이 우연-같다는 사실로부터, 우리는 심지어 그 수열의 항들이 예측될 수 없다거나 그 항들이 불충분한 지식이라는 주관적인 의미에서 우연에 기인한다고 추론하지 않을 것이다; 그리고 무엇보다도 우리는 이 사실로부터 법칙들은 없다는 객관적인사실을 추론하지 않을 것이다.*

수열의, 혹은 그렇지 않다면 개별적 사건들의 우연-같은 특징으로부터 법칙에 대한 부합성에 관한 어떤 것을 추론한다는 것은 불가능할 뿐만이 아니다 (이 문장의 원문은 Not only is it impossible to infer from the chance-like character of the sequence anything about the conformity to law, or otherwise, of the individual events:인데 or otherwise, of

the individual events라는 표현은 from the chance-like character와 연결되는 것으로 보이는데 그렇다면 그 표현을 the sequence 다음에 삽입하는 것이 옳을 것이다: 역자): 확률 추산들의 입증으로부터 수열 자체가 완전히 불규칙적이라는 것을 추론함도 심지어 가능하지 않다. 왜냐하면 우리는, 수학적 규칙에 따라서 구축되는 우연-같은 수열들이 존재한다는 것을 알고 있기 때문이다 (부록 iv 참조.) 수열이 베르누이의(Bernoullian) 분포를 지닌다는 사실은 법칙 부재의 증상이 아니고 정의(定義)에 의한법칙 부재와 동일한 것은 더욱 아니다. 확률 예측들의 성공에서 우리는 틀림없이 수열의 구조에서 단순한 법칙들의 그 수열을 구성하는 사건들과 반대로 부재 증상만을 본다 (43절 및 58참조). 사후-효과로부터의 자유라는 가정은, 그런 단순한 법칙들은 발견될 수 없다는 가설과 대등한데 입증은 되지만 그게 끝이다.

 

70 미시 법칙들로부터의 거시 법칙들의 연역가능성

 

최근에 신랄하게 비판을 받았을지라도 거의 편견이 되어버린 교설이 모든 관찰 가능한 사건들은 틀림없이 거시적 사건들로서 설명된다는 교설 있다; 다시 말해서, 특정 미시적 사건들의 평균들이나 축적들이나 합계들로서, (그 교설은 유물론의 특정 형태들과 다소 유사하다.) 그 종류의 다른 교설들처럼, 이 교설은 본질적으로 전혀 반대론을 낼 수 없는 방법론적 규칙을 형이상학적으로 실체화한 것으로 보인다. 언급된 유형의 설명적 가설들을 (다시 말해서, 관찰될 수 있는 효과들을 미시적 사건들의 합계들이나 통합들로서 설명하는 가설들) 사용함에 의하여 우리의 이론들을 우리가 단순화하거나 일반화하거나 통일할 수 있는지를 우리가 알아야 하는 규칙을 나는 의미한다. 그런 시도들의 성공을 평가하면서, 미시적 사건들과 그 사건들의 상호작용에 대한 법칙들에 관한 비통계적 가설들이 거대 사건을 설명하기에 언젠가 충분할 수 있을 터이라고 생각하는 것은 오류일 터이다. 이유인즉 통계적 결론들은 통계적 전제들로부터 도출될 수 있을 따름이어서 우리에게는 추가적으로 가설적 빈도 추산들이 틀림없이 필요하기 때문이다. 이 빈도 추산들은, 우리가 미시적 사건들과 관련된 법칙들을 연구하는 데 몰두하는 반면 때때로 진실로 우리에게 발생할 것이지만 결코 이 법칙들로부터 도출될 수 없는 항상 독립적인 가설들이다. 빈도 추산들은 가설들의 특별한 집합을 형성한다: 빈도 추산들은 말하자면

대규모의 규칙성들과 관련되는 금지사항들이다. 폰 미제스(von Mises)는 이것을 매우 명백하게 서술했다: ‘기체 운동론에서 가장 작은 정리도 통계적 종류의 추가적 가정들 없이 고전적 물리학으로부터만 귀결되지 않는다.’

통계적 추산들 즉, 빈도 추산들은 결정론적종류의 법칙들로부터만 결코 도출될 수 없는데, 그런 법칙들로부터 예측을 연역하기 위해서는 초기 조건들이 필요하다는 이유 때문이다. 초기 조건들 대신해서 초기 조건들의 통계적 분포에 관한 가정들이 다시 말해서 특별한 통계적 가정들 통계적 법칙들이 결정론적이거나 정확한특징의 미시적 가정들로부터 획득되는 모든 연역에 관여한다.*1

이론물리학의 빈도 가정들이 큰 정도까지 동등-기회 가설들이라는 것은 두드러진 사실이지만 이것은 결코 그 가정들이 자명하거선험적으로 유효하다는 것을 의미하지 않는다. 그 가정들이 그런 것과 거리가 멀다는 것은, 고전적 통계학과 보스-아인슈타인 통계학(Bose-Einstein statistics) 그리고 페르미-디락 통계학(Fermi-Dirac statistics) 사이의 폭넓은 차이점들로부터 보일 것이다. 이것들은, 특별한 가정들이 각 경우에 준거 수열들의 다양한 정의(定義)들 및 동등 분포가 가정되는 일차적 속성들을 야기하면서 어떻게 동등-기회 가설과 연결될 것인지를 보여준다.

 

다음 보기는 아마도, 심지어 우리가 빈도 가정들 없이 진행하고 싶을 때에도 빈도 가정들은 필수불가결하다는 것을 사실을 예시할 것이다.

폭포를 상상하라. 우리는 어떤 기묘한 종류의 규칙성을 감지할 것이다; 폭포를 구성하는 격류들의 규모가 다르다; 그리고 때때로 떨어지는 물길이 주류로부터 이탈하여 쏟아진다; 그럼에도 불구하고 모든 그런 변화들 도처에, 강력하게 통계적 효과를 암시하는 특정 규칙성이 드러난다. 충분히 정확한 초기 조건들이 주어진다면, 수력학(hydrodynamics)의 몇 가지 미해결 문제들을 (소용돌이들의 형성, 기타 등등에 관한) 무시하고 우리는 원칙적으로 바라던 정확도로써 여하한 부피의 물의 가령 분자들의 무리 경로를 예측할 수 있다. 그리하여 우리는, 멀리 폭포 위에 있는 분자에 관하여 어느 지점에서 그 분자가 가장자리를 지날지, 그 분자가 어디에서 밑바닥에 도달할지, 기타 등등을 예언하는 것이 가능할 터이라고 가정할 것이다. 이런 방식으로 여하한 숫자의 입자들의 경로는 원칙적으로 계산될 것이다; 그리고 충분한 초기 조건들이 주어지면 우리는 틀림없이 원칙적으로 폭포의 개별적인 통계적 진동들 중 여하한 진동도 연역할 수 있다 (이 문장의 원문은 and given sufficient initial conditions we should be able, in principle, to deduce any one of the individual statistical fluctuations of the waterfall.인데 분사구문 given sufficient initial conditions이 잘못 쓰여서 if sufficient initial conditions are given으로 쓰거나 접속사 if 없이 sufficient initial conditions are given으로 써야한다: 역자). 그러나 단지 이 혹은 저 개별적 진동이 그렇게 얻어질 수 있을 터이지 우리가 기술한 반복되는 통계적 규칙성들은 그렇지 않고 일반적인 통계적 분포와 같은 것은 더욱 그렇지 않다. 이것들을 설명하기 위하여 우리에게는 통계적 추산들이 적어도 특정 초기 조건들이 많은 다양한 입자들의 무리들에 대하여 반복적으로 재발할 것이라는 가정 (전칭명제에 해당하는) - 필요하다. 우리가 그런 특별한 통계적 가정들을 예를 들어 재발하는 초기 조건들의 빈도 분포에 관한 가정들 한다는 조건으로 그리고 그 조건으로만 우리는 통계적 결과를 얻는다.

 

 

71 형식적으로 단칭인 확률 서술들

 

확률 서술이 확률을 단일한 사건발생에게 혹은 사건발생들의 특정 집합의 단일한 원소에게 귀속시킬 때 나는 확률 서술을 형식적으로 단칭이라고 부른다.* 예를 들어, ‘이 주사위를 다음에 던져서 5가 나올 확률은 1/6이다혹은 ‘(이 주사위를) 단 한번 던져서 5가 나올 확률은 1/6이다’. 빈도 이론의

관점에서 그런 서술들은 통상적으로 그 서술들의 정식화에서 전적으로 옳은 것이 아닌 것으로 간주되는데 왜냐하면 확률들은 단일한 사건발생들에 귀속될 수 없고 단지 사건발생들이나 사건들의 무한 수열들에만 귀속될 수 있기 때문이다. 그러나 객관적 확률이나 상관빈도라는 개념의 도움을 받아서 형식적으로 단칭인 확률들을 합당하게 정의(定義)함에 의하여 이 서술들이 올바른 것으로서 해석하는 것은 쉽다. 나는 αPk(β)’를 사용하여, 특정 사건발생 k가 수열 α의 한 가지 항으로서 기호들로:1 k ε α - 자체의 능력에서 속성 β를 지닌다고 표시하고 그 다음에 형식적으로 단칭인 확률을 다음과 같이 정의(定義)한다:

αPk(β) = αF(β) (k ε α) (정의[定義])

 

이것은 다음과 같이 언어로 표현될 수 있다: 사건 k에는 속성 β가 있다는 k가 수열 α의 한 가지 항임을 고려하여 형식적으로 단칭인 확률은, 정의(定義)에 의하여, 준거 수열 α 내부의 속성 β의 확률과 동등하다.

이 단순하고 거의 명백한 정의(定義)는 놀라울 정도로 유용한 것으로 판명된다. 그 정의(定義)는 심지어 우리가 현대 양자론의 몇 가지 미묘한 문제들을 설명하는 데 도움을 줄 수 있다. (75-76참조.)

그 정의(定義)가 밝히는 바와 같이, 형식적으로 단칭인 확률 서술은 준거-집합을 명시적으로 서술하지 않는다면 불완전할 터이다. 그러나 α가 흔히 명시적으로 언급되지 않는다할지라도, 우리는 통상적으로 그런 경우들에서 어느 α가 의미되는지를 안다. 그리하여 위에 주어진 첫 번째 보기는 여하한 준거 수열 α도 특정하지 않지만 그럼에도 불구하고 그 보기가 정품 주사위를 사용한 던지기들의 모든 수열들을 언급한다는 것은 상당히 분명하다.

다수의 경우들에서 사건 k에 대하여 몇 가지 다양한 준거 수열들이 있을 것이다. 이 경우들에서 형식적으로 단칭인 다양한 확률 서술들이 동일한 사건에 관하여 만들어질 수 있다는 것은 아주 명백할 것이다. 그리하여 개별적인 인간 k가 주어진 기간 안에 죽을 것이라는 확률은, 우리가 그 인간을 그의

연령-(age-group)의 혹은 그의 직업군(occupational group), 기타 등등의 일원으로 간주하는가에 따라서 매우 다양한 값들을 띨 것이다. 몇 가지 가능한 준거-집합들로부터 어느 준거-집합이 선택되어야 하는지에 관하여 일반적인 규칙을 세우는 것은 가능하지 않다. (가장 좁은 준거-집합은, 그 준거-집합이 충분히 많아서 확률 추산이 합당한 통계적 외삽법[外揷法: extrapolation]에 근거하게 되어 입증하는 충분한 수량의 증거에 의하여 뒷받침된다면, 흔히 가장 적당한 준거-집합일 것이다.)

다양한 확률들이 다양한 준거-집합들의 원소로서 동일한 사건발생이나 사건에 귀속될 것임을 우리가 깨닫자마자 많은 소위 확률의 역설들은 사라진다. 예를 들어 자체의 사건발생 이전의 사건의 확률 αPk(β)는 그 사건이 발생한 이후의 동일한 사건의 확률과 다르다: 이후에는 그 확률이 1이나 0일 따름일 수 있는 반면 이전에는 그 확률이 1/6일 것이다. 이 견해는 물론 전적으로 오류이다. αPk(β)는 사건발생 이전과 이후 모두에서 항상 동일하다. 정보 k ε β(혹은 k ε ) - 사건발생을 관찰하자마자 우리에게 제공될 정보 근거로 우리가 새로운 준거-집합 즉 β(혹은 ) 선택하여 그 다음에 βPk(β)의 값이 무엇인지를 물을 것임을 제외하여 아무것도 변하지 않았다. 이 확률의 값은 물론 1이다; Pk(β) = 0인 것과 꼭 마찬가지로. 단일한 사건발생들의 실제 결과에 관하여 우리에게 정보를 주는 서술들은 어떤 빈도에 관해서가 아니라 오히려 k ε φ의 형태를 지닌 서술들 이 사건발생들의 확률을 변화시킬 수 없다; 그러나 그 서술들은 또 다른 준거-집합의 선택을 우리에게 제안할 것이다.

형식적으로 단칭인 확률 서술이라는 개념은 주관적 이론에게 일종의 교량을 제공하고 그리하여 또한 다음 절에서 밝혀질 것처럼 치역 이론(the theory of range)에도 교량을 제공한다. 왜냐하면 우리는 아마도 형식적으로 단칭인 확률을 합리적인 믿음의 등급으로서 (케인즈[Keynes]를 따라서) 해석하는 데 동의할 것이기 때문이다 - 우리의 합리적 믿음들이 객관적인 확률 서술에 의하여 도움을 받는 것을 우리가 허용한다면. 그렇다면 이것은 우리 믿음들이 의존하는 정보이다. 다시 말해서, 사건이 어떤 확률 추산이 성공적으로 시험된 특정 준거-집합에 속한다는 것을 제외하고 사건에 관하여 우리는 아무것도 알지 못하는 일이 발생할 것이다. 이 정보로 인하여 우리가 문제의 사건의 속성이 무엇일지를 우리가 예측할 수는 없다; 그러나 이 정보로 인하여 우리는, 문제의 특정 사건에 관한 불확정적 예측처럼 보이는 형식적으로 단칭인 확률 서술을 통하여 그 속성에 관하여 우리가 알고 있는 모든 것을 표현할 수 있다.*

그리하여 단일한 사건들에 관한 확률 서술들을 주관적으로 해석하는 것을, 다시 말해서 그 확률 서술들을 불확정적 예측들로서 말하자면 문제의 특정 사건에 관한 우리의 결함이 있는 지식에 대한 고백들로서 (우리가 지닌 결함이 있는 지식에 관하여 정말로 빈도 서술로부터 아무것도 귀결되지 않는다) 해석하는 것을 나는 반대하지 않는다 (이 문장의 원문은 Thus I do not object to the subjective interpretation of probability statements about single events, i.e. to their interpretation as indefinite predictions as confessions, so to speak, of our deficient knowledge about the particular event in question (concerning which, indeed, nothing follows from a frequency statement).인데 concerning which에서 which의 선행사가 our deficient knowledge about the particular event in question으로 하여 해석했는데 불확실하다: 역자). 다시 말해서 객관적인 빈도 서술들은 그 자체만으로 경험적으로 시험될 수 있기 때문에 근본적임을 우리가 분명히 인식한다면 나는 반대하지 않는다. 그러나 나는, 이 형식적으로 단칭인 확률 서술들을 이 불확정적 예측들 객관적인 통계적 사태 외에 객관적인 사태에 관한 서술들로서 해석하는 것을 거부한다. 내가 염두에 두고 있는 것은, 주사위놀이에서 확률 1/6에 관한 서술은 단순히 우리가 확정적인 것을 알지 못한다는 고백이 (주관적 이론) 아니라 오히려 아직 미결상태로 곧 해결될 것인 다음 던지기에 관한 주장이라는 자체의 결과가 객관적으로 비결정적이고 미결정이라는 주장 견해이다.* 나는 객관적 해석에 관한 이런 종류의 모든 시도들을 (다른 사람들 가운데서 진스[Jeans]에 의하여 상세하게 토론된) 오류로 간주한다. 이 해석들 자체가 어떤 비결정주의적 모습을 제시하든, 우리는 예측들을 연역하여 시험할 수 있을 뿐만 아니라 덧붙여 자연은 다소 결정되어’ (혹은 결정되지 않고’) 있다는 형이상학적인 개념을 그 해석들 모두는 포함한다; 그리하여 예측들의 성공은 (혹은 실패) 그 예측들이 그 법칙들로부터 연역되는 법칙들에 의해서가 아니라 이것에 덧붙여 자연이 실제로 이 법칙들에 따라서 구성된다는 (혹은 구성되지 않는다는) 사실에 의하여 설명될 수 있다.*

72 치역 이론(THE THEORY OF RANGE)

 

34절에서 나는, 또 다른 서술보다 더 높은 정도까지 오류로 판정될 수 있는 서술은 논리적으로 더 비개연적인 서술로서 기술될 수 있다고 말했다; 그리고 덜 오류로 판정될 수 있는 서술을 논리적으로 더 개연적인 서술로서. 논리적으로 덜 개연적인 서술은 논리적으로 더 개연적인 서술을 수반한다1. 논리적 확률에 대한 이 개념과 객관적이거나 형식적으로 단칭인 숫자적 확률에 대한 저 개념 사이에는 친화성들이 있다. 확률 철학자들 중 몇몇은 (볼차노[Bolzano], 폰 크리스[von Kries], 바이즈만[Waismann]) 확률 계산을 논리적 치역이라는 개념에 그리하여 논리적 확률이라는 개념과 일치하는 (37참조) 개념에 근거시키려고 시도했고, 그렇게 하면서 그들은 또한 논리적 및 숫자적 확률 사이의 친화성들을 해결하려고 시도했다.

바이즈만(Waismann)2 다양한 서술들의 논리적 치역들에 상응하는 상관빈도들을 통하여 그 치역들 사이의 상호관련성의 정도를 (말하자면 그 치역들의 비율들) 측정하고 그리하여 빈도들을 치역들에 대한 측정 체계를 결정하는 것으로서 취급할 것을 제안했다. 내가 생각하기에 이 토대 위에 확률 이론을 세우는 것은 가능하다. 정말로 우리는, 이 계획이 상관빈도들을 특정 불확정적 예측들과 상호 연결하는 것과 앞 절에서 형식적으로 단칭인 확률 서술들을 정의(定義)할 때 우리가 했던 바와 같이 동일한 것에 해당한다고 말할 것이다.

그러나 확률을 정의(定義)하는 이 방법은 확률 이론이 이미 구축되었을 때 실용적일 따름이라고 언급되어야 한다. 그렇지 않으면 우리는 측정 체계를 정의(定義)하는 데 사용되는 빈도들이 반대로 어떻게 정의(定義)될 터인지를 물을 터이다. 그러나 어떤 빈도 이론을 우리가 이미 이용할 수 있다면 치역 이론의 도입은 실제로 불필요하게 된다. 그러나 이 반론에도 불구하고 나는 바이즈만(Waismann)의 제안이 지닌 실용성을 중요한 것으로서 간주한다. 보다 포괄적인 이론이 문제를 해결하려는 다양한 시도들 사이의, 특히 주관적 및 객관적 해석들 사이의 격차들을 처음에는 연결될 수 없는 것으로 보였던 연결할 수 있다는 것을 발견함은 만족스럽다. 그럼에도 불구하고 바이즈만(Waismann)의 제안에는 어떤 가벼운 수정이 필요하다. 치역들의 비율이라는 그의 개념은 (48절의 주석 2 참조), 치역들의 부분집합 관계들의 (혹은 치역들의 포함 관계들) 도움을 받아서 치역들이 비교될 수 있다고 전제할 뿐만이 아니다; 또한 그의 개념은 보다 일반적으로, 심지어 단지 부분적으로 겹치는 치역들도 (비교 불가능한 서술들의 치역들) 비교 가능하게 될 수 있다고 전제한다. 이 후자(後者) 가정은, 그러나, 상당한 난제들을 포함하는데 불필요하다. 관련된 경우들에서 (무작위성의 경우들과 같은) 부분집합들의 비교와 빈도들의 비교는 틀림없이 유사한 결과들을 낳는다는 것을 증명하는 것이 가능하다. 이것으로 인하여 치역들을 측정하기 위하여 빈도들을 치역들과 상호 관련시키는 절차가 정당화된다. 그렇게 하면서, 우리는 문제의 서술들을 (부분집합 방법에 의하여 비교 불가능한) 비교 가능하게 만든다. 기술된 절차가 어떻게 혹시 정당화될지를 나는 개괄적으로 밝히겠다.

속성 집합들인 γ β 사이에 부분집합 관계

 

γ ⊂ β

 

성립하면 우리는 다음을 얻는다:

 

(k) [Fsb(k ε γ) Fsb(k ε β)] (33참조)

 

그리하여 서술 (k ε γ)의 논리적 확률이나 치역은 틀림없이 (k ε β)의 논리적 확률이나 치역보다 작거나 같다. 그 준거 집합 α와 관련하여 자연법칙의 형태를 지닌다고 언급될 다음 규칙이 성립하는 준거 집합 α(전체집합일) 있다는 조건으로만 그 논리적 확률이나 치역이 같을 것이다:

 

(x) {[x ε (α.β)] (x ε γ)}.

 

자연법칙이 성립하지 않아서 우리가 이런 면에서 무작위성을 가정할 것이라면 비동등성이 성립한다. 그러나 이 경우에 α가 가부번적(可付番的: denumerable) 준거 수열로서 수용될 수 있다면 우리는 다음을 얻는다:

 

αF(γ) < αF(β).

 

이것은, 무작위성의 경우에 치역들의 비교는 틀림없이 상관 빈도들의 비교와 같은 비동등성을 야기함을 의미한다. 따라서 우리가 무작위성을 지닌다면 치역들을 측정 가능하게 만들기 위하여 우리는 상관 빈도들을 치역들과 상호 관련시킬 것이다. 그러나 이것은 71절에서 우리가 형식적으로 단칭인 서술을 정의(定義)했을 때 간접적일지라도 우리가 수행한 바로 그것이다. 정말로, 실행된 가정들로부터 우리는 아마도

 

αPk(γ) < αPk(β)

 

즉각 추론했을 것이다.

그리하여 우리는 우리의 출발점인 확률에 대한 해석이라는 문제로 돌아왔다. 그리고 우리는 이제, 처음에는 그렇게 완고하게 보였던 객관적 이론과 주관적 이론 사이의 갈등이 형식적으로 단칭인 확률에 대한 다소 분명한 정의(定義)에 의하여 완전히 제거될 것임을 발견한다.

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

8

 

 

 

PROBABILITY

 

 

 

In this chapter I shall only deal with the probability of events and the problems it raises. They arise in connection with the theory of games of chance, and with the probabilistic laws of physics. I shall leave the problems of what may be called the probability of hypotheses such questions as whether a frequently tested hypothesis is more probable than one which has been little tested to be discussed in sections 79 to 85 under the title of 'Corroboration'.

Ideas involving the theory of probability play a decisive part in modern physics. Yet we still lack a satisfactory, consistent definition of probability; or, what amounts to much the same, we still lack a satisfactory axiomatic system for the calculus of probability. The relations between probability and experience are also still in need of clarification. In investigating this problem we shall discover what will at first seem an almost insuperable objection to my methodological views. For

although probability statements play such a vitally important role in empirical science, they turn out to be in principle impervious to strict falsification. Yet this very stumbling block will become a touchstone upon which to test my theory, in order to find out what it is worth.

Thus we are confronted with two tasks. The first is to provide new foundations for the calculus of probability. This I shall try to do by developing the theory of probability as a frequency theory, along the lines followed by

 

 

 

134 SOME STRUCTURAL COMPONENTS OF A THEORY OF EXPERIENCE

 

 

 

Richard von Mises, but without the use of what he calls the 'axiom of convergence' (or 'limit axiom'), and with a somewhat weakened 'axiom of randomness'. The second task is to elucidate the relations between probability and experience. This means solving what I call the problem of decidability of probability statements.

My hope is that these investigations will help to relieve the present unsatisfactory situation in which physicists make much use of probabilities without being able to say, consistently, what they mean by 'probability'.*1

 

47 THE PROBLEM OF INTERPRETING PROBABILITY STATEMENTS

 

I shall begin by distinguishing two kinds of probability statements: those which state a probability in terms of numbers which I will call numerical probability statements and those which do not.

Thus the statement, 'The probability of throwing eleven with two (true) dice is 1/18', would be an example of a numerical probability statement. Non-numerical probability statements can be of various kinds. 'It is very probable that we shall obtain a homogeneous mixture

 

*1 Within the theory of probability, I have made since 1934 three kinds of changes.

( 1 ) The introduction of a formal (axiomatic) calculus of probabilities which can be interpreted in many ways for example, in the sense of the logical and of the frequency interpretations discussed in this book, and also of the propensity interpretation discussed in my Postscript.

(2) A simplification of the frequency theory of probability through carrying out,

more fully and more directly than in 1934, that programme for reconstructing the

frequency theory which underlies the present chapter.

(3) The replacement of the objective interpretation of probability in terms of frequency by another objective interpretation the propensity interpretation and the replacement of the calculus of frequencies by the neo-classical (or measure-theoretical) formalism.

The first two of these changes date back to 1938 and are indicated in the book itself (i.e. in this volume) : the first by some new appendices, *ii to *v, and the second the one which affects the argument of the present chapter by a number of new footnotes to this chapter, and by the new appendix *vi. The main change is described here in footnote *1 to section 57.

The third change (which I first introduced, tentatively, in 1953) is explained and

developed in the Postscript, where it is also applied to the problems of quantum theory.

 

 

 

PROBABILITY 1

 

 

 

by mixing water and alcohol', illustrates one kind of statement which, suitably interpreted, might perhaps be transformed into a numerical probability statement. (For example, 'The probability of obtaining . . . is very near to 1'.) A very different kind of non-numerical probability statement would be, for instance, 'The discovery of a physical effect which contradicts the quantum theory is highly improbable'; a statement which, I believe, cannot be transformed into a numerical probability statement, or put on a par with one, without distorting its meaning. I shall deal first with numerical probability statements; non-numerical ones, which I think less important, will be considered afterwards.

In connection with every numerical probability statement, the question arises: 'How are we to interpret a statement of this kind and, in particular, the numerical assertion it makes?'

 

48 SUBJECTIVE AND OBJECTIVE INTERPRETATIONS

 

The classical (Laplacean) theory of probability defines the numerical value of a probability as the quotient obtained by dividing the number of favourable cases by the number of equally possible cases. We might disregard the logical objections which have been raised against this definition,1 such as that 'equally possible' is only another expression for 'equally probable'. But even then we could hardly accept this definition as providing an unambiguously applicable interpretation. For

there are latent in it several different interpretations which I will classify as subjective and objective.

A subjective interpretation of probability theory is suggested by the frequent use of expressions with a psychological flavour, like 'mathematical expectation' or, say, 'normal law of error', etc.; in its original form it is psychologistic. It treats the degree of probability as a measure of the feelings of certainty or uncertainty, of belief or doubt, which may be

 

1 Cf. for example von Mises, Wahrscheinlichkeit, Statistik und Walirheit, 1928, pp. 62 ff.; 2nd edition, 1936, pp. 84 ff.; English translation by J. Neyman, D. Sholl, and E. Rabinowitsch, Probability, Statistics and Truth, 1939, pp. 98 ff. *Although the classical definition is often called 'Laplacean' (also in this book), it is at least as old as De Moivre's Doctrine of Chances, 1718. For an early objection against the phrase 'equally possible', see C. S. Peirce, Collected Papers 2, 1932 (first published 1878), p. 417, para. 2, 673.

 

 

 

136 SOME STRUCTURAL COMPONENTS OF A THEORY OF EXPERIENCE

 

aroused in us by certain assertions or conjectures. In connection with some non-numerical statements, the word 'probable' may be quite satisfactorily translated in this way; but an interpretation along these lines does not seem to me very satisfactory for numerical probability statements.

A newer variant of the subjective interpretation,*1 however, deserves more serious consideration here. This interprets probability statements not psychologically but logically, as assertions about what may be called the 'logical proximity'2 of statements. Statements, as we all know, can stand in various logical relations to one another, like derivability, incompatibility, or mutual independence; and the logico-subjective theory, of which Keynes3 is the principal exponent, treats the probability relation as a special kind of logical relationship between two statements. The two extreme cases of this probability relation are derivability and contradiction: a statement q 'gives',4 it is said, to another statement p the probability 1 if p follows from q. In case p and q contradict each other the probability given by q to p is zero. Between these extremes lie other probability relations which, roughly speaking, may be interpreted in the following way: The numerical probability of a statement p (given q) is the greater the less its content goes beyond what is already contained in that statement q upon which the probability of p depends (and which 'gives' to p a probability).

The kinship between this and the psychologistic theory may be seen from the fact that Keynes defines probability as the 'degree of rational belief‘. By this he means the amount of trust it is proper to accord to a statement p in the light of the information or knowledge which we get from that statement q which 'gives' probability to p.

A third interpretation, the objective interpretation, treats every numerical

 

*1 The reasons why I count the logical interpretation as a variant of the subjective interpretation are more fully discussed in chapter *ii of the Postscript, where the subjective interpretation is criticized in detail. Cf. also appendix *ix.

2 Waismann, Loqische Analyst ties Wahrscheinliclilteitsbegriffs, Erkenntnis 1, 1930, p. 237: 'Probability so denned is then, as it were, a measure of the logical proximity, the deductive connection between the two statements'. Cf. also Wittgenstein, op. cit., proposition 5.15 ff.

3 J. M. Keynes, A Treatise on Probability, 1 92 1 , pp. 95 ff.

4 Wittgenstein, op. cit., proposition 5.152: 'If p follows from q, the proposition q gives to the proposition p the probability 1 . The certainty of logical conclusion is a limiting case of probability.'

 

 

 

PROBABILITY 1

 

 

 

probability statement as a statement about the relative frequency with which an event of a certain kind occurs within a sequence of occurrences.5

According to this interpretation, the statement 'The probability of the next throw with this die being a five equals 1/6' is not really an assertion about the next throw; rather, it is an assertion about a whole class of throws of which the next throw is merely an element. The statement in question says no more than that the relative frequency of fives, within this class of throws, equals 1/6.

According to this view, numerical probability statements are only admissible if we can give a frequency interpretation of them. Those probability statements for which a frequency interpretation cannot be given, and especially the non-numerical probability statements, are usually shunned by the frequency theorists.

In the following pages I shall attempt to construct anew the theory of probability as a (modified) frequency theory. Thus I declare my faith in an objective interpretation; chiefly because I believe that only an objective theory can explain the application of the probability calculus within empirical science. Admittedly, the subjective theory is able to give a consistent solution to the problem of how to decide probability statements; and it is, in general, faced by fewer logical difficulties than is the objective theory. But its solution is that probability statements are non-empirical; that they are tautologies. And this solution turns out to be utterly unacceptable when we remember the use which physics makes of the theory of probability. (I reject that variant of the subjective theory which holds that objective frequency statements should be derived from subjective assumptions perhaps using Bernoulli's theorem as a 'bridge':6 I regard this programme for logical reasons as unrealizable.)

 

5 For the older frequency theory cf. the critique of Keynes, op. cit., pp. 95 ff., where special reference is made to Venn's The Logic of Chance. For Whitehead's view cf. section 80 (note 2). Chief representatives of the new frequency theory are: R. von Mises (cf. note 1 to section 50), Dorge, Kamke, Reichenbach and Tornier. *A new objective interpretation, very closely related to the frequency theory, but differing from it even in its mathematical formalism, is the propensity interpretation, introduced in sections *53 ff. of my Postscript.

6 Keynes's greatest error; cf. section 62, below, especially note 3. *I have not changed my view on this point even though I now believe that Bernoulli's theorem may serve as a 'bridge' within an objective theory as a bridge from propensities to statistics. See also appendix *ix and sections *55 to *57 of my Postscript.

 

 

 

SOME STRUCTURAL COMPONENTS OF A THEORY OF EXPERIENCE

 

49 THE FUNDAMENTAL PROBLEM OF THE THEORY OF CHANCE

 

The most important application of the theory of probability is to what we may call 'chance-like' or 'random' events, or occurrences. These seem to be characterized by a peculiar kind of incalculability which makes one disposed to believe after many unsuccessful attempts that all known rational methods of prediction must fail in their case. We have, as it were, the feeling that not a scientist but only a prophet could predict them. And yet, it is just this incalculability that makes us conclude that the calculus of probability can be applied to these events.

This somewhat paradoxical conclusion from incalculability to calculability (i.e. to the applicability of a certain calculus) ceases, it is true, to be paradoxical if we accept the subjective theory. But this way of avoiding the paradox is extremely unsatisfactory. For it entails the view that the probability calculus is not a method of calculating predictions, in contradistinction to all the other methods of empirical science. It is, according to the subjective theory, merely a method for carrying out

logical transformations of what we already know; or rather what we do not know; for it is just when we lack knowledge that we carry out these transformations.1 This conception dissolves the paradox indeed, but it does not explain how a statement of ignorance, interpreted as a frequency statement, can be empirically tested and corroborated. Yet this is precisely our problem. How can we explain the fact that from incalculability that is, from ignorance we may draw conclusions which we can interpret as statements about empirical frequencies, and which we then find brilliantly corroborated in practice?

Even the frequency theory has not up to now been able to give a satisfactory solution of this problem the fundamental problem of the theory of chance, as I shall call it. It will be shown in section 67 that this problem is connected with the 'axiom of convergence' which is an integral part

 

1 Waismann, Erkenntnis 1, 1930, p. 238, says: 'There is no other reason for introducing the concept of probability than the incompleteness of our knowledge. ' A similar view is held by C. Stumpf (Sitzungsberichte der Bayerischen ^4kademie der Wissenscliaften, phil.-hist. Klasse, 1892, p. 41). *I believe that this widely held view is responsible for the worst confusions. This will be shown in detail in my Postscript, chapters *ii and *v.

 

 

 

PROBABILITY 1

 

 

 

of the theory in its present form. But it is possible to find a satisfactory solution within the framework of the frequency theory, after this axiom has been eliminated. It will be found by analysing the assumptions which allow us to argue from the irregular succession of single occurrences to the regularity or stability of their frequencies.

 

50 THE FREQUENCY THEORY OF VON MISES

 

A frequency theory which provides a foundation for all the principal theorems of the calculus of probability was first proposed by Richard von Mises.1 His fundamental ideas are as follows.

The calculus of probability is a theory of certain chance-like or random sequences of events or occurrences, i.e. of repetitive events such as a series of throws with a die. These sequences are defined as 'chance-like' or 'random' by means of two axiomatic conditions: the axiom of convergence (or the limit-axiom) and the axiom of randomness. If a sequence of events satisfies both of these conditions it is called by von Mises a 'collective'.

A collective is, roughly speaking, a sequence of events or occurrences which is capable in principle of being continued indefinitely; for example a sequence of throws made with a supposedly indestructible die. Each of these events has a certain character or property; for example, the throw may show a five and so have the property five. If we take all those throws having the property five which have appeared up to a certain element of the sequence, and divide their number by the total number of throws up to that element (i.e. its ordinal number in the sequence) then we obtain the relative frequency of fives up to that element. If we determine the relative frequency of fives up to every element of the sequence, then we obtain in this way a new sequence the sequence of the relative frequencies of fives. This sequence of frequencies is distinct from the original sequence of events to which it corresponds,

 

1 R. von Mises, Fundamentalsdtze der Wahrscheinlichkeitsrechnung, Mathematische Zeitschrift 4, 1919, p. 1 ; Grundlagen der Wahrscheinlichkeitsrecrmung, Mathematische Zeitschrift 5, 191 9, p. 52; Wahrschein-

lichkeit, Statistik, und Wahrheit (1928), 2nd edition 1936, English translation by J. Neyman, D. Sholl, and E. Rabinowitsch: Probability, Statistics card Truth, 1939; Wahrscheinlichkeitsrechnung und ihre Anwendung in der Statistik und theoretischen Physik (Vbrlesungen iiber angewandte Mathematik 1), 1931.

 

 

 

SOME STRUCTURAL COMPONENTS OF A THEORY OF EXPERIENCE

 

 

 

and which may be called the 'event-sequence' or the 'property-sequence'.

As a simple example of a collective I choose what we may call an 'alternative'. By this term we denote a sequence of events supposed to have two properties only such as a sequence of tosses of a coin. The one property (heads) will be denoted by '1', and the other (tails) by '0'. A sequence of events (or sequence of properties) may then be represented as follows:

 

(A) 0 1 1 0 0 0 1 1 1 0 1 0 1 0 ....

 

Corresponding to this 'alternative' or, more precisely, correlated with the property '1' of this alternative is the following sequence of relative frequencies, or 'frequency-sequence':2

 

(A') O ....

 

Now the axiom of convergence (or 'limit-axiom') postulates that, as the event-sequence becomes longer and longer, the frequency-sequence shall tend towards a definite limit. This axiom is used by von Mises because we have to make sure of one fixed frequency value with which we can work (even though the actual frequencies have fluctuating values). In any collective there are at least two properties; and if we are given the limits of the frequencies corresponding to all the properties of a collective, then we are given what is called its 'distribution'.

The axiom of randomness or, as it is sometimes called, 'the principle of the

excluded gambling system', is designed to give mathematical expression to the chance-like character of the sequence. Clearly, a gambler would be able to improve his chances by the use of a gambling system

 

2 We can correlate with every sequence of properties as many distinct sequences of relative frequencies as there are properties defined in the sequence. Thus in the case of an alternative there will be two distinct sequences. Yet these two sequences are derivable from one another, since they are complementary (corresponding terms add up to 1 ) . For this reason I shall, for brevity, refer to 'the (one) sequence of relative frequencies correlated with the alternative (a) ' , by which I shall always mean the sequence of frequencies correlated with the property ' 1 ' of this alternative (a).

 

 

 

PROBABILITY

 

 

 

if sequences of penny tosses showed regularities such as, say, a fairly regular appearance of tails after every run of three heads. Now the axiom of randomness postulates of all collectives that there does not exist a gambling system that can be successfully applied to them. It postulates that, whatever gambling system we may choose for selecting supposedly favourable tosses, we shall find that, if gambling is continued long enough, the relative frequencies in the sequence of tosses supposed to be favourable will approach the same limit as those in the sequence of all tosses. Thus a sequence for which there exists a gambling system by means of which the gambler can improve his chances is not a collective in the sense of von Mises.

Probability, for von Mises, is thus another term for 'limit of relative frequency in a collective'. The idea of probability is therefore applicable only to sequences of events; a restriction likely to be quite unacceptable from a point of view such as Keynes's. To critics objecting to the narrowness of his interpretation, von Mises replied by stressing the difference between the scientific use of probability, for example in physics, and the popular uses of it. He pointed out that it would be a mistake to demand that a properly defined scientific term has to correspond in all respects to inexact, pre-scientific usage.

The task of the calculus of probability consists, according to von Mises, simply and solely in this: to infer certain 'derived collectives' with 'derived distributions' from certain given 'initial collectives' with certain given 'initial distributions'; in short, to calculate probabilities which are not given from probabilities which are given.

The distinctive features of his theory are summarized by von Mises in four points:3 the concept of the collective precedes that of probability; the latter is defined as the limit of the relative frequencies; an axiom of randomness is formulated; and the task of the calculus of probability is defined.

 

51 PLAN FOR A NEW THEORY OF PROBABILITY

 

The two axioms or postulates formulated by von Mises in order to define the concept of a collective have met with strong criticism

 

3 Cf. von Mises, Wahrscheinliclikeitsrechnung, 1931, p. 22.

 

 

 

142 SOME STRUCTURAL COMPONENTS OF A THEORY OF EXPERIENCE

 

criticism which is not, I think, without some justification. In particular, objections have been raised against combining the axiom of convergence with the axiom of randomness1 on the ground that it is inadmissible to apply the mathematical concept of a limit, or of convergence, to a sequence which by definition (that is, because of the axiom of randomness) must not be subject to any mathematical rule or law. For the mathematical limit is nothing but a characteristic property of the mathematical rule or law by which the sequence is determined. It is merely a property of this rule or law if, for any chosen fraction arbitrarily close to zero, there is an element in the sequence such that all elements following it deviate by less than that fraction from some definite value which is then called their limit.

To meet such objections it has been proposed to refrain from combining the axiom of convergence with that of randomness, and to postulate only convergence, i.e. the existence of a limit. As to the axiom of randomness, the proposal was either to abandon it altogether (Kamke) or to replace it by a weaker requirement (Reichenbach). These suggestions presuppose that it is the axiom of randomness

which is the cause of the trouble.

In contrast to these views, I am inclined to blame the axiom of convergence no less than the axiom of randomness. Thus I think that there are two tasks to be performed: the improvement of the axiom of randomness mainly a mathematical problem; and the complete elimination of the axiom of convergence a matter of particular concern for the epistemologist.2 (Cf. section 66.)

In what follows I propose to deal first with the mathematical, and afterwards with the epistemological question.

The first of these two tasks, the reconstruction of the mathematical theory,3 has as its main aim the derivation of Bernoulli's theorem the first 'Law of Great Numbers' from a modified axiom of randomness;

 

1 Waismann, Erkenntnis 1, 1930, p. 232.

2 This concern is expressed by Schlick, Natuwvissenschdtm 19, 1931. *I still believe that these two tasks are important. Although I almost succeeded in the book in achieving what I set out to do, the two tasks were satisfactorily completed only in the new appendix *vi.

3 A full account of the mathematical construction will be published separately. *Cf. the new appendix *vi.

 

 

 

PROBABILITY 1

 

 

 

modified, namely, so as to demand no more than is needed to achieve this aim. Or to be more precise, my aim is the derivation of the Binomial Formula (sometimes called 'Newton's Formula'), in what I call its 'third form'. For from this formula, Bernoulli's theorem and the other limit theorems of probability theory can be obtained in the usual way.

My plan is to work out first a frequency theory for finite classes, and to develop the theory, within this frame, as far as possible that is, up to the derivation of the ('first') Binomial Formula. This frequency theory for finite classes turns out to be a quite elementary part of the theory of classes. It will be developed merely in order to obtain a basis for discussing the axiom of randomness.

Next I shall proceed to infinite sequences, i.e. to sequences of events which can be continued indefinitely, by the old method of introducing an axiom of convergence, since we need something like it for our discussion of the axiom of randomness. And after deriving and examining Bernoulli's theorem, I shall consider how the axiom of convergence might be eliminated, and what sort of axiomatic system we should be left with as the result.

In the course of the mathematical derivation I shall use three different frequency symbols: F" is to symbolize relative frequency in finite classes; F' is to symbolize the limit of the relative frequencies of an infinite frequency-sequence; and finally F, is to symbolize objective probability, i.e. relative frequency in an 'irregular' or 'random' or 'chance-like' sequence.

 

52 RELATIVE FREQUENCY WITHIN A FINITE CLASS

 

Let us consider a class α of a finite number of occurrences, for example the class of throws made yesterday with this particular die. This class α, which is assumed to be non-empty, serves, as it were, as a frame of reference, and will be called a (finite) reference-class. The number of elements belonging to α, i.e. its cardinal number, is denoted by 'N(α)', to be read 'the number of α'. Now let there be another class, β, which may be finite or not. We will call β our property-class: it may be, for example, the class of all throws which show a five, or (as we shall say) which have the property five.

 

 

 

144 SOME STRUCTURAL COMPONENTS OF A THEORY OF EXPERIENCE

 

 

 

The class of those elements which belong to both α and β, for example the class of throws made yesterday with this particular die and having the property five, is called the product-class of α and β, and is denoted by 'α.β', to be read 'α and β'. Since α.β is a subclass of α, it can at most contain a finite number of elements (it may be empty). The number of elements in α.β is denoted by 'N(α.β)'.

Whilst we symbolize (finite) numbers of elements by N, the relative frequencies are symbolized by F". For example, 'the relative frequency of the property β within the finite reference-class α' is written 'αF"(β)’ which may be read 'the α-frequency of β'. We can now define

 

(Definition 1) αF"(β) =

 

In terms of our example this would mean: 'The relative frequency of fives among yesterday's throws with this die is, by definition, equal to the quotient obtained by dividing the number of fives, thrown yesterday with this die, by the total number of yesterday's throws with this die.'*1

From this rather trivial definition, the theorems of the calculus of frequency in finite classes can very easily be derived (more especially, the general multiplication theorem; the theorem of addition; and the theorems of division, i.e. Bayes's rules. Cf. appendix ii). Of the theorems of this calculus of frequency, and of the calculus of probability in general, it is characteristic that cardinal numbers (N-numbers) never appear in them, but only relative frequencies, i.e. ratios, or F-numbers. The N-numbers only occur in the proofs of a few fundamental theorems which are directly deduced from the definition; but they do not occur in the theorems themselves.*2

 

 

 

*1 Definition 1 is of course related to the classical definition of probability as the ratio of the favourable cases to the equally possible cases; but it should be clearly distinguished from the latter definition: there is no assumption involved here that the elements of a are 'equally possible'.

*2 By selecting a set of F-formulae from which the other F-formulae can be derived, we obtain a formal axiom system for probability; compare the appendices ii, *ii, *iv, and *v.

 

 

 

PROBABILITY

 

 

 

How this is to be understood will be shown here with the help of one very simple example. (Further examples will be found in appendix ii.) Let us denote the class of all elements which do not belong to β by ' ' (read: 'the complement of β' or simply: 'non-β'). Then we may write

 

αF"(β) + αF"( )=l

 

While this theorem only contains F-numbers, its proof makes use of N-numbers. For the theorem follows from the definition (1) with the help of a simple theorem from the calculus of classes which asserts that

N(α.β) + N(α. ) = N(α).

 

53 SELECTION, INDEPENDENCE, INSENSITIVENESS, IRRELEVANCE

 

Among the operations which can be performed with relative frequencies in finite classes, the operation of selection 1 is of special importance for what follows.

Let a finite reference-class α be given, for example the class of buttons in a box, and two property-classes, β (say, the red buttons) and γ (say, the large buttons). We may now take the product-class α.β as a new reference-class, and raise the question of the value of α.βF"(γ), i.e. of the frequency of γ within the new reference-class.2 The new reference-class α.β may be called 'the result of selecting β-elements from α', or the 'selection from α according to the property β'; for we may think of it as being obtained by selecting from α all those elements (buttons) which have the property β (red).

Now it is just possible that γ may occur in the new reference-class, α.β, with the same relative frequency as in the original reference-class α; i.e. it may be true that

 

α.βF"(γ) = αF"(γ)

 

 

 

1 Von Mises's term is 'choice' ('Auswahl').

2 The answer to this question is given by the general division theorem (cf. appendix ii).

 

 

 

146 SOME STRUCTURAL COMPONENTS OF A THEORY OF EXPERIENCE

 

In this case we say (following Hausdorff3) that the properties β and γ are 'mutually independent, within the reference-class α'. The relation of independence is a three-termed relation and is symmetrical in the properties β and γ.4 If two properties β and γ are (mutually) independent within a reference-class α we can also say that the property γ is, within α, insensitive to the selection of β-elements; or perhaps that the reference-class α is, with respect to this property γ, insensitive to a selection according to the property β.

The mutual independence, or insensitiveness, of β and γ within α could also from the point of view of the subjective theory be interpreted as follows: If we are informed that a particular element of the class α has the property β, then this information is irrelevant if β and γ are mutually independent within α; irrelevant namely, to the question whether this element also has the property γ, or not.*1 If, on the other hand, we know that γ occurs more often (or less often) in the subclass α.β (which has been selected from a according to β), then the information that an element has the property β is relevant to the question whether this element also has the property γ or not.5

 

 

 

3 Hausdorff, Berichte iiber die Verfiandlungen der sdchsischen Ges. d. Wissenschaften, Leipzig, mathem.- physik. Klasse S3, 1901, p. 158.

4 It is even triply symmetrical, i.e. for a, /? and y, if we assume /? and y also to be finite. For the proof of the symmetry assertion cf. appendix ii, (I s ) and (l s ). *The condition of finitude for triple symmetry asserted in this note is insufficient. I may have intended to express the condition that /? and y are bounded by the finite reference class a, or, most likely, that a should be our finite universe of discourse. (These are sufficient conditions.) The insufficiency of the condition, as formulated in my note, is shown by the following counter-example. Take a universe of 5 buttons; 4 are round (a); 2 are round and black (a/?); 2 are round and large (ay); 1 is round, black, and large (afiy); and 1 is square, black, and large (dfiy) . Then we do not have triple symmetry since „F" (y) # ^F" (y) .

*1 Thus any information about the possession of properties is relevant, or irrelevant, if and only if the properties in question are, respectively, dependent or independent. Relevance can thus be defined in terms of dependence, but the reverse is not the case. (Cf. the next footnote, and note *1 to section 55.)

5 Keynes objected to the frequency theory because he believed that it was impossible to define relevance in its terms; cf. op. cit., pp. 1 03 ff. *In fact, the subjective theory cannot define (objective) independence, which is a serious objection as 1 show in my Postscript, chapter *ii, especially sections *40 to *43.

 

 

 

PROBABILITY 147

 

 

 

54 FINITE SEQUENCES. ORDINAL SELECTION AND NEIGHBOURHOOD SELECTION

 

Let us suppose that the elements of a finite reference-class α are numbered (for instance that a number is written on each button in the box), and that they are arranged in a sequence, in accordance with these ordinal numbers. In such a sequence we can distinguish two kinds of selection which have special importance, namely selection according to the ordinal number of an element, or briefly, ordinal selection, and selection according to its neighbourhood.

Ordinal selection consists in making a selection, from the sequence α, in accordance with a property β which depends upon the ordinal number of the element (whose selection is to be decided on). For example β may be the property even, so that we select from α all those elements whose ordinal number is even. The elements thus selected form a selected sub-sequence. Should a property γ be independent of an ordinal selection according to β, then we can also say that the ordinal selection is independent with respect to γ; or we can say that the sequence α is, with respect to γ, insensitive to a selection of β-elements.

Neighbourhood selection is made possible by the fact that, in ordering the elements in a numbered sequence, certain neighbourhood relations are created. This allows us, for example, to select all those members whose immediate predecessor has the property γ; or, say, those whose first and second predecessors, or whose second successor, have the property γ; and so on.

Thus if we have a sequence of events say tosses of a coin we have to distinguish two kinds of properties: its primary properties such as 'heads' or 'tails', which belong to each element independently of its position in the sequence; and its secondary properties such as 'even' or 'successor of tails', etc., which an element acquires by virtue of its position in the sequence.

A sequence with two primary properties has been called 'alternative'. As von Mises has shown, it is possible to develop (if we are careful) the essentials of the theory of probability as a theory of alternatives, without sacrificing generality. Denoting the two primary properties of an alternative by the figures '1' and '0', every alternative can be represented as a sequence of ones and zeros.

 

 

 

SOME STRUCTURAL COMPONENTS OF A THEORY OF EXPERIENCE

 

Now the structure of an alternative can be regular, or it can be more or less irregular. In what follows we will study this regularity or irregularity of certain finite alternatives more closely.*1

 

55 N-FREEDOM IN FINITE SEQUENCES

 

Let us take a finite alternative α, for example one consisting of a thousand ones and zeros regularly arranged as follows:

 

(α) l 1 0 0 1 1 0 0 1 1 0 0 1 1 0 0...

 

In this alternative we have equal distribution, i.e. the relative frequencies of the ones and the zeros are equal. If we denote the relative frequency of the property 1 by 'F" (1)' and that of 0 by 'F" (0)', we can write:

 

(1) αF" (1) = αF" (0) =

 

We now select from α all terms with the neighbourhood-property of immediately succeeding α one (within the sequence α). If we denote this property by 'β', we may call the selected sub-sequence 'α.β'. It will have the structure:

(α.β) 1 0 1 0 1 0 1 0 1 0...

 

This sequence is again an alternative with equal distribution. Moreover, neither the relative frequency of the ones nor that of the zeros has changed; i.e. we have

 

(2) α,βF" (1) =αF" (1); α,βF" (0)= αF" (0).

 

In the terminology introduced in section 53, we can say that the primary properties of the alternative α are insensitive to selection according to the property β; or, more briefly, that α is insensitive to selection according to β.

 

*1 I suggest that sections 55 to 64, or perhaps only 56 to 64, be skipped at first reading. It may even be advisable to turn from here, or from the end of section 55, direct to chapter 10.

 

 

 

PROBABILITY 149

 

 

 

Since every element of α has either the property β (that of being the successor of a one) or that of being the successor of a zero, we can denote the latter property by ' '. If we now select the members having the property we obtain the alternative:

 

(α. ) 0 1 0 1 0 1 0 1 0...

 

This sequence shows a very slight deviation from equal distribution in so far as it begins and ends with zero (since α itself ends with '0, 0' on account of its equal distribution). If α contains 2000 elements, then α. will contain 500 zeros, and only 499 ones. Such deviations from equal distribution (or from other distributions) arise only on account of the first or last elements: they can be made as small as we please by making the sequence sufficiently long. For this reason they will be

neglected in what follows; especially since our investigations are to be extended to infinite sequences, where these deviations vanish. Accordingly, we shall say that the alternative α. has equal distribution, and that the alternative α is insensitive to the selection of elements having the property . As a consequence, α, or rather the relative frequency of the primary properties of α, is insensitive to both, a selection according to β and according to ; and we may therefore say that α is insensitive to every selection according to the property of the immediate predecessor.

Clearly, this insensitivity is due to certain aspects of the structure of the alternative α; aspects which may distinguish it from other alternatives. For example, the alternatives α.β and α. are not insensitive to selection according to the property of a predecessor.

We can now investigate the alternative α in order to see whether it is insensitive to other selections, especially to selection according to the property of a pair of predecessors. We can, for example, select from α all those elements which are successors of a pair 1,1. And we see at once that α is not insensitive to the selection of the successor of any of the four possible pairs 1,1; 1,0; 0,1; 0,0. In none of these cases have the resulting sub-sequences equal distribution; on the contrary, they all consist of uninterrupted blocks (or 'iterations'), i.e. of nothing but ones, or of nothing but zeros.

The fact that α is insensitive to selection according to single predecessors, but not insensitive to selection according to pairs of

 

 

 

SOME STRUCTURAL COMPONENTS OF A THEORY OF EXPERIENCE

 

 

 

predecessors, might be expressed, from the point of view of the subjective theory, as follows. Information about the property of one predecessor of any element in α is irrelevant to the question of the property of this element. on the other hand, information about the properties of its pair of predecessors is of the highest relevance; for given the law according to which α is constructed, it enables us to predict the property of the element in question: the information about the properties of its pair of predecessors furnishes us, so to speak, with the initial

conditions needed for deducing the prediction. (The law according to which α is constructed requires a pair of properties as initial conditions; thus it is 'two-dimensional' with respect to these properties. The specification of one property is 'irrelevant' only in being composite in an insufficient degree to serve as an initial condition. Cf. section 38.*1)

Remembering how closely the idea of causality of cause and effect is

related to the deduction of predictions, I shall now make use of the following terms. The assertion previously made about the alternative α, 'α is insensitive to selection according to a single predecessor', I shall now express by saying, 'α is free from any after-effect of single predecessors' or briefly, 'α is 1-free'. And instead of saying as before, that α is (or is not) 'insensitive to selection according to pairs of predecessors', I shall now say: 'α is (not) free from the after-effects of pairs of predecessors', or briefly, 'α is (not) 2-free.'*2

Using the 1-free alternative α as our prototype we can now easily

 

*1 This is another indication of the fact that the terms 'relevant' and 'irrelevant', figuring so largely in the subjective theory, are grossly misleading. For if p is irrelevant, and likewise q, it is a litde surprising to learn that p.q may be of the highest relevance. See also appendix *ix, especially points 5 and 6 of the first note.

*2 The general idea of distinguishing neighbourhoods according to their size, and of operating with well-defined neighbourhood-selections was introduced by me. But the term 'free from after-effect' ('nachwirkungsfrei') is due to Reichenbach. Reichenbach, however, used it at the time only in the absolute sense of 'insensitive to selection according to any preceding group of elements'. The idea of introducing a recursively definable concept of 1 -freedom, 2-freedom, . . . and n-freedom, and of thus utilizing the recursive method for analysing neighbourhood selections and especially for constructing random sequences is mine. (I have used the same recursive method also for defining the mutual independence of n events.) This method is quite different from Reichenbach's, See also footnote 4 to section 58, and especially footnote 2 to section 60, below. Added 1968: I have now found that the term was used long before Reichenbach by Smoluchowski.

 

 

 

PROBABILITY 1

 

 

 

construct other sequences, again with equal distribution, which are not only free from the after effects of one predecessor, i.e. 1-free (like α), but which are, in addition, free from the after effects of a pair of predecessors, i.e., 2-free; and after this, we can go on to sequences which are 3-free, etc. In this way we are led to a general idea which is fundamental for what follows. It is the idea of freedom from the after-effects of all the predecessors up to some number n; or, as we shall say, of n-freedom. More precisely, we shall call a sequence 'n-free' if, and only if, the relative frequencies of its primary properties are 'n-insensitive', i.e. insensitive to selection according to single predecessors and according to pairs of predecessors and according to triplets of predecessors ... and according to n-tuples of predecessors.1

An alternative α which is 1-free can be constructed by repeating the generating period

 

(A) 1 1 0 0 ...

 

any number of times. Similarly we obtain a 2-free alternative with equal distribution if we take

 

(B) 1 0 1 1 1 0 0 0 ...

 

as its generating period. A 3-free alternative is obtained from the generating period

 

(C) 1 0 1 1 0 0 0 0 1 1 1 1 0 1 0 0 ...

 

and a 4-free alternative is obtained from the generating period

 

(D) 0 1 1 0 0 0 1 1 1 0 1 0 1 0 0 1 0 0 0 0 0 1 0 1 1 1 1 1 0 0 1 1 ...

 

It will be seen that the intuitive impression of being faced with an irregular sequence becomes stronger with the growth of the number n of its n-freedom.

 

1 As Dr. K. Schiff has pointed out to me, it is possible to simplify this definition. It is enough to demand insensitivity to selection of any predecessor n-tuple (for a given n). Insensitivity to selection of n1 -tuples (etc.) can then be proved easily.

 

 

 

152 SOME STRUCTURAL COMPONENTS OF A THEORY OF EXPERIENCE

 

The generating period of an n-free alternative with equal distribution must contain at least 2 elements. The periods given as examples can, of course, begin at different places; (C) for example can begin with its fourth element, so that we obtain, in place of (C)

 

(C) 1 0 0 0 0 1 1 1 1 0 1 0 0 1 0 1 ...

 

There are other transformations which leave the n-freedom of a sequence unchanged. A method of constructing generating periods of n-free sequences for every number n will be described elsewhere.*3

If to the generating period of an n-free alternative we add the first n elements of the next period, then we obtain a sequence of the length 2 + n. This has, among others, the following property: every arrangement of n + 1 zeros and ones, i.e. every possible n + 1-tuple, occurs in it at least once.*4

 

 

 

56 SEQUENCES OF SEGMENTS. THE FIRST FORM OF THE BINOMIAL FORMULA

 

Given a finite sequence α, we call a sub-sequence of α consisting of n consecutive elements a 'segment of α of length n'; or, more briefly, an 'n-segment of α'. If, in addition to the sequence α, we are given some definite number n, then we can arrange the n-segments of α in a sequence the sequence of n-segments of α. Given a sequence α, we may construct a new sequence, of n-segments of α, in such a way that we

 

*3 Cf. note * 1 to appendix iv. The result is a sequence of the length 2n + n 1 such that by omitting its last n 1 elements, we obtain a generating period for an m-free alternative, with m = n 1 .

*4 The following definition, applicable to any given long but finite alternative A, with equidistribution, seems appropriate. Let N be the length of A, and let n be the greatest integer such that 2 n + 1 =S N. Then A is said to be perfectly random if and only if the relative number of occurrences of any given pair, triplet m-tuplet (up to m = n) deviates from that of any other pair, triplet, . . . , m-tuplet, by not more than, say, m/N' /l respectively. This characterization makes it possible to say of a given alternative A that it is approximately random; and it even allows us to define a degree of approximation. A more elaborate definition may be based upon the method (of maximizing my E-function) described under points 8 ff. of my Third Note reprinted in appendix *ix.

 

 

 

PROBABILITY 1

 

 

 

begin with the segment of the first n elements of α. Next comes the segment of the elements 2 to n + 1 of α. In general, we take as the xth element of the new sequence the segment consisting of the elements x to x + n 1 of α. The new sequence so obtained may be called the 'sequence of the overlapping n-segments of α'. This name indicates that any two consecutive elements (i.e. segments) of the new sequence overlap in such a way that they have n - 1 elements of the original

sequence α in common.

Now we can obtain, by selection, other n-sequences from a sequence of overlapping segments; especially sequences of adjoining n-segments.

A sequence of adjoining n-segments contains only such n-segments as immediately follow each other in α without overlapping. It may begin, for example, with the n-segments of the elements numbered 1 to n, of the original sequence α, followed by that of the elements n + 1 to 2n, 2n + 1 to 3n, and so on. In general, a sequence of adjoining segments will begin with the kth element of α and its segments will contain the elements of α numbered k to n + k - 1, n + k to 2n + k - 1, 2n + k to 3n + k 1, and so on.

In what follows, sequences of overlapping n-segments of α will be denoted by

'α ', and sequences of adjoining n-segments by 'α '.

Let us now consider the sequences of overlapping segments α a little more closely. Every element of such a sequence is an n-segment of α. As a primary property of an element of α , we might consider, for instance, the ordered n-tuple of zeros and ones of which the segment consists. Or we could, more simply, regard the number of its ones as the primary property of the element (disregarding the order of the ones and zeros). If we denote the number of ones by 'm' then, clearly, we have m n.

Now from every sequence α we again get an alternative if we select a particular m (m n), ascribing the property 'm' to each element of the sequence α which has exactly m ones (and therefore n m zeros) and the property ' ' (non-m) to all other elements of α . Every element of α must then have one or the other of these two properties.

Let us now imagine again that we are given a finite alternative α with the primary properties '1' and '0'. Assume that the frequency of the ones, αF" (1), is equal to p, and that the frequency of the zeros, αF" (0),

 

 

 

154 SOME STRUCTURAL COMPONENTS OF A THEORY OF EXPERIENCE

 

 

 

is equal to q. (We do not assume that the distribution is equal, i.e. that p = q.)

Now let this alternative α be at least n1-free (n being an arbitrarily chosen natural number). We can then ask the following question: What is the frequency with which the property m occurs in the sequence α ? Or in other words, what will be the value of F" (m)?

Without assuming anything beyond the fact that α is at least n1-free, we can settle this question1 by elementary arithmetic. The answer is contained in the following formula, the proof of which will be found in appendix iii:

 

(1) F" (m) = C p q

 

The right-hand side of the 'binomial' formula (1) was given in another connection by Newton. (It is therefore sometimes called Newton's formula.) I shall call it the 'first form of the binomial formula'.*1

With the derivation of this formula, I now leave the frequency theory as far as it deals with finite reference-classes. The formula will provide us with a foundation for our discussion of the axiom of randomness.

 

57 INFINITE SEQUENCES. HYPOTHETICAL ESTIMATES OF FREQUENCY

 

It is quite easy to extend the results obtained for n-free finite sequences to infinite n-free sequences which are defined by a generating period (cf. section 55). An infinite sequence of elements playing the role of the reference-class to which our relative frequencies are related may be

 

1 The corresponding problem in connection with infinite sequences of adjoining segments I call 'Bernoulli's problem' (following von Mises, Wahrscheinlichkeitsrechnunq, 1931, p. 128); and in connection with infinite sequences of overlapping segments I call it 'the quasi-Bernoulli problem' (cf. note 1 to section 60). Thus the problem here discussed would be the quasi-Bernoulli problem for finite sequences.

*1 In the original text, I used the term 'Newton's formula'; but since this seems to be rarely used in English, I decided to translate it by 'binomial formula'.

 

 

 

PROBABILITY

 

 

 

called a 'reference-sequence'. It more or less corresponds to a 'collective' in von Mises's sense.*1

The concept of n-freedom presupposes that of relative frequency; for what its definition requires to be insensitive insensitive to selection according to certain predecessors is the relative frequency with which a property occurs. In our theorems dealing with infinite sequences I shall employ, but only provisionally (up to section 64), the idea of a limit of relative frequencies (denoted by F'), to take the place of relative frequency in finite classes (F"). The use of this concept gives rise to no problem so long as we confine ourselves to reference-sequences which are constructed according to some mathematical rule. We can always determine for such sequences whether the corresponding sequence of relative frequencies is convergent or not. The idea of a limit of relative frequencies leads to trouble only in the case of sequences for which no mathematical rule is given, but only an empirical rule (linking, for example the sequence with tosses of a coin); for in these cases the concept of limit is not defined (cf. section 5I).

An example of a mathematical rule for constructing a sequence is

 

*1 I come here to the point where I railed to carry out fully my intuitive programme that of analysing randomness as far as it is possible within the region of finite sequences, and of proceeding to infinite reference sequences (in which we need limits of relative frequencies) only afterwards, with the aim of obtaining a theory in which the existence of frequency limits follows from the random character of the sequence. I could have carried out this programme very easily by constructing, as my next step (finite) shortest n-free sequences for a growing n, as I did in my old appendix iv. It can then be easily shown that if, in these shortest sequences, n is allowed to grow without bounds, the sequences become infinite, and the frequencies turn without further assumption into frequency limits. (See note *2 to appendix iv, and my new appendix *vi.) All this would have simplified the next sections which, however, retain their significance. But it would have solved completely and without further assumption the problems of sections 63 and 64; for since the existence of limits becomes demonstrable, points of accumulation need no longer be mentioned.

These improvements, however, remain all within the framework of the pure frequency theory: except in so far as they define an ideal standard of objective disorder, they become unnecessary if we adopt a propensity interpretation of the neo-classical (measure-theoretical) formalism, as explained in sections *53 ff of my Postscript. But even then it remains necessary to speak of frequency hypotheses of hypothetical estimates and their statistical tests; and thus the present section remains relevant, as does much in the succeeding sections, down to section 64.

 

 

 

156 SOME STRUCTURAL COMPONENTS OF A THEORY OF EXPERIENCE

 

the following: 'The nth element of the sequence α shall be 0 if, and only if, n is divisible by four'. This defines the infinite alternative

 

(α) 1 1 1 0 1 1 1 0 ...

 

with the limits of the relative frequencies: αF' (1) = 3/4; and αF' (0) = 1/4. Sequences which are defined in this way by means of a mathematical rule I shall call, for brevity, 'mathematical sequences'.

By contrast, a rule for constructing an empirical sequence would be, for

instance: 'The nth element of the sequence α shall be 0 if, and only if, the nth toss of the coin c shows tails.' But empirical rules need not always define sequences of a random character. For example, I should describe the following rule as empirical: 'The nth element of the sequence shall be 1 if, and only if, the nth second (counting from some zero instant) finds the pendulum p to the left of this mark.'

The example shows that it may sometimes be possible to replace an empirical rule by a mathematical one for example on the basis of certain hypotheses and measurements relating to some pendulum. In this way, we may find a mathematical sequence approximating to our empirical sequence with a degree of precision which may or may not satisfy us, according to our purposes. Of particular interest in our present context is the possibility (which our example could be used to establish) of obtaining a mathematical sequence whose various

frequencies approximate to those of a certain empirical sequence.

In dividing sequences into mathematical and empirical ones I am making use of a distinction that may be called 'intensional' rather than 'extensional'. For if we are given a sequence 'extensionally', i.e. by listing its elements singly, one after the other so that we can only know a finite piece of it, a finite segment, however long then it is impossible to determine, from the properties of this segment, whether the sequence of which it is a part is a mathematical or an empirical sequence. only when a rule of construction is given that is, an 'inten-

sional' rule can we decide whether a sequence is mathematical or empirical.

Since we wish to tackle our infinite sequences with the help of the concept of a limit (of relative frequencies), we must restrict our investigation to mathematical sequences, and indeed to those for

 

 

 

PROBABILITY 1

 

 

 

which the corresponding sequence of relative frequencies is convergent. This restriction amounts to introducing an axiom of convergence. (The problems connected with this axiom will not be dealt with until sections 63 to 66, since it turns out to be convenient to discuss them along with the 'law of great numbers'.)

Thus we shall be concerned only with mathematical sequences. Yet we shall be concerned only with those mathematical sequences of which we expect, or conjecture, that they approximate, as regards frequencies, to empirical sequences of a chance-like or random character; for these are our main interest. But to expect, or to conjecture, of a mathematical sequence that it will, as regards frequencies, approximate to an empirical one is nothing else than to frame a hypothesis a hypothesis about the frequencies of the empirical sequence.1

The fact that our estimates of the frequencies in empirical random sequences are hypotheses is without any influence on the way we may calculate these frequencies. Clearly, in connection with finite classes, it does not matter in the least how we obtain the frequencies from which we start our calculations. These frequencies may be obtained by actual counting, or from a mathematical rule, or from a hypothesis of some kind or other. Or we may simply invent them. In calculating frequencies we accept some frequencies as given, and derive other frequencies from them.

The same is true of estimates of frequencies in infinite sequences. Thus the question as to the 'sources' of our frequency estimates is not a problem of the calculus of probability; which, however, does not mean that it will be excluded from our discussion of the problems of probability theory.

In the case of infinite empirical sequences we can distinguish two main 'sources' of our hypothetical estimates of frequencies that is to say, two ways in which they may suggest themselves to us. one is an estimate based upon an 'equal-chance hypothesis' (or equi-probability hypothesis), the other is an estimate based upon an extrapolation of statistical findings.

 

1 Later, in sections 65 to 68, I will discuss the problem of decidability of frequency hypotheses, that is to say, the problem whether a conjecture or hypothesis of this kind can be tested; and if so, how; whether it can be corroborated in any way; and whether it is falsifiable. *Cf. also appendix *ix.

 

 

 

SOME STRUCTURAL COMPONENTS OF A THEORY OF EXPERIENCE

 

By an 'equal-chance hypothesis' I mean a hypothesis asserting that the probabilities of the various primary properties are equal: it is a hypothesis asserting equal distribution. Equal-chance hypotheses are usually based upon considerations of symmetry.2 A highly typical example is the conjecture of equal frequencies in dicing, based upon the symmetry and geometrical equivalence of the six faces of the cube.

For frequency hypotheses based on statistical extrapolation, estimates of rates of mortality provide a good example. Here statistical data about mortality are empirically ascertained; and upon the hypothesis that past trends will continue to be very nearly stable, or that they will not change much at least during the period immediately ahead an extrapolation to unknown cases is made from known cases, i.e. from occurrences which have been empirically classified, and counted.

People with inductivist leanings may tend to overlook the hypothetical character of these estimates: they may confuse a hypothetical estimate, i.e. a frequency-prediction based on statistical extrapolation, with one of its empirical 'sources' the classifying and actual counting of past occurrences and sequences of occurrences. The claim is often made that we 'derive' estimates of probabilities that is, predictions of frequencies from past occurrences which have been classified and counted (such as mortality statistics). But from a logical point of view there is no justification for this claim. We have made no logical derivation at all. What we may have done is to advance a non-verifiable hypothesis which nothing can ever justify logically: the conjecture that frequencies will remain constant, and so permit of extrapolation. Even equal-chance hypotheses are held to be 'empirically derivable' or 'empirically explicable' by some believers in inductive logic who suppose them to be based upon statistical experience, that is, upon empirically observed frequencies. For my own part I believe, however, that in making this kind of hypothetical estimate of frequency we are often guided solely by our reflections about the significance of symmetry, and by similar considerations. I do not see any reason why such conjectures should be inspired only by the accumulation of a large mass of inductive observations. However, I do not attach much importance to these

 

2 Keynes deals with such questions in his analysis of the principle of indifference. Cf. op. cit., Chapter IV, pp. 41-64.

 

 

 

PROBABILITY 1

 

 

 

questions about the origins or 'sources' of our estimates. (Cf. section 2.) It is more important, in my opinion, to be quite clear about the fact that every predictive estimate of frequencies, including one which we may get from statistical extrapolation and certainly all those that refer to infinite empirical sequences will always be pure conjecture since it will always go far beyond anything which we are entitled to affirm on the basis of observations.

My distinction between equal-chance hypotheses and statistical extrapolations corresponds fairly well to the classical distinction between 'a priori' and 'a posteriori' probabilities. But since these terms are used in so many different senses,3 and since they are, moreover, heavily tainted with philosophical associations, they are better avoided.

In the following examination of the axiom of randomness, I shall attempt to find mathematical sequences which approximate to random empirical sequences; which means that I shall be examining frequency-hypotheses.*2

 

58 AN EXAMINATION OF THE AXIOM OF RANDOMNESS

 

The concept of an ordinal selection (i.e. of a selection according to position) and the concept of a neighbourhood-selection, have both been introduced and explained in section 55. With the help of these concepts I will now examine von Mises's axiom of randomness the principle of the excluded gambling system in the hope of finding a weaker requirement which is nevertheless able to take its place. In von Mises's theory this 'axiom' is part of his definition of the concept of a collective: he demands that the limits of frequencies in a collective shall be insensitive to any kind of systematic selection whatsoever. (As he

 

3 Born and Jordan, for instance, in Elementare QuantenmecJianik, 1930, p. 308, use the first of these terms in order to denote a hypothesis of equal distribution. A. A. Tschuprow, on the other hand, uses the expression 'a priori probability' for all frequency hypotheses, in order to distinguish them from their statistical tests, i.e. the results, obtained a posteriori, of empirical counting.

*2 This is precisely the programme here alluded to in note *1 above, and carried out in appendices iv and *vi.

 

 

 

SOME STRUCTURALCOMPONENTS OF A THEORY OF EXPERIENCE

 

points out, a gambling system can always be regarded as a systematic selection.)

Most of the criticism which has been levelled against this axiom concentrates on a relatively unimportant and superficial aspect of its formulation. it is connected with the fact that, among the possible selections, there will be the selection, say, of those throws which come up five; and within this selection, obviously, the frequency of the fives will be quite different from what it is in the original sequence. This is why von Mises in his formulation of the axiom of randomness speaks of what he calls 'selections' or 'choices' which are 'independent of the result' of the throw in question, and are thus defined without making use of the property of the element to be selected.1 But the many attacks

levelled against this formulation2 can all be answered merely by pointing out that we can formulate von Mises's axiom of randomness without using the questionable expressions at all.3 For we may put it, for example, as follows: The limits of the frequencies in a collective shall be insensitive both to ordinal and to neighbourhood selection, and also to all combinations of these two methods of selection that can be used as gambling systems.*1

With this formulation the above mentioned difficulties disappear. Others however remain. Thus it might be impossible to prove that the concept of a collective, defined by means of so strong an axiom of randomness, is not self-contradictory; or in other words, that the class of 'collectives' is not empty. (The necessity for proving this has been stressed by Kamke.4) At least it seems to be impossible to construct an

 

1 Cf. for example von Mises's VVdhrschemlichkeit, Statistik und Wahrheit, 1928, p. 25; English translation, 1939, p. 3 3.

2 Cf. for instance, Feigl, Erkenntnis 1, 1930, p. 256, where that formulation is described as 'not mathematically expressible'. Reichenbach's criticism, in Mafhematische Zeitschhft 34, 1932, p. 594 f, is very similar.

3 Dorge has made a similar remark, but he did not explain it.

*1 The last seven words (which are essential) were not in the German text.

4 Cf. for instance, Kamke, Emfiihrung in die Wahrscheinlichkeitstheorie, 1932, p. 147, and Jcihresbericht der Deutschen mathem. Vereinigung 42, 1932. Kamke's objection must also be raised against Reichenbach's attempt to improve the axiom of randomness by introducing normal sequences, since he did not succeed in proving that this concept is non-empty. Cf. Reichenbach, Axiomatik der Wahrscheinlichkeitsrechnung, Mathematische Zeitschhft 34, 1932, p. 606.

 

 

 

PROBABILITY 1

 

 

 

example of a collective and in that way to show that collectives exist. This is because an example of an infinite sequence which is to satisfy certain conditions can only be given by a mathematical rule. But for a collective in von Mises's sense there can be, by definition, no such rule, since any rule could be used as a gambling system or as a system of selection. This criticism seems indeed unanswerable if all possible gambling systems are ruled out.*2

Against the idea of excluding all gambling systems, another objection may be raised, however: that it really demands too much. If we are going to axiomatize a system of statements in this case the theorems of the calculus of probability, particularly the special theorem of multiplication or Bernoulli's theorem then the axioms chosen should not only be sufficient for the derivation of the theorems of the system, but also (if we can make them so) necessary. Yet the exclusion of all systems of selection can be shown to be unnecessary for the deduction of Bernoulli's theorem and its corollaries. It is quite sufficient to demand the exclusion of a special class of neighbourhood-selection: it suffices to demand that

the sequence should be insensitive to selections according to arbitrarily chosen n-tuples of predecessors; that is to say, that it should be n-free from after-effects for every n, or more briefly, that it should be 'absolutely free'.

I therefore propose to replace von Mises's principle of the excluded gambling system by the less exacting requirement of 'absolute freedom', in the sense of n-freedom for every n, and accordingly to define chance-like mathematical sequences as those which fulfil this requirement. The chief advantage of this is that it does not exclude all gambling systems, so that it is possible to give mathematical rules for constructing sequences which are 'absolutely free' in our sense, and hence to construct examples. (Cf. section (a) of appendix iv.) Thus Kamke's objection, discussed above, is met. For we can now prove that the concept of chance-like mathematical sequences is not empty, and is therefore consistent.*3

 

*2 It is, however, answerable if any given denumerabk set of gambling systems is to be ruled out; for then an example of a sequence may be constructed (by a kind of diagonal method). See section *54 of the Postscript (text after note 5), on A. Wald.

*3 The reference to appendix iv is of considerable importance here. Also, most of the objections which have been raised against my theory were answered in the following paragraph of my text.

 

 

 

162 SOME STRUCTURAL COMPONENTS OF A THEORY OF EXPERIENCE

 

 

 

It may seem odd, perhaps, that we should try to trace the highly irregular features of chance sequences by means of mathematical sequences which must conform to the strictest rules. Von Mises's axiom of randomness may seem at first to be more satisfying to our intuitions. It seems quite satisfying to learn that a chance sequence must be completely irregular, so that every conjectured regularity will be found to fail, in some later part of the sequence, if only we keep on trying hard to falsify the conjecture by continuing the sequence long enough. But this intuitive argument benefits my proposal also. For if chance sequences are irregular, then, a fortiori, they will not be regular sequences of one particular type. And our requirement of 'absolute freedom' does no more than exclude one particular type of regular sequence, though an important one.

That it is an important type may be seen from the fact that by our requirement we implicitly exclude the following three types of gambling systems (cf. the next section). First we exclude 'normal' or 'pure'*4 neighbourhood selections, i.e. those in which we select according to some constant characteristic of the neighbourhood. Secondly we exclude 'normal' ordinal selection which picks out elements whose distance apart is constant, such as the elements numbered k, n + k, 2n + k . . . and so on. And finally, we exclude [many] combinations of these two types of selection (for example the selection of every nth element, provided its neighbourhood has certain specified [constant] characteristics). A characteristic property of all these selections is that they do not refer to an absolute first element of the sequence; they may thus yield the same selected sub-sequence if the numbering of the original sequence begins with another (appropriate) element. Thus the gambling systems which are excluded by my requirement are those which could be used without knowing the first element of the sequence: the systems excluded are invariant with respect to certain (linear) transformations: they are the simple gambling systems (cf. section 43). only*5 gambling systems which refer to the absolute

 

 

 

*4 Cf. the last paragraph of section 60, below.

*s The word 'only' is only correct if we speak of (predictive) gambling systems; cf. note *3 to section 60, below, and note 6 to section *54 of my Postscript.

 

 

 

PROBABILITY 1

 

 

 

distances of the elements from an absolute (initial) element5 are not excluded by my requirement.

The requirement of n-freedom for every n of 'absolute freedom' also seems to agree quite well with what most of us, consciously or unconsciously, believe to be true of chance sequences; for example that the result of the next throw of a die does not depend upon the results of preceding throws. (The practice of shaking the die before the throw is intended to ensure this 'independence'.)

 

59 CHANCE-LIKE SEQUENCES. OBJECTIVE PROBABILITY

 

In view of what has been said I now propose the following definition.

An event-sequence or property-sequence, especially an alternative, is said to be 'chance-like' or 'random' if and only if the limits of the frequencies of its primary properties are 'absolutely free', i.e. insensitive to every selection based upon the properties of any n-tuple of predecessors. A frequency-limit corresponding to a sequence which is random is called the objective probability of the property in question, within the sequence concerned; it is symbolized by F. This may also be

put as follows. Let the sequence α be a chance-like or random-like sequence with the primary property β; in this case, the following holds:

 

αF(β) = αF(β)

 

We shall have to show now that our definition suffices for the derivation of the main theorems of the mathematical theory of probability, especially Bernoulli's theorem. Subsequently in section 64 the definition here given will be modified so as to make it independent of the concept of a limit of frequencies.*1

 

5 Example: the selection of all terms whose number is a prime.

*1 At present I should be inclined to use the concept of 'objective probability'

differently that is, in a wider sense, so as to cover all 'objective' interpretations of the formal calculus of probabilities, such as the frequency interpretation and, more especially, the propensity interpretation which is discussed in the Postscript. Here, in section 59, the concept is used merely as an auxiliary concept in the construction of a certain form of the frequency theory.

 

 

 

164 SOME STRUCT URALCOMPONENTS OF A THEORY OF EXPERIENCE

 

 

 

60 BERNOULLI'S PROBLEM

 

The first binomial formula which was mentioned in section 56, viz.

 

F" (m) = C p q (1)

 

holds for finite sequences of overlapping segments. It is derivable on the assumption that the finite sequence α is at least n1-free. Upon the same assumption, we immediately obtain an exactly corresponding formula for infinite sequences; that is to say, if α is infinite and at least n1-free, then

 

F(m) = C p q (2)

 

Since chance-like sequences are absolutely free, i.e. n-free for every n, formula (2), the second binomial formula, must also apply to them; and it must apply to them, indeed, for whatever value of n we may choose.

In what follows, we shall be concerned only with chance-like sequences, or random sequences (as defined in the foregoing section). We are going to show that, for chance-like sequences, a third binomial formula (3) must hold in addition to formula (2); it is the formula

 

F (m) = C p q (3)

 

Formula (3) differs from formula (2) in two ways: First, it is asserted for sequences of adjoining segments instead of for sequences of overlapping segments . Secondly, it does not contain the symbol F' but the symbol F. This means that it asserts, by implication, that the sequences of adjoining segments are in their turn chance-like, or random; for F, i.e. objective probability, is defined only for chance-like sequences.

The question, answered by (3), of the objective probability of the property m in a sequence of adjoining segments i.e. the question of the value of α F(m) I call, following von Mises, 'Bernoulli's problem'.1 For its solution, and hence for the derivation of the third

 

1 The corresponding question for sequences of overlapping segments, i.e. the problem of „ F'(m), answered by (2), can be called the 'quasi-Bernoulli problem'; cf. note 1 to section 5 6 as well as section 6 1 .

 

 

 

PROBABILITY 1

 

 

 

binomial formula (3), it is sufficient to assume that α is chance-like or random.2 (Our task is equivalent to that of showing that the special theorem of multiplication holds for the sequence of adjoining segments of a random sequence α.)

The proof*1 of formula (3) may be carried out in two steps. First we show that formula (2) holds not only for sequences of overlapping segments , but also for sequences of adjoining sequences α . Secondly, we show that the latter are 'absolutely free'. (The order of these steps cannot be reversed, because a sequence of overlapping segments is definitely not 'absolutely free'; in fact, a sequence of this kind provides a typical example of what may be called 'sequences with after-effects'.3)

First step. Sequences of adjoining segments α are sub-sequences of . They can be obtained from these by normal ordinal selection. Thus if we can show that the limits of the frequencies in overlapping sequences F'(m) are insensitive to normal ordinal selection, we have taken our first step (and even gone a little farther); for we shall have proved the formula:

 

α F' (m) = F' (m) (4)

 

I shall first sketch this proof in the case of n = 2; i.e. I shall show that

 

α F' (m)= α F' (m) (m 2) (4a)

 

is true; it will then be easy to generalize this formula for every n.

From the sequence of overlapping segments α we can select two

 

1 Reichenbach (Axiomatik der Wahrscheinlichkeitsrechriiing, Mathematische Zeitschrift 34, 1932, p. 603) implicitly contests this when he writes, . . . normal sequences are also free from after-effect, whilst the converse does not necessarily hold'. But Reichenbach's normal sequences are those for which (3) holds. (My proof is made possible by the fact that I have departed from previous procedure, by defining the concept 'freedom from after-effect' not directly, but with the help of 'n-freedom from after-effect', thus making it accessible to the procedure of mathematical induction.)

*1 only a sketch of the proof is here given. Readers not interested in the proof may turn to the last paragraph of the present section.

3 Von Smoluchowski based his theory of the Brownian movement on after-effect

sequences, i.e. on sequences of overlapping segments.

 

 

 

166 SOME STRUCTURAL COMPONENTS OF A THEORY OF EXPERIENCE

 

 

 

and only two distinct sequences α of adjoining segments; one, which will be denoted by (A), contains the first, third, fifth, . . . , segments of α , that is, the pairs of α consisting of the numbers 1,2; 3,4; 5,6; . . . The other, denoted by (B), contains the second, fourth, sixth, . . . , segments of α , that is, the pairs of elements of α consisting of the numbers 2,3; 4,5; 6,7; . . . , etc. Now assume that formula (4a) does not hold for one of the two sequences, (A) or (B), so that the segment (i.e. the pair) 0,0 occurs too often in, say, the sequence (A); then in sequence (B) a complementary deviation must occur; that is, the segment 0,0 will occur not often enough ('too often', or 'not often enough', as compared with the binomial formula). But this contradicts the assumed 'absolute freedom' of α. For if the pair 0,0 occurs in (A) more often than in (B), then in sufficiently long segments of α the pair 0,0 must appear more often at certain characteristic distances apart than at other distances. The more frequent distances would be those which would obtain if the 0,0 pairs belonged to one of the two α -sequences. The less frequent distances would be those which would obtain if they belonged to both α -sequences. But this would contradict the assumed 'absolute freedom' of α; for according to the second binomial formula, the 'absolute freedom' of α entails that the frequency with which a particular sequence of the length n occurs in any -sequence depends only on the number of ones and zeros occurring in it, and not on their arrangement in the sequence.*2

This proves (4a); and since this proof can easily be generalized for any n, the validity of (4) follows; which completes the first step of the proof.

Second step. The fact that the α -sequences are 'absolutely free' can be shown by a very similar argument. Again, we first consider α -sequences only; and with respect to these it will only be shown, to start with, that they are 1-free. Assume that one of the two α -sequences, e.g. the sequence (A), is not 1-free. Then in (A) after at least one of the segments consisting of two elements (a particular α-pair), say after the

 

* 2 The following formulation may be intuitively helpful: if the 0,0 pairs are more

frequent in certain characteristic distances than in others, then this fact may be easily used as the basis of a simple system which would somewhat improve the chances of a gambler. But gambling systems of this type are incompatible with the 'absolute freedom' of the sequence. The same consideration underlies the 'second step' of the proof.

 

 

 

PROBABILITY 1

 

 

 

segment 0,0, another segment, say 1,1, must follow more often than would be the case if (A) were 'absolutely free'; this means that the segment 1,1 would appear with greater frequency in the sub-sequence selected from (A) according to the predecessor-segment 0,0 than the binomial formula would lead us to expect.

This assumption, however, contradicts the 'absolute freedom' of the sequence α. For if the segment 1,1 follows in (A) the segment 0,0 too frequently then, by way of compensation, the converse must take place in (B); for otherwise the quadruple 0,0,1,1 would, in a sufficiently long segment of α, occur too often at certain characteristic distances apart namely at the distances which would obtain if the double pairs in question belonged to one and the same α -sequence. Moreover, at other characteristic distances the quadruple would occur not often enough at those distances, namely, which would obtain if they belonged to both α -sequences. Thus we are confronted with precisely the same situation as before; and we can show, by analogous considerations, that the assumption of a preferential occurrence at characteristic distances is incompatible with the assumed 'absolute freedom' of α.

This proof can again be generalized, so that we may say of α-sequences that they are not only 1-free but n-free for every n; and hence that they are chance-like, or random.

This completes our sketch of the two steps. Thus we are now entitled to replace, in (4), F' by F; and this means that we may accept the claim that the third binomial formula solves Bernoulli's problem.

Incidentally we have shown that sequences of overlapping segments are insensitive to normal ordinal selection whenever α is 'absolutely free'.

The same is also true for sequences α of adjoining segments, because every normal ordinal selection from α can be regarded as a normal ordinal selection from ; and it must therefore apply to the sequence α itself, since α is identical with both α and α

We have thus shown, among other things, that from 'absolute freedom' which means insensitiveness to a special type of neighbourhood selection insensitiveness to normal ordinal selection follows. A further consequence, as can easily be seen, is insensitiveness to any 'pure' neighbourhood selection (that is, selection according to a constant characterization of its neighbourhood a characterization

 

 

 

SOME STRUCTURAL COMPONENTS OF A THEORY OF EXPERIENCE

 

that does not vary with the ordinal number of the element). And it follows, finally, that 'absolute freedom' will entail insensitivity to all*3 combinations of these two types of selection.

 

61 THE LAW OF GREAT NUMBERS (BERNOULLI'S THEOREM)

 

Bernoulli's theorem, or the (first ) 'law of great numbers' can be derived from the third binomial formula by purely arithmetical reasoning, under the assumption that we can take n to the limit, n → ∞. It can therefore be asserted only of infinite sequences α; for it is only in these that the n-segments of α -sequences can increase in length indefinitely. And it can be asserted only of such sequences α as are 'absolutely free', for it is only under the assumption of n-freedom for every n that we can take n to the limit, n → ∞.

Bernoulli's theorem provides the solution of a problem which is closely akin to the problem which (following von Mises) I have called 'Bernoulli's problem', viz. the problem of the value of α F(m). As indicated in section 56, an n-segment may be said to have the property 'm' when it contains precisely m ones; the relative frequency of ones within this (finite) segment is then, of course, m/n. We may now define: An n-segment of α has the property 'p' if and only if the relative frequency of its ones deviates by less than δ from the value αF(l) = p, i.e. the probability of ones in the sequence α; here, δ is any small fraction, chosen as near to zero as we like (but different from zero). We can express this condition by saying: an n segment has the property 'p' if and only if | -p | < δ; otherwise, the segment has the property ' '. Now Bernoulli's theorem answers the question of the value of the frequency, or probability, of segments of this kind of

 

*3 Here the word 'all' is, I now believe, mistaken, and should be replaced, to be a little more precise, by 'all those . . . that might be used as gambling systems'. Abraham Wald showed me the need for this correction in 1935. Cf. footnotes *1 and *5 to section 58 above (and footnote 6, referring to A. Wald, in section *54 of my Postscript).

1 Von Mises distinguishes Bernoulli's or Poisson's theorem from its inverse which he calls 'Bayes's theorem' or 'the second law of great numbers'.

 

 

 

PROBABILITY 1

 

 

 

segments possessing the property 'p' within the α -sequences; it thus answers the question of the value of α F(p).

Intuitively one might guess that if the value δ (with δ > 0) is fixed, and if n increases, then the frequency of these segments with the property p, and therefore the value of α F(p), will also increase (and that its increase will be monotonic). Bernoulli's proof (which can be found in any textbook on the calculus of probability) proceeds by evaluating this increase with the help of the binomial formula. He finds that if n increases without limit, the value of α F(p) approaches the maximal value 1, for any fixed value of δ, however small. This may be expressed in symbols by

 

α F(p) = 1 (for any value of p) (1)

 

 

This formula results from transforming the third binomial formula for sequences of adjoining segments. The analogous second binomial formula for sequences of overlapping segments would immediately lead, by the same method, to the corresponding formula

 

α F(p) = 1 (2)

 

which is valid for sequences of overlapping segments and normal ordinal selection from them, and hence for sequences with after-effects (which have been studied by Smoluchowski2). Formula (2) itself yields (1) in case sequences are selected which do not overlap, and which are therefore n-free. (2) may be described as a variant of Bernoulli's theorem; and what I am going to say here about Bernoulli's

theorem applies mutatis mutandis to this variant.

 

Bernoulli's theorem, i.e. formula (1), may be expressed in words as follows. Let us call a long finite segment of some fixed length, selected from a random sequence α, a 'fair sample' if, and only if, the frequency of the ones within this segment deviates from p, i.e. the value of the probability of the ones within the random sequence α, by no more than some

 

2 Cf. note 3 to section 60, and note 5 to section 64.

 

 

 

SOME STRUCTURAL COMPONENTS OF A THEORY OF EXPERIENCE

 

small fixed fraction (which we may freely choose). We can then say that the probability of chancing upon a fair sample approaches 1 as closely as we like if only we make the segments in question sufficiently long.*1

In this formulation the word 'probability' (or 'value of the probability') occurs twice. How is it to be interpreted or translated here? In the sense of my frequency definition it would have to be translated as follows (I italicize the two translations of the word 'probability' into the frequency language): The overwhelming majority of all sufficiently long finite segments will be 'fair samples'; that is to say, their relative frequency will deviate from the frequency value p of the random sequence in question by an arbitrarily fixed small amount; or, more briefly: The frequency

p is realized, approximately, in almost all sufficiently long segments. (How we arrive at the value p is irrelevant to our present discussion; it may be, say, the result of a hypothetical estimate.)

Bearing in mind that the Bernoulli frequency α F(p) increases monotonically with the increasing length n of the segment and that it decreases monotonically with decreasing n, and that, therefore, the value of the relative frequency is comparatively rarely realized in short segments, we can also say:

Bernoulli's theorem states that short segments of 'absolutely free' or chance-like sequences will often show relatively great deviations from p and thus relatively great fluctuations, while the longer segments, in most cases, will show smaller and smaller deviations from p with increasing length. Consequently, most deviations in sufficiently long segments will become as small as we like; or in other words, great deviations will become as rare as we like.

Accordingly, if we take a very long segment of a random sequence, in order to find the frequencies within its sub-sequences by counting, or perhaps by the use of other empirical and statistical methods, then we shall get, in the vast majority of cases, the following result. There is a characteristic average frequency, such that the relative frequencies in the whole segment, and in almost all long sub-segments, will deviate

 

*l This sentence has been reformulated (without altering its content) in the translation by introducing the concept of a 'fair sample': the original operates only with the definiens of this concept.

 

 

 

PROBABILITY 1

 

 

 

only slightly from this average, whilst the relative frequencies of smaller sub-segments will deviate further from this average, and the more often, the shorter we choose them. This fact, this statistically ascertainable behaviour of finite segments, may be referred to as their 'quasi-convergent-behaviour'; or as the fact that random sequences are statistically stable.*2

Thus Bernoulli's theorem asserts that the smaller segments of chance-like sequences often show large fluctuations, whilst the large segments always behave in a manner suggestive of constancy or convergence; in short, that we find disorder and randomness in the small, order and constancy in the great. It is this behaviour to which the expression 'the law of great numbers' refers.

 

62 BERNOULLI'S THEOREM AND THE INTERPRETATION OF PROBABILITY STATEMENTS

 

We have just seen that in the verbal formulation of Bernoulli's theorem the word 'probability' occurs twice.

The frequency theorist has no difficulty in translating this word, in both cases, in accordance with its definition: he can give a clear interpretation of Bernoulli's formula and the law of great numbers. Can the adherent of the subjective theory in its logical form do the same?

The subjective theorist who wants to define 'probability' as 'degree of rational beliefis perfectly consistent, and within his rights, when he interprets the words 'The probability of . . . approaches to I as closely as we like' as meaning, 'It is almost certain1 that . . .' But he merely obscures his difficulties when he continues '. . . that the relative frequency will deviate from its most probable value p by less than a given amount . . .', or in the words of Keynes,2 'that the proportion of the event's occurrences will diverge from the most probable proportion p by less

 

*2 Keynes says of the 'Law of Great Numbers' that 'the "Stability of Statistical

Frequencies" would be a much better name for it'. (Cf. his Treatise, p. 336.)

1 Von Mises also uses the expression 'almost certain', but according to him it is of course to be regarded as defined by 'having a frequency close to [or equal to] I' .

2 Keynes, A Treatise on Probability, 1921, p. 338. *The preceding passage in quotation marks had to be inserted here because it re-translates the passage I quoted from the German edition of Keynes on which my text relied.

 

 

 

172 SOME STRUCTURAL COMPONENTS OF A THEORY OF EXPERIENCE

 

 

 

than a given amount . . . ' . This sounds like good sense, at least on first hearing. But if here too we translate the word 'probable' (sometimes suppressed) in the sense of the subjective theory then the whole story runs: 'It is almost certain that the relative frequencies deviate from the value p of the degree of rational belief by less than a given amount..., which seems to me complete nonsense.*1 For relative frequencies can be compared only with relative frequencies, and can deviate or not deviate only from relative frequencies. And clearly, it must be inadmissible to give after the deduction of Bernoulli's theorem a meaning to p different from the one which was given to it before the deduction.3

Thus we see that the subjective theory is incapable of interpreting Bernouilli's formula in terms of the statistical law of great numbers. Derivation of statistical laws is possible only within the framework of the frequency theory. If we start from a strict subjective theory, we shall never arrive at statistical statements not even if we try to bridge the gulf with Bernoulli's theorem.*2

 

*1 It may be worth while to be more explicit on this point. Keynes writes (in a passage preceding the one quoted above): 'If the probability of an event's occurrence under certain conditions is p, then . . . the most probable proportion of its occurrences to the total number of occasions is p . . . ' This ought to be translatable, according to his own theory, into: 'If the degree of rational belief in the occurrence of an event is p, then p is also a proportion of occurrences, i.e. a relative frequency that, namely, in whose emergence the degree of our rational belief is greatest.' I am not objecting to the latter use of the expression 'rational belief. (It is the use which might also be rendered by 'It is almost certain that . . .'.) What I do object to is the fact that p is at one time a degree of rational belief and at another a frequency; in other words, I do not see why an empirical frequency should be equal to a degree of rational belief; or that it can be proved to be so by any theorem however deep. (Cf. also section 49 and appendix *ix.)

3 This was first pointed out by von Mises in a similar connection in Wahrscheinlichkeit, Statistik und Walirlieit, 1928, p. 85 (2nd edition 1936, p. 136; the relevant words are missing in the English translation) . It may be further remarked that relative frequencies cannot be compared with 'degrees of certainty of our knowledge' if only because the ordering of such degrees of certainty is conventional and need not be carried out by correlating them with fractions between o and I. only if the metric of the subjective degrees of certainty is defined by correlating relative frequencies with it (but only then) can it be permissible to derive the law of great numbers within the framework of the subjective theory (cf. section 73).

*2 But it is possible to use Bernoulli's theorem as a bridge from the objective interpretation in terms of 'propensities' to statistics. Cf. sections *49 to *5 7 of my Postscript.

 

 

 

PROBABILITY 1

 

 

 

63 BERNOULLI'S THEOREM AND THE PROBLEM OF CONVERGENCE

 

From the point of view of epistemology, my deduction of the law of great numbers, outlined above, is unsatisfactory; for the part played in our analysis by the axiom of convergence is far from clear.

I have in effect tacitly introduced an axiom of this kind, by confining my investigation to mathematical sequences with frequency limits. (Cf. section 57.) Consequently one might even be tempted to think that our result the derivation of the law of great numbers is trivial; for the fact that 'absolutely free' sequences are statistically stable might be regarded as entailed by their convergence which has been assumed axiomatically, if not implicitly.

But this view would be mistaken, as von Mises has clearly shown. For there are sequences1 which satisfy the axiom of convergence although Bernoulli's theorem does not hold for them, since with a frequency close to 1, segments of any length occur in them which may deviate from p to any extent. (The existence of the limit p is in these cases due to the fact that the deviations, although they may increase without limit, cancel each other.) Such sequences look as if they were divergent

in arbitrarily large segments, even though the corresponding frequency sequences are in fact convergent. Thus the law of great numbers is anything but a trivial consequence of the axiom of convergence, and this axiom is quite insufficient for its deduction. This is why my modified axiom of randomness, the requirement of 'absolute freedom', cannot be dispensed with.

Our reconstruction of the theory, however, suggests the possibility that the law of great numbers may be independent of the axiom of convergence. For we have seen that Bernoulli's theorem follows immediately from the binomial formula; moreover, I have shown that the first binomial formula can be derived for finite sequences and so, of course, without any axiom of convergence. All that had to be assumed was that the reference-sequence α was at least n1-free; an assumption from

 

1 As an example von Mises cites the sequence of figures occupying the last place of a six-figure table of square roots. Cf. for example, Wahrsclieinlichkeit, Statistik und Wahrlieit, 1928, p. 86 £; (2nd edition 1936, p. 137; English translation, p. 165), and Wahrscheinlichkeitsrechnung, 1931, p. 181 f.

 

 

 

174 SOME STRUCTURAL COMPONENTS OF A THEORY OF EXPERIENCE

 

which the validity of the special multiplication theorem followed, and with it that of the first binomial formula. In order to make the transition to the limit, and to obtain Bernoulli's theorem, it is only necessary to assume that we may make n as large as we like. From this it can be seen that Bernoulli's theorem is true, approximately, even for finite sequences, if they are n-free for an n which is sufficiently large.

It seems therefore that the deduction of Bernoulli's theorem does not depend upon an axiom postulating the existence of a frequency limit, but only on 'absolute freedom' or randomness. The limit concept plays only a subordinate role: it is used for the purpose of applying some conception of relative frequency (which, in the first instance, is only defined for finite classes, and without which the concept of n-freedom cannot be formulated) to sequences that can be continued indefinitely.

Moreover, it should not be forgotten that Bernoulli himself deduced his theorem within the framework of the classical theory, which contains no axiom of convergence; also, that the definition of probability as a limit of frequencies is only an interpretation and not the only possible one of the classical formalism.

I shall try to justify my conjecture the independence of Bernoulli's theorem of the axiom of convergence by deducing this theorem without assuming anything except n-freedom (to be appropriately defined).*1 And I shall try to show that it holds even for those mathematical sequences whose primary properties possess no frequency limits.

Only if this can be shown shall I regard my deduction of the law of great numbers as satisfactory from the point of view of the epistemologist. For it is a 'fact of experience' or so at least we are sometimes told that chance-like empirical sequences show that peculiar

 

*2 I still consider my old doubt concerning the assumption of an axiom of convergence, and the possibility of doing without it, perfecdy justified: it is justified by the developments indicated in appendix iv, note *2, and in appendix *vi, where it is shown that randomness (if defined by 'shortest random-like sequences') entails convergence which therefore need not be separately postulated. Moreover, my reference to the classical formalism is justified by the development of the neo-classical (or measure-theoretical) theory of probability, discussed in chapter *iii of the Postscript; in fact, it is justified by Borel's 'normal numbers'. But I do not agree any longer with the view implicit in the next sentence of my text, although I agree with the remaining paragraphs of this section.

 

 

 

PROBABILITY 1

 

 

 

behaviour which I have described as 'quasi-convergent' or 'statistically stable'. (Cf. section 61.) By recording statistically the behaviour of long segments one can establish that the relative frequencies approach closer and closer to a definite value, and that the intervals within which the relative frequencies fluctuate become smaller and smaller. This so-called 'empirical fact', so much discussed and analysed, which is indeed often regarded as the empirical corroboration of the law of great numbers, can be viewed from various angles. Thinkers with inductivist leanings mostly regard it as a fundamental law of nature, not reducible to any simpler statement; as a peculiarity of our world which has simply to be accepted. They believe that expressed in a suitable form for example in the form of the axiom of convergence this law of nature should be made the basis of the theory of probability which would thereby assume the character of a natural science.

My own attitude to this so-called 'empirical fact' is different. I am inclined to believe that it is reducible to the chance-like character of the sequences; that it may be derived from the fact that these sequences are n-free. I see the great achievement of Bernoulli and Poisson in the field of probability theory precisely in their discovery of a way to show that this alleged 'fact of experience' is a tautology, and that from disorder in the small (provided it satisfies a suitably formulated condition of n-freedom), there follows logically a kind of order of stability in the large.

If we succeed in deducing Bernoulli's theorem without assuming an axiom of convergence, then we shall have reduced the epistemological problem of the law of great numbers to one of axiomatic independence, and thus to a purely logical question. This deduction would also explain why the axiom of convergence works quite well in all practical applications (in attempts to calculate the approximate behaviour of empirical sequences). For even if the restriction to convergent sequences should turn out to be unnecessary, it can certainly not be inappropriate to use convergent mathematical sequences for calculating the approximate behaviour of empirical sequences which, on logical grounds, are statistically stable.

 

 

 

176 SOME STRUCTURAL COMPONENTS OF A THEORY OF EXPERIENCE

 

 

 

64 ELIMINATION OF THE AXIOM OF CONVERGENCE. SOLUTION OF THE 'FUNDAMENTAL PROBLEM OF THE THEORY OF CHANCE'

 

So far frequency limits have had no other function in our reconstruction of the theory of probability than that of providing an unambiguous concept of relative frequency applicable to infinite sequences, so that with its help we may define the concept of 'absolute freedom' (from after-effects). For it is a relative frequency which is required to be insensitive to selection according to predecessors.

Earlier we restricted our inquiry to alternatives with frequency limits, thus tacitly introducing an axiom of convergence. Now, so as to free us from this axiom, I shall remove the restriction without replacing it by any other. This means that we shall have to construct a frequency concept which can take over the function of the discarded frequency limit, and which may be applied to all infinite reference sequences.*1

One frequency concept fulfilling these conditions is the concept of a point of accumulation of the sequence of relative frequencies. (A value α is said to be a point of accumulation of a sequence if after any given element there are elements deviating from α by less than a given amount, however small.) That this concept is applicable without restriction to all infinite reference sequences may be seen from the fact that for every infinite alternative at least one such point of accumulation must exist for the sequence of relative frequencies which corresponds to it. Since relative frequencies can never be greater than 1 nor less than 0, a sequence of them must be bounded by 1 and 0. And as an infinite bounded sequence, it must (according to a famous theorem of Bolzano and Weierstrass) have at least one point of accumulation.1

For brevity, every point of accumulation of the sequence of relative frequencies corresponding to an alternative α will be called 'a middle frequency of α'. We can then say: If a sequence α has one and only one middle frequency, then this is at the same time its frequency limit; and

 

*1 In order not to postulate convergence, I appealed in the following paragraph to what can be demonstrated the existence of points of accumulation. All this becomes unnecessary if we adopt the method described in note *1 to section 57, and in appendix *vi.

1 A fact which, surprisingly enough, has not hitherto been utilized in probability theory.

 

 

 

PROBABILITY 1

 

 

 

conversely: if it has no frequency limit, then it has more than one2 middle frequency.

The idea of a middle frequency will be found very suitable for our purpose. Just as previously it was our estimate perhaps a hypothetical estimate that p was the frequency limit of a sequence α, so we now work with the estimate that p is a middle frequency of α. And provided we take certain necessary precautions,3 we can make calculations with the help of these estimated middle frequencies, in a way analogous to that in which we calculate with frequency limits. Moreover the concept of middle frequency is applicable to all possible infinite reference sequences, without any restriction.

If we now try to interpret our symbol αF' (β) as a middle frequency, rather than a frequency limit, and if we accordingly alter the definition of objective probability (section 59), most of our formulae will still be derivable. one difficulty arises however: middle frequencies are not unique. If we estimate or conjecture that a middle frequency is αF' (β) = p, then this does not exclude the possibility that there are values of αF' (β) other than p. If we postulate that this shall not be so, we thereby introduce, by implication, the axiom of convergence. If on the other hand we define objective probability without such a postulate of uniqueness, 4 then we obtain (in the first instance, at least) a concept of probability which is ambiguous; for under certain circumstances a sequence may possess at the same time several middle frequencies which are 'absolutely free' (cf. section c of appendix iv). But this is hardly acceptable, since we are accustomed to work with unambiguous or unique

 

2 It can easily be shown that if more than one middle frequency exists in a reference sequence then the values of these middle frequencies form a continuum.

3 The concept of 'independent selection' must be interpreted more strictly than hitherto, since otherwise the validity of the special multiplication theorem cannot be proved. For details see my work mentioned in note 3 to section 5 1 . (*This is now superseded by appendix *vi.)

4 We can do this because it must be possible to apply the theory for finite classes (with the exception of the theorem of uniqueness) immediately to middle frequencies. If a sequence a has a middle frequency p, then it must contain whatever the term with which the counting starts segments of any finite magnitude, the frequency of which deviates from p as little as we choose. The calculation can be carried out for these. That p is free from after-effect will then mean that this middle frequency of a is also a middle frequency of any predecessor selection of a.

 

 

 

SOME STRUCTURAL COMPONENTS OF A THEORY OF EXPERIENCE

 

probabilities; to assume, that is to say, that for one and the same property there can be one and only one probability p, within one and the same reference sequence.

However, the difficulty of defining a unique probability concept without the limit axiom can easily be overcome. We may introduce the requirement of uniqueness (as is, after all, the most natural procedure) as the last step, after having postulated that the sequence shall be 'absolutely free'. This leads us to propose, as a solution of our problem, the following modification of our definition of chance-like sequences, and of objective probability.

Let α be an alternative (with one or several middle frequencies). Let the ones of α have one and only one middle frequency p that is 'absolutely free'; then we say that α is chance-like or random, and that p is the objective probability of the ones, within α.

It will be helpful to divide this definition into two axiomatic requirements.*2

(1) Requirement of randomness: for an alternative to be chance-like, there must be at least one 'absolutely free' middle frequency, i.e. its objective probability p.

(2) Requirement of uniqueness: for one and the same property of one and the same chance-like alternative, there must be one and only one probability p.

The consistency of the new axiomatic system is ensured by the example previously constructed. It is possible to construct sequences which, whilst they have one and only one probability, yet possess no frequency limit (cf. section b of appendix iv). This shows that the new axiomatic demands are actually wider, or less exacting, than the old ones. This fact will become even more evident if we state (as we may) our old axioms in the following form:

 

(1) Requirement of randomness: as above.

 

* 2 It is possible to combine the approach described in note *1 to section 57, and in appendices iv and *vi, with these two requirements by retaining requirement (1) and replacing requirement (2) by the following:

(+ 2) Requirement of finitude: the sequence must become, from its commencement, as quickly n-free as possible, and for the largest possible n; or in other words, it must be (approximately) a shortest random-like sequence.

 

 

 

PROBABILITY 1

 

 

 

(2) Requirement of uniqueness: as above.

(2') Axiom of convergence: for one and the same property of one and the same chance-like alternative there exists no further middle frequency apart from its probability p.

 

From the proposed system of requirements we can deduce Bernoulli's theorem, and with it all the theorems of the classical calculus of probability. This solves our problem: it is now possible to deduce the law of great numbers within the framework of the frequency theory without using the axiom of convergence. Moreover, not only does the formula (1) of section 61 and the verbal formulation of Bernoulli's theorem remain unchanged,5 but the interpretation we have given to

it also remains unchanged: in the case of a chance-like sequence without a frequency limit it will still be true that almost all sufficiently long sequences show only small deviations from p. In such sequences (as in chance-like sequences with frequency limits) segments of any length behaving quasi-divergently will of course occur at times, i.e. segments which deviate from p by any amount. But such segments will be comparatively rare, since they must be compensated for by extremely long parts of the sequence in which all (or almost all) segments behave

quasi-convergently. As calculation shows, these stretches will have to be longer by several orders of magnitude, as it were, than the divergently-behaving segments for which they compensate.*3

This is also the place to solve the 'fundamental problem of the theory of chance' (as it was called in section 49). The seemingly paradoxical inference from the unpredictability and irregularity of singular events to the applicability of the rules of the probability calculus to them is indeed valid. It is valid provided we can express the irregularity, with a fair degree of approximation, in terms of the hypothetical assumption that one only of the recurring frequencies of the 'middle frequencies' so occurs in any selection according to predecessors that no after-effects

 

5 The quasi-Bernoulfi formulae (symbol: F') also remain unambiguous for chance-

like sequences (according to the new definition), although 'F" now symbolizes only a middle frequency.

*3 1 am in full agreement with what follows here, even though any reference to 'middle frequencies' becomes redundant if we adopt the method described in section 57, note * 1 , and appendix iv.

 

 

 

SOME STRUCTURAL COMPONENTS OF A THEORY OF EXPERIENCE

 

result. For upon these assumptions it is possible to prove that the law of great numbers is tautological. It is admissible and not self-contradictory (as has sometimes been asserted6) to uphold the conclusion that in an irregular sequence in which, as it were, anything may happen at one time or another though some things only rarely a certain regularity or stability will appear in very large sub-sequences. Nor is this conclusion trivial, since we need for it specific mathematical tools (the Bolzano and Weierstrass theorem, the concept of n-freedom, and Bernoulli's theorem). The apparent paradox of an argument from

unpredictability to predictability, or from ignorance to knowledge, disappears when we realize that the assumption of irregularity can be put in the form of a frequency hypothesis (that of freedom from after-effects), and that it must be put in this form if we want to show the validity of that argument.

It now also becomes clear why the older theories have been unable to do justice to what I call the 'fundamental problem'. The subjective theory, admittedly, can deduce Bernoulli's theorem; but it can never consistently interpret it in terms of frequencies, after the fashion of the law of great numbers (cf. section 62). Thus it can never explain the statistical success of probability predictions. on the other hand, the older frequency theory, by its axiom of convergence, explicitly postulates regularity in the large. Thus within this theory the problem of inference from irregularity in the small to stability in the large does not arise, since it merely involves inference from stability in the large (axiom of convergence), coupled with irregularity in the small (axiom of randomness) to a special form of stability in the large (Bernoulli's theorem, law of great numbers).*4

The axiom of convergence is not a necessary part of the foundations

 

6 Cf. , for instance, Feigl, Erkenntnis 1, 1930, p. 254: 'In the law of great numbers an attempt is made to reconcile two claims which prove on closer analysis to be in fact mutually contradictory. on the one hand . . . every arrangement and distribution is supposed to be able to occur once. on the other hand, these occurrences ... are to appear with a corresponding frequency. ' (That there is in fact no incompatibility here is proved by the construction of model sequences; cf. appendix iv.)

*4 What is said in this paragraph implicitly enhances the significance, for the solution of the 'fundamental problem', of an objectively interpreted neo-classical theory. A theory of this kind is described in chapter *iii of my Postscript.

 

 

 

PROBABILITY 1

 

 

 

of the calculus of probability. With this result I conclude my analysis of the mathematical calculus.7

We now return to the consideration of more distinctively methodological problems, especially the problem of how to decide probability statements.

 

65 THE PROBLEM OF DECIDABILITY

 

In whatever way we may define the concept of probability, or whatever axiomatic formulations we choose: so long as the binomial formula is derivable within the system, probability statements will not be falsifiable. Probability hypotheses do not rule out anything observable; probability estimates cannot contradict, or be contradicted by, a basic statement; nor can they be contradicted by a conjunction of any finite number of basic statements; and accordingly not by any finite number of observations either.

Let us assume that we have proposed an equal-chance hypothesis for some alternative α; for example, that we have estimated that tosses with a certain coin will come up '1' and '0' with equal frequency, so that αF(l) = αF(0) = ½; and let us assume that we find, empirically, that '1' comes up over and over again without exception: then we shall, no doubt, abandon our estimate in practice, and regard it as falsified. But there can be no question of falsification in a logical sense. For we can surely observe only a finite sequence of tosses. And although, according to the binomial formula, the probability of chancing upon a very long finite segment with great deviations from ½ is exceedingly small, it must yet always remain greater than zero. A sufficiently rare occurrence of a finite segment with even the greatest deviation can thus never

 

7 Cf. note 3 to section 5 1 . In retrospect I wish to make it clear that I have taken a conservative attitude to von Mises's four points (cf. end of section 50). I too define probability only with reference to random sequences (which von Mises calls 'collectives'). I too set up a (modified) axiom of randomness, and in determining the task of the calculus of probability I follow von Mises without reservation. Thus our differences concern only the limit axiom which I have shown to be superfluous and which I have replaced by the demand for uniqueness, and the axiom of randomness which I have so modified that model sequences can be constructed. (Appendix iv.) As a result, Kamke's objection (cf note 3 to section 53) ceases to be valid.

 

 

 

SOME STRUCTURAL COMPONENTS OF A THEORY OF EXPERIENCE

 

contradict the estimate. In fact, we must expect it to occur: this is a consequence of our estimate. The hope that the calculable rarity of any such segment will be a means of falsifying the probability estimate proves illusory, since even a frequent occurrence of a long and greatly deviating segment may always be said to be nothing but one occurrence of an even longer and more greatly deviating segment. Thus there are no sequences of events, given to us extensionally, and therefore no

finite n-tuple of basic statements, which could falsify a probability statement.

Only an infinite sequence of events defined intensionally by a rule could contradict a probability estimate. But this means, in view of the considerations set forth in section 38 (cf. section 43), that probability hypotheses are unfalsifiable because their dimension is infinite. We should therefore really describe them as empirically uninformative, as void of empirical content.1

Yet any such view is clearly unacceptable in face of the successes which physics has achieved with predictions obtained from hypothetical estimates of probabilities. (This is the same argument as has been used here much earlier against the interpretation of probability statements as tautologies by the subjective theory.) Many of these estimates are not inferior in scientific significance to any other physical hypothesis (for example, to one of a determinist character). And a physicist is usually quite well able to decide whether he may for the time being accept some particular probability hypothesis as 'empirically confirmed', or whether he ought to reject it as 'practically falsified', i.e., as useless for purposes of prediction. It is fairly clear that this 'practical falsification' can be obtained only through a methodological decision to regard highly improbable events as ruled out as prohibited. But with what right can they be so regarded? Where are we to draw the line? Where does this 'high improbability' begin?

Since there can be no doubt, from a purely logical point of view, about the fact that probability statements cannot be falsified, the equally indubitable fact that we use them empirically must appear as a fatal blow to my basic ideas on method which depend crucially

 

1 But not as void of 'logical content' (cf. section 35); for clearly, not every frequency hypothesis holds tautologically for every sequence.

 

 

 

PROBABILITY 1

 

 

 

upon my criterion of demarcation. Nevertheless I shall try to answer the questions I have raised which constitute the problem of decidability by a resolute application of these very ideas. But to do this, I shall first have to analyse the logical form of probability statements, taking account both of the logical inter-relations between them and of the logical relations in which they stand to basic statements.*1

 

66 THE LOGICAL FORM OF PROBABILITY STATEMENTS

 

Probability estimates are not falsifiable. Neither, of course, are they verifiable, and this for the same reasons as hold for other hypotheses, seeing that no experimental results, however numerous and favourable, can ever finally establish that the relative frequency of 'heads' is ½, and will always be ½.

Probability statements and basic statements can thus neither contradict one anther nor entail one another. And yet, it would be a mistake to conclude from this that no kind of logical relations hold between probability statements and basic statements. And it would be equally wide of the mark to believe that while logical relations do obtain between statements of these two kinds (since sequences of observations may obviously agree more or less closely with a frequency statement), the analysis of these relations compels us to introduce a special probabilistic logic1 which breaks the fetters of classical logic. In

 

*1 I believe that my emphasis upon the irrefutability of probabilistic hypotheses which culminates in section 67 was healthy: it laid bare a problem which had not been discussed previously (owing to the general emphasis on verifiability rather than falsifiability, and the fact that probability statements are, as explained in the next section, in some sense verifiable or 'confirmable') . Yet my reform, proposed in note * 1 to section 5 7 (see also note *2 to section 64), changes the situation entirely. For this reform, apart from achieving other things, amounts to the adoption of a methodological rule, like the one proposed below in section 68, which makes probability hypotheses falsifiable. The problem of decidability is thereby transformed into the following problem: since empirical sequences can only be expected to approximate to shortest random-like sequences, what is acceptable and what is unacceptable as an approximation? The answer to this is clearly that closeness of approximation is a matter of degree, and that the determination of this degree is one of the main problems of mathematical statistics.

Added 1972. A new solution is given by D. Gillies. See below p. 443.

1 Cf. Section 80, especially notes 3 and 6.

 

 

 

SOME STRUCTURAL COMPONENTS OF A THEORY OF EXPERIENCE

 

opposition to such views I believe that the relations in question can be fully analysed in terms of the 'classical' logical relations of deducibility and contradiction.*1

From the non-falsifiability and non-verifiability of probability statements it can be inferred that they have no falsifiable consequences, and that they cannot themselves be consequences of verifiable statements. But the converse possibilities are not excluded. For it may be (a) that they have unilaterally verifiable consequences (purely existential consequences, or there-is-consequences) or (b) that they are themselves consequences of unilaterally falsifiable universal statements (all-statements).

Possibility (b) will scarcely help to clarify the logical relation between probability statements and basic statements: it is only too obvious that a non-falsifiable statement, i.e. one which says very little, can belong to the consequence class of one which is falsifiable, and which thus says more.

What is of greater interest for us is possibility (a) which is by no means trivial, and which in fact turns out to be fundamental for our analysis of the relation between probability statements and basic statements. For we find that from every probability statement, an infinite class of existential statements can be deduced, but not vice versa. (Thus the probability statement asserts more than does any of these existential statements.) For example, let p be a probability which has been estimated, hypothetically, for a certain alternative (and let 0 p 1); then we can deduce from this estimate, for instance, the existential consequence that both ones and zeros will occur in the sequence. (Of course many far less simple consequences also follow for example, that segments will occur which deviate from p only by a very small amount.)

But we can deduce much more from this estimate; for example that there will 'over and over again' be an element with the property '1' and another element with the property 'o'; that is to say, that after any element x there will occur in the sequence an element y with the

 

*1 Although I do not disagree with this, I now believe that the probabilistic concepts 'almost deducible' and 'almost contradictory' are extremely useful in connection with our problem; see appendix *ix, and chapter *iii of the Postscript.

 

 

 

PROBABILITY 1

 

 

 

property '1', and also an element z with the property 'o'. A statement of this form ('for every x there is a y with the observable, or extensionally testable, property β') is both non-falsifiable because it has no falsifiable consequences and non-verifiable because of the 'all' or 'for every' which made it hypothetical.*2 Nevertheless, it can be better, or less well 'confirmed' in the sense that we may succeed in verifying many, few, or none of its existential consequences; thus it stands to the basic statement in the relation which appears to be characteristic of probability statements. Statements of the above form may be called 'universalized existential statements' or (universalized) 'existential hypotheses'.

My contention is that the relation of probability estimates to basic statements, and the possibility of their being more, or less, well 'confirmed', can be understood by considering the fact that from all probability estimates, existential hypotheses are logically deducible. This suggests the question whether the probability statements themselves may not, perhaps, have the form of existential hypotheses.

Every (hypothetical) probability estimate entails the conjecture that the empirical sequence in question is, approximately, chance-like or random. That is to say, it entails the (approximate) applicability, and the truth, of the axioms of the calculus of probability. Our question is,

 

*2 Of course, I never intended to suggest that every statement of the form 'for every x, there is a y with the observable property P' is non-falsifiable and thus non-testable: obviously, the statement 'for every toss with a penny resulting in 1 , there is an immediate successor resulting in 0' is both falsifiable and in fact falsified. What creates non- falsifiability is not just the form 'for every x there is a y such that . . . ' but the fact that the 'there is' is unbounded that the occurrence of the y may be delayed beyond all bounds: in the probabilistic case, y may, as it were, occur as late as it phases. An element '0' may occur at once, or after a thousand tosses, or after any number of tosses: it is this fact that is responsible for non-falsifiability. If, on the other hand, the distance of the place of occurrence of y from the place of occurrence of x is bounded, then the statement 'for every x there is a y such that ..." may be falsifiable.

My somewhat unguarded statement in the text (which tacitly presupposed section IS) has led, to my surprise, in some quarters to the belief that all statements or 'most' statements, whatever this may mean of the form 'for every x there is a y such that . . .' are non-falsifiable; and this has then been repeatedly used as a criticism of the falsifiability criterion. See, for example, Mind 54, 1945, pp. 1 19 f. The whole problem of these 'all-and-some statements' (this term is due to J. W. N. Watkins) is discussed more fully in my Postscript; see especially sections *24 f.

 

 

 

SOME STRUCTURALCOMPONENTS OF A THEORY OF EXPERIENCE

 

therefore, equivalent to the question whether these axioms represent what I have called 'existential hypotheses'.

If we examine the two requirements proposed in section 64 then we find that the requirement of randomness has in fact the form of an existential hypothesis.2 The requirement of uniqueness, on the other hand, has not this form; it cannot have it, since a statement of the form 'There is only one . . .' must have the form of a universal statement. (It can be translated as 'There are not more than one . . .' or 'All ... are identical'.)

Now it is my thesis here that it is only the 'existential constituent', as it might be called, of probability estimates, and therefore the requirement of randomness, which establishes a logical relation between them and basic statements. Accordingly, the requirement of uniqueness, as a universal statement, would have no extensional consequences whatever. That a value p with the required properties exists, can indeed be extensionally 'confirmed' though of course only provisionally; but not that only one such value exists. This latter statement, which is universal, could be extensionally significant only if basic statements could contradict it; that is to say, if basic statements could establish the existence of more than one such value. Since they cannot (for we remember that non-falsifiability is bound up with the binomial formula), the requirement of uniqueness must be extensionally without significance.*3

This is the reason why the logical relations holding between a probability estimate and basic statements, and the graded 'confirmability' of the former, are unaffected if we eliminate the requirement of uniqueness from the system. By doing this we could give the system the form of a pure existential hypothesis.3 But we should then have to give up

 

2 It can be put in the following form: For every positive E, for every predecessor n-tuple, and every element with the ordinal number x there is an element, selected according to predecessor selection, with the ordinal number y > x such that the frequency up to the term y deviates from a fixed value p by an amount less than £.

*3 The situation is totally different if the requirement (+ 2) of note *2 to section 64 is adopted: this is empirically significant, and renders the probability hypotheses falsifiable (as asserted in note *1 to section 65).

3 The formulae of the probability calculus are also derivable in this axiomatization, only the formulae must be interpreted as existential formulae. The theorem of Bernoulli, for

 

 

 

PROBABILITY 1

 

 

 

the uniqueness of probability estimates,*4 and thereby (so far as uniqueness is concerned) obtain something different from the usual calculus of probability.

Therefore the requirement of uniqueness is obviously not superfluous. What, then, is its logical function?

Whilst the requirement of randomness helps to establish a relation between probability statements and basic statements, the requirement of uniqueness regulates the relations between the various probability statements themselves. Without the requirement of uniqueness some of these might, as existential hypotheses, be derivable from others, but they could never contradict one another. only the requirement of uniqueness ensures that probability statements can contradict one another; for by this requirement they acquire the form of a conjunction whose components are a universal statement and an existential hypothesis; and statements of this form can stand to one another in exactly the same fundamental logical relations (equivalence, derivability, compatibility, and incompatibility) as can 'normal' universal statements of any theory for example, a falsifiable theory.

If we now consider the axiom of convergence, then we find that it is like the requirement of uniqueness in that it has the form of a non-falsifiable universal statement. But it demands more than our requirement does. This additional demand, however, cannot have any extensional significance either; moreover, it has no logical or formal but only an intensional significance: it is a demand for the exclusion of all intensionally defined (i.e. mathematical) sequences without frequency limits. But from the point of view of applications, this exclusion proves

to be without significance even intensionally, since in applied probability theory we do not of course deal with the mathematical sequences themselves but only with hypothetical estimates about empirical sequences. The exclusion of sequences without frequency limits could therefore only serve to warn us against treating those

 

example, would no longer assert that the single probability value for a particular n of <x n F(Ar.) lies near to 1, but only that (for a particular n) among the various probability values of a n F(Ap) there is at least one which lies near to 1.

 

*4 As has been shown in the new footnote *2 to section 64, any special requirement of uniqueness can be eliminated, without sacrificing uniqueness.

 

 

 

SOME STRUCTURAL COMPONENTS OF A THEORY OF EXPERIENCE

 

empirical sequences as chance-like or random of which we hypothetically assume that they have no frequency limit. But what possible action could we take in response to this warning?4 What sort of considerations or conjectures about the possible convergence or divergence of empirical sequences should we indulge in or abstain from, in view of this warning, seeing that criteria of convergence are no more applicable to them than are criteria of divergence? All these embarrassing questions 5 disappear once the axiom of convergence has been got rid of.

Our logical analysis thus makes transparent both the form and the function of the various partial requirements of the system, and shows what reasons tell against the axiom of randomness and in favour of the requirement of uniqueness. Meanwhile the problem of decidability seems to be growing ever more menacing. And although we are not obliged to call our requirements (or axioms) 'meaningless',6 it looks as if we were compelled to describe them as non-empirical. But does not this description of probability statements no matter what words we use to express it contradict the main idea of our approach?

 

67 A PROBABILISTIC SYSTEM OF SPECULATIVE METAPHYSICS

 

The most important use of probability statements in physics is this: certain physical regularities or observable physical effects are

 

4 Both the axiom of randomness and the axiom of uniqueness can properly be regarded as such (intensional) warnings. For example, the axiom of randomness cautions us not to treat sequences as random if we suppose (no matter on what grounds) that certain gambling systems will be successful for them. The axiom of uniqueness cautions us not to attribute a probability tj (with q ^ p) to a sequence which we suppose can be approximately described by means of the hypothesis that its probability equals p.

5 Similar misgivings made Schlick object to the limit axiom (Die Natuiwissenschaften 19, 1931, p. 158).

6 Here the positivist would have to recognize a whole hierarchy of 'meaninglessnesses'. To him, non-verifiable natural laws appear 'meaningless' (cf. section 6, and quotations in notes 1 and 2) , and thus still more so probability hypotheses, which are neither verifiable nor falsifiable. Of our axioms, the axiom of uniqueness, which is not extensionally significant, would be more meaningless than the meaningless axiom of irregularity, which at least has extensional consequences. Still more meaningless would be the limit axiom, since it is not even intensionally significant.

 

 

 

PROBABILITY 1

 

 

 

interpreted as 'macro laws'; that is to say, they are interpreted, or explained, as mass phenomena, or as the observable results of hypothetical and not directly observable 'micro events'. The macro laws are deduced from probability estimates by the following method: we show that observations which agree with the observed regularity in question are to be expected with a probability very close to 1, i.e. with a probability which deviates from 1 by an amount which can be made as small as we choose. When we have shown this, then we say that by our probability estimate we have 'explained' the observable effect in question as a macro effect.

But if we use probability estimates in this way for the 'explanation' of observable regularities without introducing special precautions, then we may immediately become involved in speculations which in accordance with general usage can well be described as typical of Speculative metaphysics.

For since probability statements are not falsifiable, it must always be possible in this way to 'explain', by probability estimates, any regularity we please. Take, for example, the law of gravity. We may contrive hypothetical probability estimates to 'explain' this law in the following way. We select events of some kind to serve as elementary or atomic events; for instance the movement of a small particle. We select also what is to be a primary property of these events; for instance the direction and velocity of the movement of a particle. We then assume that these

events show a chance-like distribution. Finally we calculate the probability that all the particles within a certain finite spatial region, and during a certain finite period of time a certain 'cosmic period' will with a specified accuracy move, accidentally, in the way required by the law of gravity. The probability calculated will, of course, be very small; negligibly small, in fact, but still not equal to zero. Thus we can raise the question how long an n-segment of the sequence would have to be, or in other words, how long a duration must be assumed for the whole process, in order that we may expect, with a probability close to 1 (or deviating from 1 by not more than an arbitrarily small value ε) the occurrence of one such cosmic period in which, as the result of an accumulation of accidents, our observations will all agree with the law of gravity. For any value as close to 1 as we choose, we obtain a definite, though extremely large, finite number. We can then say: if we assume

 

 

 

SOME STRUCTURAL COMPONENTS OF A THEORY OF EXPERIENCE

 

that the segment of the sequence has this very great length or in other words, that the 'world' lasts long enough then our assumption of randomness entitles us to expect the occurrence of a cosmic period in which the law of gravity will seem to hold good, although 'in reality' nothing ever occurs but random scattering. This type of 'explanation' by means of an assumption of randomness is applicable to any regularity we choose. In fact we can in this way 'explain' our

whole world, with all its observed regularities, as a phase in a random chaos as an accumulation of purely accidental coincidences.

It seems clear to me that speculations of this kind are 'metaphysical', and that they are without any significance for science. And it seems equally clear that this fact is connected with their nonfalsifiability with the fact that we can always and in all circumstances indulge in them. My criterion of demarcation thus seems to agree here quite well with the general use of the word 'metaphysical'.

Theories involving probability, therefore, if they are applied without special precautions, are not to be regarded as scientific. We must rule out their metaphysical use if they are to have any use in the practice of empirical science.*1

 

68 PROBABILITY IN PHYSICS

 

The problem of decidability troubles only the methodologist, not the physicist.*1 If asked to produce a practically applicable concept of

 

*1 When writing this, I thought that speculations of the kind described would be easily recognizable as useless, just because of their unlimited applicability. But they seem to be more tempting than I imagined. For it has been argued, for example by J. B. S. Haldane (in Nature 122, 1928, p. 808; cf. also his Inequality of Man, pp. 163 f.) that if we accept the probability theory of entropy, we must regard it as certain, or as almost certain, that the world will wind itself up again accidentally if only we wait long enough. This argument has of course been frequently repeated since by others. Yet it is, I think, a perfect example of the kind of argument here criticized, and one which would allow us to expect, with near certainty, anything we liked. Which all goes to show the dangers inherent in the existential form shared by probability statements with most of the statements of metaphysics. (Cf. section 15.)

*1 The problem here discussed has been treated in a clear and thorough way long ago by the physicists P. and T. Ehrenfest, Encycl. d. Math, Wiss. 4th Teilband, Heft 6 (12.12.1911) section 30. They treated it as a conceptual and epistemological problem. They introduced the

 

 

 

PROBABILITY 1

 

 

 

probability, the physicist might perhaps offer something like a physical definition of probability, on lines such as the following: There are certain experiments which, even if carried out under controlled conditions, lead to varying results. In the case of some of these experiments those which are 'chance-like', such as tosses of a coin frequent repetition leads to results with relative frequencies which, upon further repetition, approximate more and more to some fixed value which we may

call the probability of the event in question. This value is ' . . . empirically

determinable through long series of experiments to any degree of approximation';1 which explains, incidentally, why it is possible to falsify a hypothetical estimate of probability.

Against definitions on these lines both mathematicians and logicians will raise objections; in particular the following:

(1) The definition does not agree with the calculus of probability since, according to Bernoulli's theorem, only almost all very long segments are statistically stable, i.e. behave as if convergent. For that reason, probability cannot be defined by this stability, i.e. by quasi-convergent behaviour. For the expression 'almost all' which ought to occur in the definiens is itself only a synonym for 'very probable'. The definition is thus circular; a fact which can be easily concealed (but not removed) by dropping the word 'almost'. This is what the physicist's definition did; and it is therefore unacceptable.

(2) When is a series of experiments to be called 'long'? Without

 

idea of 'probability hypotheses of first, second, . . . k th order': a probability hypothesis of second order, for example, is an estimate of the frequency with which certain frequencies occur in an aggregate of aggregates. However, P. and T. Ehrenfest do not operate with anything corresponding to the idea of a reproducible effect which is here used in a crucial way in order to solve the problem which they expounded so well. See especially the opposition between Boltzmann and Planck to which they refer in notes 247 f, and which can, I believe, be resolved by using the idea of a reproducible effect. For under appropriate experimental conditions, fluctuations may lead to reproducible effects, as Einstein's theory of Brownian movement showed so impressively. See also note *1 to section 65, and appendices *vi and *ix.

 

1 The quotation is from Born-Jordan Elementare Quantenmechanik, 1930, p. 306, cf. also the beginning of Dirac's Quantum Mechanics, p. 10 of the 1st edition, 1930. A parallel passage (slightly abbreviated) is to be found on p. 14 of the 3rd edition, 1947. See also Weyl, Gruppentheorie und Quantenmechanik, 2nd edition, 1931, p. 66; English translation by H. P. Robertson: The Theory of Groups and Quantum Mechanics, 1 93 1 , p. 74 f.

 

 

 

192 SOME STRUCTURAL COMPONENTS OF A THEORY OF EXPERIENCE

 

being given a criterion of what is to be called 'long', we cannot know when, or whether, we have reached an approximation to the probability.

(3) How can we know that the desired approximation has in fact been reached?

Although I believe that these objections are justified, I nevertheless believe that we can retain the physicist's definition. I shall support this belief by the arguments outlined in the previous section. These showed that probability hypotheses lose all informative content when they are allowed unlimited application. The physicist would never use them in this way. Following his example I shall disallow the unlimited application of probability hypotheses: I propose that we take the methodological decision never to explain physical effects, i.e. reproducible regularities, as accumulations of accidents. This decision naturally modifies the concept of probability: it narrows it.*2 Thus objection (1) does not affect my position, for I do not assert the identity of the physical and the mathematical concepts of probability at all; on the contrary, I deny it. But in place of (1), a new objection arises.

(l') When can we speak of 'accumulated accidents'? Presumably in the case of a small probability. But when is a probability 'small'? We may take it that the proposal which I have just submitted rules out the use of the method (discussed in the preceding section) of manufacturing an arbitrarily large probability out of a small one by changing the formulation of the mathematical problem. But in order to carry out the proposed decision, we have to know what we are to regard as small.

In the following pages it will be shown that the proposed methodological rule agrees with the physicist's definition, and that the objections raised by questions (1'), (2), and (3) can be answered with its help. To begin with, I have in mind only one typical case of the application of the calculus of probability: I have in mind the case of certain reproducible macro effects which can be described with the help of precise (macro) laws such as gas pressure and which we interpret,

or explain, as due to a very large accumulation of micro processes, such

 

* 2 The methodological decision or rule here formulated narrows the concept of

probability just as it is narrowed by the decision to adopt shortest random-like sequences as mathematical models of empirical sequences, cf. note *1 to section 65.

 

 

 

PROBABILITY 1

 

 

 

as molecular collisions. Other typical cases (such as statistical fluctuations or the statistics of chance-like individual processes) can be reduced without much difficulty to this case.*3

Let us take a macro effect of this type, described by a well-corroborated law, which is to be reduced to random sequences of micro events. Let the law assert that under certain conditions a physical magnitude has the value p. We assume the effect to be 'precise', so that no measurable fluctuations occur, i.e. no deviations from p beyond that interval, φ (the interval of imprecision; cf. section 37) within which our measurements will in any case fluctuate, owing to the imprecision inherent in the prevailing technique of measurement. We now propose

the hypothesis that p is a probability within a sequence α of micro events; and further, that n micro events contribute towards producing the effect. Then (cf. section 61) we can calculate for every chosen value δ, the probability α F(p), i.e. the probability that the value measured will fall within the interval p. The complementary probability may be denoted by 'ε'. Thus we have α F( ) = ε. According to Bernoulli's theorem, ε tends to zero as n increases without limit.

We assume that ε is so 'small' that it can be neglected. (Question (l') which concerns what 'small' means, in this assumption, will be dealt with soon.) The p is to be interpreted, clearly, as the interval within which the measurements approach the value p. From this we see that the three quantities: ε, n, and p correspond to the three questions (1'), (2), and (3). p or δ can be chosen arbitrarily, which restricts the arbitrariness of our choice of ε and n. Since it is our task to deduce the exact macro effect p φ) we shall not assume δ to be greater than φ. As far as the reproducible effect p is concerned, the deduction will be satisfactory if we can carry it out for some value δ ⩽ φ. (Here φ is given, since it is determined by the measuring technique.) Now let us choose δ so that it is (approximately) equal to φ. Then we have reduced question (3) to the two other questions, (l') and (2).

By the choice of δ (i.e. of p) we have established a relation between n and ε, since to every n there now corresponds uniquely a value of ε.

 

*3 1 am now a little dubious about the words 'without much difficulty'; in fact, in all cases, except those of the extreme macro effects discussed in this section, very subtle statistical methods have to be used. See also appendix *ix, especially my 'Third Note'.

 

 

 

194 SOME STRUCTURAL COMPONENTS OF A THEORY OF EXPERIENCE

 

 

 

Thus (2), i.e. the question When is n sufficiently long? has been reduced to (1'), i.e. the question When is ε small? (and vice versa).

But this means that all three questions could be answered if only we could decide what particular value of ε is to be neglected as 'negligibly small'. Now our methodological rule amounts to the decision to neglect small values of ε; but we shall hardly be prepared to commit ourselves for ever to a definite value of ε.

If we put our question to a physicist, that is, if we ask him what ε he is prepared to neglect 0.001, or 0.000001, or ...? he will presumably answer that ε does not interest him at all; that he has chosen not ε but n; and that he has chosen n in such a way as to make the correlation between n and p largely independent of any changes of the value ε which we might choose to make.

The physicist's answer is justified, because of the mathematical peculiarities of the Bernoullian distribution: it is possible to determine for every n the functional dependence between ε and p.*4 An examination of this function shows that for every ('large') n there exists a characteristic value of p such that in the neighbourhood of this value p is highly insensitive to changes of ε. This insensitiveness increases with increasing n. If we take an n of an order of magnitude which we should expect in the case of extreme mass-phenomena, then, in the neighbourhood of its characteristic value, p is so highly insensitive to changes of ε that p hardly changes at all even if the order of

 

*4 The remarks that follow in this paragraph (and some of the discussions later in this section) are, I now believe, clarified and superseded by the considerations in appendix *ix; see especially points 8 ff of my Third Note. With the help of the methods there used, it can be shown that almost all possible statistical samples of large size n will strongly undermine a given probabilistic hypothesis, that is to say give it a high negative degree of corroboration; and we may decide to interpret this as refutation or falsification. Of the remaining samples, most will support the hypothesis, that is to say, give it a high positive degree of corroboration. Comparatively few samples of large size n will give a probabilistic hypothesis an undecisive degree of corroboration (whether positive or negative). Thus we can expect to be able to refute a probabilistic hypothesis, in the sense here indicated; and we can expect this perhaps even more confidendy than in the case of a non-probabilistic hypothesis. The methodological rule or decision to regard (for a large n) a negative degree of corroboration as a falsification is, of course, a specific case of the methodological rule or decision discussed in the present section that of neglecting certain extreme improbabilities.

 

 

 

PROBABILITY 1

 

 

 

magnitude of ε changes. Now the physicist will attach little value to more sharply defined boundaries of p. And in the case of typical mass phenomena, to which this investigation is restricted, p can, we remember, be taken to correspond to the interval of precision ±φ which depends upon our technique of measurement; and this has no sharp bounds but only what I called in section 37 'condensation

bounds'. We shall therefore call n large when the insensitivity of p in the neighbourhood of its characteristic value, which we can determine, is at least so great that even changes in order of magnitude of ε cause the value of p to fluctuate only within the condensation bounds of ±φ. (If n → ∞, then p becomes completely insensitive.) But if this is so, then we need no longer concern ourselves with the exact determination of ε: the decision to neglect a small ε suffices, even if we have not exactly stated what has to be regarded as 'small'. It amounts to the decision to work with the characteristic values of p above mentioned, which are insensitive to changes of ε.

The rule that extreme improbabilities have to be neglected (a rule which becomes sufficiently explicit only in the light of the above) agrees with the demand for scientific objectivity. For the obvious objection to our rule is, clearly, that even the greatest improbability always remains a probability, however small, and that consequently even the most improbable processes i.e. those which we propose to neglect will some day happen. But this objection can be disposed of by recalling the idea of a reproducible physical effect an idea which is closely connected with that of objectivity (cf. section 8). I do not deny the possibility that improbable events might occur. I do not, for example, assert that the molecules in a small volume of gas may not, perhaps, for a short time spontaneously withdraw into a part of the volume, or that in a greater volume of gas spontaneous fluctuations of pressure will never occur. What I do assert is that such occurrences would not be physical effects, because, on account of their immense improbability, they are not reproducible at will. Even if a physicist happened to observe such a process, he would be quite unable to reproduce it, and therefore

would never be able to decide what had really happened in this case, and whether he may not have made an observational mistake. If, however, we find reproducible deviations from a macro effect which has

 

 

 

196 SOME STRUCTURAL COMPONENTS OF A THEORY OF EXPERIENCE

 

been deduced from a probability estimate in the manner indicated, then we must assume that the probability estimate is falsified.

Such considerations may help us to understand pronouncements like the following of Eddington's in which he distinguishes two kinds of physical laws: 'Some things never happen in the physical world because they are impossible; others because they are too improbable. The laws which forbid the first are primary laws; the laws which forbid the second are secondary laws.'2 Although this formulation is perhaps not beyond criticism (I should prefer to abstain from non-testable assertions about whether or not extremely improbable things occur), it agrees well with the physicist's application of probability theory.

Other cases to which probability theory may be applied, such as statistical fluctuations, or the statistics of chance-like individual events, are reducible to the case we have been discussing, that of the precisely measurable macro effect. By statistical fluctuations I understand phenomena such as the Brownian movement. Here the interval of precision of measurement (±φ) is smaller than the interval p characteristic of the number n of micro events contributing to the effect; hence measurable deviations from p are to be expected as highly probable. The fact that such deviations occur will be testable, since the fluctuation itself becomes a reproducible effect; and to this effect my earlier arguments apply: fluctuations beyond a certain magnitude (beyond some interval p) must not be reproducible, according to my methodological requirements, nor long sequences of fluctuations in one and the same direction, etc. Corresponding arguments would hold for the statistics of chance-like individual events.

 

I may now summarize my arguments regarding the problem of decidability.

Our question was: How can probability hypotheses which, we have seen, are non-falsifiable play the part of natural laws in empirical science? Our answer is this: Probability statements, in so far as they are not falsifiable, are metaphysical and without empirical significance; and in so far as they are used as empirical statements they are used as falsifiable statements.

 

2 Eddington, The Nature of the Physical World, 1928, p. 75.

 

 

 

PROBABILITY 1

 

 

 

But this answer raises another question: How is it possible that probability statements which are not falsifiable can be used as falsifiable statements? (The fact that they can be so used is not in doubt: the physicist knows well enough when to regard a probability assumption as falsified.) This question, we find, has two aspects. on the one hand, we must make the possibility of using probability statements understandable in terms of their logical form. on the other hand, we must analyse the rules governing their use as falsifiable statements.

According to section 66, accepted basic statements may agree more or less well with some proposed probability estimate; they may represent better, or less well, a typical segment of a probability sequence. This provides the opportunity for the application of some kind of methodological rule; a rule, for instance, which might demand that the agreement between basic statements and the probability estimate

should conform to some minimum standard. Thus the rule might draw some arbitrary line and decree that only reasonably representative segments (or reasonably 'fair samples') are 'permitted', while atypical or non-representative segments are 'forbidden'.

A closer analysis of this suggestion showed us that the dividing line between what is permitted and what is forbidden need not be drawn quite as arbitrarily as might have been thought at first. And in particular, that there is no need to draw it 'tolerantly'. For it is possible to frame the rule in such a way that the dividing line between what is permitted and what is forbidden is determined, just as in the case of other laws, by the attainable precision of our measurements.

Our methodological rule, proposed in accordance with the criterion of demarcation, does not forbid the occurrence of atypical segments; neither does it forbid the repeated occurrence of deviations (which, of course, are typical for probability sequences). What this rule forbids is the predictable and reproducible occurrence of systematic deviations; such as deviations in a particular direction, or the occurrence of segments which are atypical in a definite way. Thus it requires not a mere rough agreement, but the best possible one for everything that is reproducible and testable; in short, for all reproducible effects.

 

 

 

SOME STRUCTURAL COMPONENTS OF A THEORY OF EXPERIENCE

 

69 LAW AND CHANCE

 

One sometimes hears it said that the movements of the planets obey strict laws, whilst the fall of a die is fortuitous, or subject to chance. In my view the difference lies in the fact that we have so far been able to predict the movement of the planets successfully, but not the individual results of throwing dice.

In order to deduce predictions one needs laws and initial conditions; if no suitable laws are available or if the initial conditions cannot be ascertained, the scientific way of predicting breaks down. In throwing dice, what we lack is, clearly, sufficient knowledge of initial conditions. With sufficiently precise measurements of initial conditions it would be possible to make predictions in this case also; but the rules for correct dicing (shaking the dice-box) are so chosen as to prevent us from measuring initial conditions. The rules of play and other rules determining the conditions under which the various events of a random sequence are to take place I shall call the 'frame conditions'. They consist of such requirements as that the dice shall be 'true' (made from homogeneous material), that they shall be well shaken, etc.

There are other cases in which prediction may be unsuccessful. Perhaps it has not so far been possible to formulate suitable laws; perhaps all attempts to find a law have failed, and all predictions have been falsified. In such cases we may despair of ever finding a satisfactory law. (But it is not likely that we shall give up trying unless the problem does not interest us much which may be the case, for example, if we are satisfied with frequency predictions.) In no case, however, can we say with finality that there are no laws in a particular field. (This is a

consequence of the impossibility of verification.) This means that my view makes the concept of chance subjective.*1 I speak of 'chance' when our knowledge does not suffice for prediction; as in the case of dicing, where we speak of 'chance' because we have no knowledge of the initial conditions. (Conceivably a physicist equipped with good instruments could predict a throw which other people could not predict.)

In opposition to this subjective view, an objective view has sometimes been advocated. In so far as this uses the metaphysical idea that

 

*1 This does not mean that I made any concession here to a subjective interpretation of probability, or of disorder or randomness.

 

 

 

PROBABILITY 1

 

 

 

events are, or are not, determined in themselves, I shall not examine it further here. (Cf. section 71 and 78.) If we are successful with our prediction, we may speak of 'laws'; otherwise we can know nothing about the existence or non-existence of laws or of irregularities.*2

Perhaps more worth considering than this metaphysical idea is the following view. We encounter 'chance' in the objective sense, it may be said, when our probability estimates are corroborated; just as we encounter causal regularities when our predictions deduced from laws are corroborated.

The definition of chance implicit in this view may not be altogether useless, but it should be strongly emphasized that the concept so defined is not opposed to the concept of law: it was for this reason that I called probability sequences chance-like. In general, a sequence of experimental results will be chance-like if the frame conditions which define the sequence differ from the initial conditions; when the individual experiments, carried out under identical frame conditions, will

proceed under different initial conditions, and so yield different results. Whether there are chance-like sequences whose elements are in no way predictable, I do not know. From the fact that a sequence is chance-like we may not even infer that its elements are not predictable, or that they are 'due to chance' in the subjective sense of insufficient knowledge; and least of all may we infer from this fact the 'objective' fact that there are no laws.*3

 

*2 In this paragraph, I dismissed (because of its metaphysical character) a metaphysical theory which I am now, in my Postscript, anxious to recommend because it seems to me to open new vistas, to suggest the resolution of serious difficulties, and to be, perhaps, true. Although when writing this book I was aware of holding metaphysical beliefs, and although I even pointed out the suggestive value of metaphysical ideas for science, I was not alive to the fact that some metaphysical doctrines were rationally arguable and, in spite of being irrefutable, criticizable. See especially the last section of my Postscript.

*3 It would have been clearer, I think, had I argued as follows. We can never repeat an experiment precisely all we can do is to keep certain conditions constant, within certain limits. It is therefore no argument for objective fortuity, or chance, or absence of law, if certain aspects of our results repeat themselves, while others vary irregularly; especially if the conditions of the experiment (as in the case of spinning a penny) are designed with a view to making conditions vary. So far, I still agree with what I have said. But there may be other arguments for objective fortuity; and one of these, due to Alfred Lande ('Lande's blade') is highly relevant in this context. It is now discussed at length in my Postscript, sections *90, f.

 

 

 

200 SOME STRUCTURAL COMPONENTS OF A THEORY OF EXPERIENCE

 

Not only is it impossible to infer from the chance-like character of the sequence anything about the conformity to law, or otherwise, of the individual events: it is not even possible to infer from the corroboration of probability estimates that the sequence itself is completely irregular. For we know that chance-like sequences exist which are constructed according to a mathematical rule. (Cf. appendix iv.) The fact that a sequence has a Bernoullian distribution is not a symptom of the absence of law, and much less identical with the absence of law 'by definition'.1 In the success of probability predictions we must see no more than a symptom of the absence of simple laws in the structure of the sequence (cf. sections 43 and 58) as opposed to the events constituting it. The assumption of freedom from after-effect, which is equivalent to the hypothesis that such simple laws are not discoverable, is corroborated, but that is all.

 

70 THE DEDUCIBILITY OF MACRO LAWS FROM MICRO LAWS

 

There is a doctrine which has almost become a prejudice, although it has recently been criticized severely the doctrine that all observable events must be explained as macro events; that is to say, as averages or accumulations or summations of certain micro events. (The doctrine is somewhat similar to certain forms of materialism.) Like other doctrines of its kind, this seems to be a metaphysical hypostatization of a methodological rule which in itself is quite unobjectionable. I mean the rule that we should see whether we can simplify or generalize or unify our theories by employing explanatory hypotheses of the type mentioned (that is to say, hypotheses explaining observable effects as summations or integrations of micro events). In evaluating the success of such attempts, it would be a mistake to think that nonstatistical hypotheses about the micro events and their laws of interaction could ever be sufficient to explain macro events. For we should need, in addition, hypothetical frequency estimates, since statistical conclusions can only be derived from statistical premises. These frequency estimates are always independent hypotheses which

 

1 As Schlick says in Die Kousolitat in der gegenwartigen Physik, Naturwissenschaften 19, 1931, p. 157.

 

 

 

PROBABILITY 201

 

 

 

at times may indeed occur to us whilst we are engaged in studying the laws pertaining to micro events, but which can never be derived from these laws. Frequency estimates form a special class of hypotheses: they are prohibitions which, as it were, concern regularities in the large.1 Von Mises has stated this very clearly: 'Not even the tiniest little theorem in the kinetic theory of gases follows from classical physics alone, without additional assumptions of a statistical

kind.'2

Statistical estimates, or frequency statements, can never be derived simply from laws of a 'deterministic' kind, for the reason that in order to deduce any prediction from such laws, initial conditions are needed. In their place, assumptions about the statistical distribution of initial conditions that is to say specific statistical assumptions enter into every deduction in which statistical laws are obtained from micro assumptions of a deterministic or 'precise' character.*1

It is a striking fact that the frequency assumptions of theoretical physics are to a great extent equal-chance hypotheses, but this by no means implies that they are 'self-evident' or a priori valid. That they are far from being so may be seen from the wide differences between classical statistics, Bose-Einstein statistics, and Fermi-Dirac statistics. These show

 

1 A. March well says (Die Grundlagen tier Quantenmechanik 1931, p. 250) that the particles of a gas cannot behave ... as they choose: each one must behave in accordance with the behaviour of the others. It can be regarded as one of the most fundamental principles of quantum theory that the whole is more than the mere sum of the parts'.

2 Von Mises, fiber kausale und statistische Gesetzmassigkeiten in tier Physik, Erkenntnis 1 , 1 930, p. 207 (cf. Naturwissenschaften 18, 1930).

*1 The thesis here advanced by von Mises and taken over by myself has been contested by various physicists, among them E Jordan (see .Anschauliche Quantentheorie, 1936, p. 282, where Jordan uses as argument against my thesis the fact that certain forms of the ergodic hypothesis have recently been proved). But in the form that probabilistic conclusions need probabilistic premises for example, measure-theoretical premises into which certain equiprobabilistic assumptions enter my thesis seems to me supported rather than invalidated by Jordan's examples. Another critic of this thesis was Albert Einstein who attacked it in the last paragraph of an interesting letter which is here reprinted in appendix *xii. I believe that, at that time, Einstein had in mind a subjective interpretation of probability, and a principle of indifference (which looks in the subjective theory as if it were not an assumption about equiprobabilities) . Much later Einstein adopted, at least tentatively, a frequency interpretation (of the quantum theory) .

 

 

 

202 SOME STRUCTURAL COMPONENTS OF A THEORY OF EXPERIENCE

 

how special assumptions may be combined with an equal-chance hypothesis, leading in each case to different definitions of the reference sequences and the primary properties for which equal distribution is assumed.

 

The following example may perhaps illustrate the fact that frequency assumptions are indispensable even when we may be inclined to do without them.

Imagine a waterfall. We may discern some odd kind of regularity: the size of the currents composing the fall varies; and from time to time a splash is thrown off from the main stream; yet throughout all such variations a certain regularity is apparent which strongly suggests a statistical effect. Disregarding some unsolved problems of hydrodynamics (concerning the formation of vortices, etc.) we can, in principle, predict the path of any volume of water say a group of molecules with any desired degree of precision, if sufficiently precise initial conditions are given. Thus we may assume that it would be possible to foretell of any molecule, far above the waterfall, at which point it will pass over the edge, where it will reach bottom, etc. In this way the path of any number of particles may, in principle, be calculated; and given sufficient initial conditions we should be able, in principle, to deduce any one of the individual statistical fluctuations of the waterfall. But only this or that individual fluctuation could be so obtained, not the recurring statistical regularities we have described, still less the general statistical distribution as such. In order to explain these we need statistical estimates at least the assumption that certain initial conditions will again and again recur for many different groups of particles (which amounts to a universal statement). We obtain a statistical result if, and only if, we make such specific statistical assumptions for example, assumptions concerning the frequency distribution of recurring initial conditions.

 

71 FORMALLY SINGULAR PROBABILITY STATEMENTS

 

I call a probability statement 'formally singular' when it ascribes a probability to a single occurrence, or to a single element of a certain

 

 

 

PROBABILITY 203

 

 

 

class of occurrences;*1 for example, 'the probability of throwing five with the next throw of this die is 1/6' or 'the probability of throwing five with any single throw (of this die) is 1/6'. From the standpoint of the frequency theory such statements are as a rule regarded as not quite correct in their formulation, since probabilities cannot be ascribed to single occurrences, but only to infinite sequences of occurrences or events. It is easy, however, to interpret these statements as correct, by appropriately defining formally singular probabilities with the help of the concept of objective probability or relative frequency. I use 'αPk(β)' to denote the formally singular probability that a certain occurrence k has the property β, in its capacity as an element of a sequence α — in symbols:1 k ε α — and I then define the formally singular probability as follows:

 

αPk(β) = αF(β) (k ε α) (Definition)

 

This can be expressed in words as: The formally singular probability that the event k has the property β — given that k is an element of the sequence α — is, by definition, equal to the probability of the property β within the reference sequence α.

This simple, almost obvious, definition proves to be surprisingly useful. It can even help us to clarify some intricate problems of modern quantum theory. (Cf. sections 75-76.)

As the definition shows, a formally singular probability statement would be incomplete if it did not explicitly state a reference-class. But although α is often not explicitly mentioned, we usually know in such cases which α is meant. Thus the first example given above does not specify any reference sequence α, but it is nevertheless fairly clear that it relates to all sequences of throws with true dice.

In many cases there may be several different reference sequences for an event k. In these cases it may be only too obvious that different formally singular probability statements can be made about the same

 

*1 The term 'formalistiscJi' in the German text was intended to convey the idea of a statement which is singular in form (or 'formally singular') although its meaning can in fact be denned by statistical statements.

1 The sign '...£...', called the copula, means '. . . is an element of the class . . .'; or else, '. . . is an element of the sequence . . .'.

 

 

 

204 SOME STRUCTURAL COMPONENTS OF A THEORY OF EXPERIENCE

 

event. Thus the probability that an individual man k will die within a given period of time may assume very different values according to whether we regard him as a member of his age-group, or of his occupational group, etc. It is not possible to lay down a general rule as to which out of several possible reference-classes should be chosen. (The narrowest reference-class may often be the most suitable, provided that it is numerous enough to allow the probability estimate to be based

upon reasonable statistical extrapolation, and to be supported by a sufficient amount of corroborating evidence.)

Not a few of the so-called paradoxes of probability disappear once we realize that different probabilities may be ascribed to one and the same occurrence or event, as an element of different reference-classes. For example, it is sometimes said that the probability αPk(β) of an event before its occurrence is different from the probability of the same event after it has occurred: before, it may equal 1/6, while afterwards it can only be equal to 1 or 0. This view is, of course, quite mistaken. αPk(β) is always the same, both before and after the occurrence. Nothing has changed except that, on the basis of the information k ε β (or k ε )

information which may be supplied to us upon observing the occurrence we may choose a new reference-class, namely β (or ), and then ask what is the value of βPk(β). The value of this probability is of course 1; just as Pk(β) = 0. Statements informing us about the actual outcome of single occurrences statements which are not about some frequency but rather of the form 'k ε φ' cannot change the probability of these occurrences; they may, however, suggest to us the choice of another reference-class.

The concept of a formally singular probability statement provides a kind of bridge to the subjective theory, and thereby also, as will be shown in the next section, to the theory of range. For we might agree to interpret formally singular probability as 'degree of rational belief(following Keynes) provided we allow our 'rational beliefs' to be guided by an objective frequency statement. This then is the information upon which our beliefs depend. In other words, it may happen that we know nothing about an event except that it belongs to a certain reference-class in which some probability estimate has been successfully tested. This information does not enable us to predict what the property of the event in question will be; but it enables us to

 

 

 

PROBABILITY 205

 

 

 

express all we know about it by means of a formally singular probability statement which looks like an indefinite prediction about the particular event in question.*2

Thus I do not object to the subjective interpretation of probability statements about single events, i.e. to their interpretation as indefinite predictions as confessions, so to speak, of our deficient knowledge about the particular event in question (concerning which, indeed, nothing follows from a frequency statement). I do not object, that is to say, so long as we clearly recognize that the objective frequency statements are fundamental, since they alone are empirically testable. I reject, however, any interpretation of these formally singular probability statements these indefinite predictions as statements about an objective state of affairs,

other than the objective statistical state of affairs. What I have in mind is the view that a statement about the probability 1/6 in dicing is not a mere confession that we know nothing definite (subjective theory), but rather an assertion about the next throw an assertion that its result is objectively both indeterminate and undetermined something which as yet hangs in the balance.*3 I regard all attempts at this kind of objective interpretation (discussed at length by Jeans, among others) as mistaken. Whatever indeterministic airs these interpretations may give themselves, they all involve the metaphysical idea that not only can we deduce and test predictions, but that, in addition, nature is more or less 'determined' (or 'undetermined'); so that the success (or failure) of predictions is to be explained not by the laws from which they are deduced, but over and above this by the fact that

 

*2 At present I think that the question of the relation between the various interpretations of probability theory can be tackled in a much simpler way by giving a formal system of axioms or postulates and proving that it is satisfied by the various interpretations. Thus I regard most of the considerations advanced in the rest of this chapter (sections 7 1 and 72) as being superseded. See appendix *iv, and chapters *ii, *iii, and *v of my Postscript. But I still agree with most of what I have written, provided my 'reference classes' are determined by the conditions defining an experiment, so that the 'frequencies' may be considered as the result of propensities.

*3 1 do not now object to the view that an event may hang in the balance, and I even believe that probability theory can best be interpreted as a theory of the propensities of events to turn out one way or another. (See my Postscript.) But I should still object to the view that probability theory must be so interpreted. That is to say, I regard the propensity interpretation as a conjecture about the structure of the world.

 

 

 

206 SOME STRUCTURAL COMPONENTS OF A THEORY OF EXPERIENCE

 

nature is actually constituted (or not constituted) according to these laws.*4

 

72 THE THEORY OF RANGE

 

In section 34 I said that a statement which is falsifiable to a higher degree than another statement can be described as the one which is logically more improbable; and the less falsifiable statement as the one which is logically more probable. The logically less probable statement entails1 the logically more probable one. Between this concept of logical probability and that of objective or formally singular numerical probability there are affinities. Some of the philosophers of probability (Bolzano, von Kries, Waismann) have tried to base the calculus of probability upon the concept of logical range, and thus upon a concept which (cf. section 37) coincides with that of logical probability; and in doing so, they also tried to work out the affinities between logical and numerical probability.

Waismann2 has proposed to measure the degree of interrelatedness between the logical ranges of various statements (their ratios, as it were) by means of the relative frequencies corresponding to them, and thus to treat the frequencies as determining a system of measurement for ranges. I think it is feasible to erect a theory of probability on this foundation. Indeed we may say that this plan amounts to the same thing as correlating relative frequencies with certain 'indefinite predic-

tions' as we did in the foregoing section, when defining formally singular probability statements.

It must be said, however, that this method of defining probability is only practicable when a frequency theory has already been constructed. Otherwise one would have to ask how the frequencies used in defining the system of measurement were defined in their turn. If, however, a frequency theory is at our disposal already, then the introduction of the theory of range becomes really superfluous. But in spite of this objec-

 

* 4 This somewhat disparaging characterization fits perfectly my own views which I now submit to discussion in the 'Metaphysical Epilogue' of my Postscript, under the name of 'the propensity interpretation of probability'.

 

1 Usually (cf. section 35).

2 Waismann, Logische Analyse ties Walirschemlichkeitsbegriffes, Erkenntnis 1, 1930, p. 128 f.

 

 

 

PROBABILITY 207

 

 

 

tion I regard the practicability of Waismann's proposal as significant. It is satisfactory to find that a more comprehensive theory can bridge the gaps which at first appeared unbridgeable between the various attempts to tackle the problem, especially between the subjective and the objective interpretations. Yet Waismann's proposal calls for some slight modification. His concept of a ratio of ranges (cf. note 2 to section 48) not only presupposes that ranges can be compared with the help of their subclass relations (or their entailment relations); but it also presupposes, more generally, that even ranges which only partially overlap (ranges of non-comparable statements) can be made comparable. This latter assumption, however, which involves considerable difficulties, is superfluous. It is possible to show that in the cases concerned (such as cases of randomness) the comparison of subclasses and that of frequencies must lead to analogous results. This justifies the procedure of correlating frequencies to ranges in order to measure the latter. In doing so, we make the statements in question (non-comparable by the subclass method) comparable. I will indicate roughly how the procedure described might be justified.

If between two property classes γ and β the subclass relation

 

γ ⊂ β

 

holds, then we have:

 

(k) [Fsb(k ε γ) Fsb(k ε β)] (cf. section 33)

 

so that the logical probability or the range of the statement (k ε γ) must be smaller than, or equal to, that of (k ε β). It will be equal only if there is a reference class α (which may be the universal class) with respect to which the following rule holds which may be said to have the form of a 'law of nature':

 

(x) {[x ε (α.β)] (x ε γ)}.

 

If this 'law of nature' does not hold, so that we may assume randomness in this respect, then the inequality holds. But in this case we

 

 

 

208 SOME STRUCTURAL COMPONENTS OF A THEORY OF EXPERIENCE

 

obtain, provided α is denumerable, and acceptable as a reference sequence:

 

αF(γ) < αF(β).

 

This means that, in the case of randomness, a comparison of ranges must lead to the same inequality as a comparison of relative frequencies. Accordingly, if we have randomness, we may correlate relative frequencies with the ranges in order to make the ranges measurable. But this is just what we did, although indirectly, in section 71, when we defined the formally singular probability statement. Indeed, from the assumptions made, we might have inferred immediately that

 

αPk(γ) < αPk(β).

 

So we have come back to our starting point, the problem of the interpretation of probability. And we now find that the conflict between objective and subjective theories, which at first seemed so obdurate, may be eliminated altogether by the somewhat obvious definition of formally singular probability.

 

 

 

과학적 발견의 논리, 8장 확률.hwp

과학적 발견의 논리, 8장 확률.hwp
0.38MB