본문 바로가기
개발 관련

R 에 관하여...

by 조이플워니 2015. 6. 24.
요즘 하도 빅데이터 빅데이터 하는데.. 

오죽 하면 데이터에 'D'도 모르는 것들이 데이터 분석을 한답시고 난리인 경우가 많다

무식하면 용감하다고... 일단 다들 시작은 하는거 같은데... 그렇게 막 헤딩을 하다보면 분명히 막힐테고... 

그럼 나나 우리팀에 문의를 할테니... 준비는 해놔야 겠다 싶어서 정리를 시작한다.

- R - 은 무엇인가?

위키백과에서는 이렇게 정의 한다.

R 프로그래밍 언어는 통계 계산과 그래픽을 위한 프로그래밍 언어이자 소프트웨어 환경이다.
뉴질랜드의 한 대학에서 시작되어 현재는 R 코어 개발팀이 개발을 하고 있다.
R은 통계 소프트웨어 개발과 자료 분석에 널리 사용되고 있으며, 패키지 개발이 용이하여 통계학자들 사이에서 통계 소프트웨어 개발에 많이 사용되고 있다.

결론 : 그렇다... R은 통계 계산과 그래픽을 위한 프로그래민 언어이다.

R의 문법과 통계 처리 부분은 AT&T 벨 연구소가 개발했던 S를 참고하고 데이터 처리 부분은 스킴의 영향을 받았다 한다.

cf) S 벨 연구소의 존 챔버스와 (이전 버전에서) 릭 베커, 앨런 윌크스가 개발한 통계적인 프로그래밍 언어이다. 존 챔버스의 말에 따르면, 이 언어의 목적은 "개념을 소프트웨어에 빠르고 미덥게 전환하는 것"이다.

S에는 두 가지 종류가 있다. 하나는 무료로 배포되는 버전, R, 그리고 상용 버전인 인사이트풀(Insightful)의 S-PLUS이다. S 언어의 버전 4는 줄여서 S4라고 하며 고급 객체 지향 기능을 제공한다. S4는 S3 계열에 비해 눈에 띄게 다르다.

cf) 스킴 프로그래밍 언어(Scheme) 는 함수형 프로그래밍 절차적 프로그래밍을 지원하는 다중패러다임 프로그래밍 언어로, 리스프(LISP)의 방언(변종 언어)이다. 1970년대 Guy Lewis Steele Jr. 과 Gerald Jay Sussman 에 의해서 개발되었다. 다른 LISP 방언과 비교할 때 단순함이 특징이다. 전통적인 LISP과 가장 큰 차이점은 동적 영역 규칙 대신 정적 영역 규칙을 사용하고 있다는 것이다. 반복문을 지원하기 않기 때문에 재귀함수를 이용하여 반복 계산을 처리한다. 따라서 대부분의 스킴 구현은 꼬리호출 최적화(tail-call optimization)를 수행한다.

암튼 R은 다양한 통계 기법과 수치해석 기법을 지원하고 핵심 패키지는 R과 함께 설치되며 CRAN 을 통해 수백, 수천개의 패키지를 다운로드 받을수 있다.

R의 강점은 그래픽 기능으로 수학기호를 포함할 수 있는 출판물 수준의 그래프를 제공한다는 것이다.

R은 통계 계산과 소프트웨어 개발을 위한 환경이 필요한 통계학자와 연구자들 뿐만 아니라, 향렬 계산을 위한 도구로써도 사용될 수 있다

처리속도는 S의 상용판인 S-PLUS보다 많은 경우 속도가 빠를 뿐 아니라, 범용 행렬계 언어의 표준과도 같은 MATLAB보다고 종합적으로 빠르다는 평가가 있다.

ex)

#CSV 파일 읽기

# 1행에 열이름을 넣었을 경우 header = T 옵션을 줘서 이름을 인식 시킬수 있다.

> df <- read.csv("a.csv", header = T)



'개발 관련' 카테고리의 다른 글

Google Tag Manager  (0) 2015.07.03
R & R Studio 설치  (0) 2015.06.25
ASP 엑셀 다운로드  (0) 2015.02.09
iframe 이동 관련...  (0) 2015.02.09
ASP 엑셀(xls, xlsx) 다운로드 시 셀 속성 지정  (0) 2015.02.09

댓글