Tag Archives: R

Mac 용 R에서 잘 읽지 못 하는 한글 파일을 잘 읽는 방법

한국에서는 워낙 윈도우가 압도적으로 사용되는 곳입니다. 그래서 맥을 사용하는 사람 입장에서는 윈도우에서 만든 기본적인 자료, txt나 csv 형식 자료를 읽는데 가끔 문제가 생기기도 합니다. 물론 맥에서 작업하던 파일을 윈도우에 가져와 작업하려면 문제가 많이 발생합니다.

R을 사용할 때도 문제가 많이 생깁니다. 이는 파일에 들어가는 글자를 어떤 형식으로 구성하느냐 하는 문제, 즉 인코딩 문제 때문입니다. 일반적으로 윈도우는 euc-kr를 사용하고, 반면에 맥이나 리눅스는 utf-8을 사용하기 때문입니다.

이 문제를 극복하기 위한 여러가기 꼼수가 있었지만, R에서 이를 처리하는 함수를 하나 만들어서 처리하는 방식이 있어서 소개하고자 합니다. 이 방법은 r에서 한글문서 열때 인코딩 문제 에 소개된 것입니다. 뭐 이 글의 아이디어를 제가 했기 때문에 여기에 소개해도 무방할 것 같네요 ^^;

뭐 사용하는 방법은 간단합니다. 우선 이 함수를 사용하기 위해서 library(readr)을 입력합니다. 만약 에러가 난다면, install.packages("readr”)이라고 실행해서 패키지를 설치합니다. 패키지가 설치가 안 되면 R을 최신 것으로 설치하시면 됩니다. 그리고 다음과 같이 함수를 입력합니다. 전체 과정은 다음과 같이 하시면 됩니다.


library(readr)
read.any <- function(text, sep = "", ) {
encoding <- as.character(guess_encoding(text)[1,1])
setting <- as.character(tools::file_ext(text))
if(sep != "" | !(setting %in% c("csv", "txt")) ) setting <- "custom"
separate <- list(csv = ",", txt = "\n", custom = sep)
result <- read.table(text, sep = separate[[setting]], fileEncoding = encoding, )
return(result)
}

view raw

read_any.R

hosted with ❤ by GitHub

R을 많이 사용하신 분은 어떻게 사용할지 감을 잡으셨겠지만, 저와 같은 초보자를 위해서 한 번 사용해보겠습니다. 우선 다음 링크를 눌러서 사용할 샘플자료를 다운 받으세요! 바로 저장하시면 됩니다.

이 자료에 들어 있는 2017_7_8_KBO_win.csv 파일을 R에서 자료를 읽을 수 있는 폴더에 넣으세요. R에서 dir()을 입력했을 때, 위 파일 이름이 있는지 확인하세요.

맥에서 이 파일을 읽는 진행과정은 다음과 같습니다. 처음에는 read.csv()을 사용해서 읽는데 실패했던 파일이 read.any()을 이용해서는 성공하네요.


> temp_kbo <- read.csv("2017_7_8_KBO_win.csv", header = TRUE)
Error in make.names(col.names, unique = TRUE) :
'<bc><f8><c0><a7>'에서 유효하지 않은 멀티바이트 문자열이 있습니다
> library(readr)
> read.any <- function(text, sep = "", ) {
+ encoding <- as.character(guess_encoding(text)[1,1])
+ setting <- as.character(tools::file_ext(text))
+ if(sep != "" | !(setting %in% c("csv", "txt")) ) setting <- "custom"
+ separate <- list(csv = ",", txt = "\n", custom = sep)
+ result <- read.table(text, sep = separate[[setting]], fileEncoding = encoding, )
+ return(result)
+ }
> temp_kbo <- read.any("2017_7_8_KBO_win.csv", header = TRUE)
> head()
Error in head.default() : 기본값이 없는 인수 "x"가 누락되어 있습니다
> temp_kbo <- read.any("2017_7_8_KBO_win.csv")
> head(temp_kbo)
V1 V2 V3 V4 V5 V6 V7 V8 V9 V10 V11 V12 V13 V14 V15 V16
1 순위 선수명 팀명 AVG G PA AB R H 2B 3B HR TB RBI SAC SF
2 1 김선빈 KIA 0.38 79 303 271 49 103 23 0 2 132 47 2 4
3 2 최형우 KIA 0.37 80 359 289 66 107 23 3 20 196 76 0 4
4 3 나성범 NC 0.359 61 264 237 53 85 20 1 13 146 51 0 1
5 4 김태균 한화 0.353 61 268 232 34 82 13 0 10 125 57 0 4
6 5 서건창 넥센 0.353 78 347 303 52 107 17 2 4 140 49 0 3
> temp_kbo <- read.any("2017_7_8_KBO_win.csv",header = TRUE)
> head(temp_kbo)
순위 선수명 팀명 AVG G PA AB R H X2B X3B HR TB RBI SAC SF
1 1 김선빈 KIA 0.380 79 303 271 49 103 23 0 2 132 47 2 4
2 2 최형우 KIA 0.370 80 359 289 66 107 23 3 20 196 76 0 4
3 3 나성범 NC 0.359 61 264 237 53 85 20 1 13 146 51 0 1
4 4 김태균 한화 0.353 61 268 232 34 82 13 0 10 125 57 0 4
5 5 서건창 넥센 0.353 78 347 303 52 107 17 2 4 140 49 0 3
6 6 이대호 롯데 0.351 79 333 302 44 106 7 0 16 161 60 0 0

view raw

read_any_ex.R

hosted with ❤ by GitHub

Mac 에서 R의 rugarch 패키지 설치시 오류가 날 때 처리법

제목 그대로 다음과 같은 오류가 날 수 있습니다.


> require(rugarch)
필요한 패키지를 로딩중입니다: rugarch
Error : .onLoad가 loadNamespace()에서 'rgl'때문에 실패했습니다:
호출: dyn.load(file, DLLpath = DLLpath, )
에러: 공유된 객체 '/Library/Frameworks/R.framework/Versions/3.3/Resources/library/rgl/libs/rgl.so'를 로드 할 수 없습니다:
dlopen(/Library/Frameworks/R.framework/Versions/3.3/Resources/library/rgl/libs/rgl.so, 6): Library not loaded: /opt/X11/lib/libGLU.1.dylib
Referenced from: /Library/Frameworks/R.framework/Versions/3.3/Resources/library/rgl/libs/rgl.so
Reason: image not found

view raw

rugarch_error.R

hosted with ❤ by GitHub

그러면 XQuartz에 가서 XQuartz을 다운받아서 설치하시고 R을 종료하고 재실행하시면 잘 설치됩니다. 출처는 다음과 같습니다.

Installing “rgl” package in R, Mac OSX El Captian [fixed] – Stack Overflow

윈도우에서 만든 csv 파일을 Mac에서 사용하는 R에서 쉽게 열어보자.

뭐 간단한 팁인데요.

R을 사용하면서 csv파일을 맥, 윈도우, 리눅스 간에 같이 사용하는 경우가 있습니다. 이때 맥과 리눅스 간에는 유니코드 인코딩 방식중 UTF-8을 사용하면 그리 문제없이 파일을 공유할 수 있습니다. 그런데 문제는 윈도우가 끼어들면 문제가 복잡합니다. 윈도우에서 만들어진 csv 파일이 맥이나 리눅스에서 잘 안 읽어지는 경우가 많습니다.

물론 고수이신 분들은 다 쉽게 처리하시겠지만, 저는 항상 이런 경우 문제가 많았습니다. 그런데 아주 쉬운 방법을 하나 찾았습니다. 맥으로 파일을 보내기 전에 윈도우에서 보낼 csv 파일을 윈도우에서 메모장을 엽니다. 만약 파일이 크면 잘 안 열릴 수도 있습니다. 참고로 윈도우 10에서는 메모장이 100MB까지는 여는 것 같습니다.

그런 다음 파일 메뉴에서 다른 이름으로 저장을 선택하시면 아래와 같은 다이얼로그박스가 나옵니다. 여기서 아래와 같이 인코딩을 UTF-8을 바꾸신 다음 저장해주세요. 그런 다음 맥으로 보내시면, 문제 없이 R에서는 사용하실 수 있습니다.

다른 이름으로 저장

RStudio를 이용하여, R 코드와 한글이 들어 있는 R Markdown으로 쓴 파일을 pdf로 만드는 팁!

RStudio에는 기본적인 R보다 유용한 기능이 많습니다. 그중에서는 저는 knitr 패키지를 이용하여 R 코드가 들어있는 R Markdown으로 쓰여진 글을 HTML이나 pdf 파일로 만들어 주는 기능에 관심이 많았습니다. 물론 프리뷰(Preview) 버젼인 RStudio Version 0.99.1273에는 이것 보다 더 진보한R Markdown Notebooks이 들어 있습니다.

그러나 문제는 이 기능이 영어로만 되어 있는 것은 잘 되는데, 유난히 한글만 들어가면 잘 안 된다는 것입니다. HTML로 변환하는 것은 잘 되는 것 같았는데, pdf으로 변환하는 것이 문제였습니다. 그러다가 우연히 권재명님이 쓰신 Jaimyoung/data-science-in-korean: 한국어를 포함한 데이터와 분석코드를 다루는 팁을 살펴보다가 https://raw.githubusercontent.com/Jaimyoung/data-science-in-korean/master/test-template.Rmd이라는 링크를 발견했습니다. 이 파일을 살펴보니 다음과 같이 되어 있었습니다.

title: “한글 레퍼런스 R 마크다운 템플릿”
author: “권재명”
date: “July 18, 2015”
output:
word_document:
highlight: tango
reference_docx: korean-template.docx
pdf_document:
latex_engine: xelatex
mainfont: NanumGothic

그래서 이것을 참고로 RStudio 기본 파일을 다음과 같이 수정해서 아래와 같이 수정하니, 한글이 들어 있어도 pdf 파일로 잘 변환됩니다. 아래 내용은 기본 파일에서 앞부분만 고치고 한글이 들어 있는 내용을 한 줄 넣은 것입니다.


title: "R Notebook"
output:
pdf_document:
latex_engine: xelatex
html_notebook: default
html_document: default
mainfont: NanumGothic
이것은 [R Markdown](http://rmarkdown.rstudio.com) 노트북입니다.
This is an [R Markdown](http://rmarkdown.rstudio.com) Notebook. When you execute code within the notebook, the results appear beneath the code.
Try executing this chunk by clicking the *Run* button within the chunk or by placing your cursor inside it and pressing *Cmd+Shift+Enter*.
“`{r}
plot(cars)
“`
Add a new chunk by clicking the *Insert Chunk* button on the toolbar or by pressing *Cmd+Option+I*.
When you save the notebook, an HTML file containing the code and output will be saved alongside it (click the *Preview* button or press *Cmd+Shift+K* to preview the HTML file).

RStudio에서 새 파일 에서 R Markdown은 선택하신 후 이미 만들어진 내용을 다 지우신 다음, 위의 코드를 붙여넣기를 하신 다음, knit라는 버튼을 눌러서, HTML과 pdf 파일로 변환하시면, 한글이 잘 나오는 것을 확인하실 수 있습니다. 참고로 pdf를 만드시려면 Latex를 설치하셔야 됩니다.

R에서 미국 연비(MPG)를 한국연비(km/L)로 있어보이게 바꾸기

우리 나라에서 사용하는 연비란 에너지관리공단 수송에너지 > 자동차공인연비 > 공인연비에 따르면 연료 1ℓ로 주행 가능한 거리(km)를 말하는 것을 말합니다. 그러나 미국은 연료 1갤런(gallon)으로 주행 가능한 거리를 마일(mile)로 계산하여 연비를 계산합니다. 미국이랑 우리나라가 단위가 다르니 생기는 문제입니다. 참고로 1갤런은 3.785411784리터(참고: 갤런 – 위키백과, 우리 모두의 백과사전) 이고 1 마일은 1.609344 킬로미터(참고: 마일 – 위키백과, 우리 모두의 백과사전) 입니다.

뭐 사전 지식은 다 알았으니, 실제로 연비를 바꿔보겠습니다. 미국 연비를 10부터 40까지 만들보겠습니다.

mpg < - seq(10,40)

mpg을 입력해 확인해보시면, 10부터 40까지 값이 들어있는 것을 보일 수 있습니다. 이것을 미국 연비라고 해봅시다. 이때 이것을 한국 연비로 바꿔 계산해봅시다. 위에서 살펴본 것을 토대로 변환식을 짜면 다음과 같습니다.

kmL <- (mpg * 1.609344)/3.785411784

kmL을 입력해 확인해보시면, mpg에 들어있던 것을 한국 연비로 바꾼 값을 확인할 수 있습니다. 미국 자동차 연비마일 MPG -> km/L 보는법의 포스트와 비교해 보면, 지금까지 계산한 값이 더 정확하고 자세한 것처럼 보입니다. ^^; 위의 것은 너무 단순해서 조금은 멋지게 패키지를 사용해서 바꿔보도록 하겠습니다. 아래 코드는 지금까지 한 것을 다 넣고 패키지를 설치해서 계산하고 위에서 계산한 것과 패키지를 이용해서 계산한 것을 비교해봤습니다.


mpg <- seq(10,40)
kmL <- (mpg * 1.609344)/3.785411784 ## 단순하게 바꾸기
install.packages("datamart") ## 패키지 설치
library(datamart) ## 패키지 설치
uconv(1, "US gal", "l", uset="Volume") ## 1 캘런을 리터로
uconv(1, "mile", "km", uset="Length") ## 1 마일을 킬로미터로
kmL.uconv <- uconv(mpg, "mile", "km", uset="Length")/uconv(1, "US gal", "l", uset="Volume") ## uconv()을 이용하여 바꾸기
kmL == kmL.uconv ## 두 계산 결과 확인

view raw

mpgToKml.R

hosted with ❤ by GitHub

맨 마지막 줄에 있는 kmL == kmL.uconv 명령을 입력하면 그 결과가 모두 TRUE로 나오는 것을 보니 두 계산 결과가 같은 것임을 확인할 수 있습니다.

R 에서 대문자를 소문자로, 소문자를 대문자로 바꾸는 방법

영어로 된 문자열을 모두 대문자로 바꾸거나 소문자로 바꿔야 할 경우가 있습니다. 그럴 때에는 toupper or tolower 아래와 같이 사용하면 됩니다. R에서 다음과 같이 입력 하시면 도움말을 보실 수 있습니다.

?toupper
?tolower

> test <- c("Test tesT") ##입력
> test ## 확인
[1] "Test tesT"
> tolower(test) ## 소문자로 바꿉니다.
[1] "test test"
> toupper(test) ## 대문자로 바꿉니다.
[1] "TEST TEST"

엑셀(Excel)의 VLOOKUP 함수 기능을 R에서도 구현해보자!

엑셀(Excel)의 VLOOKUP 함수는 멋진 기능을 하는 함수 입니다. 엑셀(Excel) VLOOKUP함수, HLOOKUP함수 사용법 :: 빌노트의 노트을 보시면, 어떤 기능을 하는 것인지 알 수 있습니다. R에서 할 수 있지 않을까 하는 생각이 들어서 한번 구현해 봤습니다.

R에서는 크게 두 가지 방법이 있는데 여기서는 merge이라는 함수를 사용해봤습니다. 그래서 최종 결과물의 순서가 위 링크에 있는 순서가 다르게 되었습니다.


> a <-c(100,200,300,400,500)
> a
[1] 100 200 300 400 500
> b <- c("컴퓨터","DSLR","냉장고","TV","에어컨")
> b
[1] "컴퓨터" "DSLR" "냉장고" "TV" "에어컨"
> c <- c(700000,450000,2300000,4100000,1400000)
> c
[1] 700000 450000 2300000 4100000 1400000
> items <- data.frame(번호=a, 상품명=b, 단가=c)
> items
번호 상품명 단가
1 100 컴퓨터 700000
2 200 DSLR 450000
3 300 냉장고 2300000
4 400 TV 4100000
5 500 에어컨 1400000
> orderNumbers <- data.frame(번호=c(200,100,500))
> orderNumbers
번호
1 200
2 100
3 500
> Order <- merge(items, orderNumbers, by.x="번호", by.y="번호")
> Order
번호 상품명 단가
1 100 컴퓨터 700000
2 200 DSLR 450000
3 500 에어컨 1400000
> Order$수량 <-c(1,3,1)
> Order$금액 <- (Order$단가 * Order$수량)
> Order
번호 상품명 단가 수량 금액
1 100 컴퓨터 700000 1 700000
2 200 DSLR 450000 3 1350000
3 500 에어컨 1400000 1 1400000
> sum(Order$금액)
[1] 3450000

view raw

VLOOKUP_.R

hosted with ❤ by GitHub

R 에서 170!팩토리얼(factorial), 170계승 이상을 계산하는 법

R에서는 170!까지만 계산할 수 있습니다(아래 코드 참조). 171!부터는 다음과 같이 일반적인 방법으로 계산할 수 없습니다.

> factorial(170)
[1] 7.257416e+306
> factorial(171)
[1] Inf
경고메시지(들): 
In factorial(171) : value out of range in 'gammafn'

그러면 어떻게 계산할 수 있을까요? factorialZ 을 쓰시면 됩니다. 우선 다음과 같이 gmp를 설치합니다.

> install.packages("gmp")

그런 다음 아래와 같이 하면 됩니다. 참고로 조금 표현 방식이 다르게 나옵니다. 그리고 171!이상도 계산해서 결과를 보여주니, 너무 높은 값을 넣으면, 엄청난 숫자를 보게 되니 주의하세요!

> factorial(170)
[1] 7.257416e+306
> factorialZ(170)
Big Integer ('bigz') :
[1] 7257415615307998967396728211129263114716991681296451376543577798900561843401706157852350749242617459511490991237838520776666022565442753025328900773207510902400430280058295603966612599658257104398558294257568966313439612262571094946806711205568880457193340212661452800000000000000000000000000000000000000000
> factorialZ(171)
Big Integer ('bigz') :
[1] 1241018070217667823424840524103103992616605577501693185388951803611996075221691752992751978120487585576464959501670387052809889858690710767331242032218484364310473577889968548278290754541561964852153468318044293239598173696899657235903947616152278558180061176365108428800000000000000000000000000000000000000000

R로 평균값(mean), 중간값(median), 최빈값(mode), 범위(range), 분산(variance) 구하기

R로 평균값(mean), 중간값(median), 최빈값(mode), 범위(range), 분산(variance)을 구해보겠습니다. 그러기 위해서는 우선 준비작업으로 값을 넣어보겠습니다.

여기서 입력하고자 하는 값들은 농구선수가 게임당 특점한 값들이라고 가정했습니다. 1번째 줄은 그 자료를 입력하는 것입니다. 2번째 줄은 그것을 R의 데이터 프레임 형식으로 만들어 player라는 변수에 넣는 것입니다. 마지막으로 3번째 줄은 이 값들에 열 이름을 넣는 것입니다. 엑셀 파일에 1줄로 자료를 입력한 후, 맨 앞 칸에 열 이름을 넣는 것이라고 생각하시면 됩니다. 마지막 줄을 입력하면 지금까지 한 것을 확인할 수 있습니다.

## 데이터 입력
temp <- c(3,3,6,7,7,10,10,10,11,13,30)
player <- data.frame(temp)
colnames(player) <- c("score")
player

자 이제 본격적으로 지금까지 입력한 값을 가지고 하고자 하는 일 차례로 해보겠습니다. 여기서 모든 값이 10으로 다 같습니다. 여기서 참고로 마지막 최빈값은 조금 복잡한 방식으로 처리했는데, 이는 R에 최빈값을 구하는 내장함수가 없기 때문입니다. 참고로 입력하는 방법은 “{” 키를 치고 엔터를 치면 “+”가 나타나고 거기에서 또 명령어를 치면 “+”가 나옵니다. 그렇게 하다가 마지막으로 “}”키를 치고 엔터를 누르면 Mode라는 함수 입력이 완료됩니다. 그럼 다음 마지막 줄에서 그 함수를 사용하는 것입니다. 여기 함수에 대한 내용은 나중에 자세히 살펴보도록 하겠습니다.

## 평균값 구하기
mean(player$score)

## 중간값 구하기
median(player$score)

## 최빈값 구하기
Mode <- function(x) {
ux <- unique(x)
ux[which.max(tabulate(match(x, ux)))]
}

Mode(player$score)

이번에는 범위를 구해보겠습니다. 통계학에서 범위라는 것은 데이터 집합에서 상한값에서 하한값을 뺀 것을 말합니다. 그래서 R에서도 max라는 것을 가지고 상한값을 구한 다음, min이라는 것을 가지고 하한값을 구한 다음, 상한값에서 하한값을 빼서 구했습니다.

## 범위 구하기
max(player$score) - min(player$score)

마지막으로 분산을 구해보도록 하겠습니다. R에서도 손쉽게 var()이라는 것으로 구할 수도 있지만, 우리는 정확하게 모집단을 정확하게 다 알고 있기 때문에 통계학 시간에 배운 공식을 가지고 단순하게 구해봤습니다. 앞에서 최빈값을 구한 것과 같이 함수를 이용했습니다. 참고로 이렇게 구한 값은 R에서 var()으로 구한 값과 다릅니다. 자세한 내용은 통계학에서 소위 모집단 분산과 모집단 분산 추정하기의 다르다는 것을 살펴보시면 됩니다.

## 분산 구하기
my.var <- function(x) {
m <- mean(x)
return (sum((x-m)^2)/length(x))
}

my.var(player$score)