CSV 파일 연동하기

시작하기 전에

CSV 파일을 연동하기 위해서 사전에 작업해야 할 사항들은 아래와 같습니다.

  1. 파일 소스 이름 작성

  2. 파일 업로드

  3. 중복 데이터 설정

  4. 데이터 확인

행 제외 규칙, 열 속성 정의는 과정이 복잡하므로 상세히 확인하고 진행하는 것을 권장드립니다.

파일 소스 이름 작성

데이터의 성격이나 출처를 확인할 수 있는 이름으로 생성합니다.

파일 업로드

업로드할 CSV 파일을 선택합니다.

행 제외 규칙 생성

파일 데이터를 ReFit에 온전히 전달하기 위해서는 첫 번째 행에 열 이름이 위치해야 하고, 두 번째 행부터 데이터가 존재해야 합니다. 따라서 열 이름이 존재하는 행을 첫 번째 행으로 위치하기 위해 불필요한 줄을 제외하는 규칙을 정합니다. "Total"과 같은 부분합 데이터가 제일 하단에 존재하는 경우가 있는데, 이러한 경우는 아래에서 N번째 행을 제외하는 형식으로 제거할 수 있습니다.

  • 위에서 N번째 행 제외하는 경우

    • ex) 공백인 행

  • 아래에서 N번째 행 제외 하는 경우

    • ex) Total

예시

행 제외 규칙을 연동 이후에 수정할 수 있나요?

행 제외 규칙을 수정하는 기능은 제공하지 않습니다. 생성한 파일소스를 삭제 한 후 다시 파일을 연동해야 합니다.

열속성 정의 하기

ReFit은 API로 연동된 데이터의 경우 API 규격에 따라 데이터의 속성을 사전에 알 수 있지만, 파일로 직접 업로드한 데이터의 경우 사용자가 정의하기 전에는 알 수가 없습니다. 유저가 어떤 데이터를 업로드 하는지 정의하고 API 데이터와 통합하기 위해 필요한 과정입니다. 보고서/대시보드에서 사용하지 않을 열을 제외할 수 있으며, 계산이 필요한 측정 기준과 지표가 되는 열을 정의할 수 있습니다.

열 속성 정의는 매번 해야 하나요?

열 속성 정의는 CSV파일 연동시 처음 한번만 수행하면 됩니다.

예시

업로드 한 CSV 내용이 아래와 같은 경우, 각 열이 어떤 의미를 가지는지 ReFit은 스스로 알 수 없습니다.

유저는 각 열이 어떤 의미를 가지는지 ReFit에게 알려줌으로써 데이터를 더 쉽고 유용하게 사용할 수 있습니다.

열 속성 정의는 ReFit에서 가장 복잡한 기능 중 하나입니다. 도움이 필요하시면 tech@refit.ai로 연락해 주세요! ReFit 멤버가 진행을 도와 드리겠습니다.

정의할 수 있는 열속성은 크게 세 가지로 분류됩니다.

  • 사전 정의된 속성 : 캠페인명, 광고 그룹명, UTM, 클릭, 비용, 전환 등 여러 매체에서 공통적으로 확인되는 열

  • 타입 정의 속성 : 텍스트, 정수, 실수, T/F

  • 정의하지 않음: ReFit에서 데이터로 활용하지 않는 열

사전 정의된 속성

타입 정의 속성

dimension 과 metric이 뭘까요? dimension은 일반적으로 고유한 값을 가지며, 정렬이나 집계가 가능합니다. metric은 데이터의 의미를 나타내는 속성입니다. metric은 일반적으로 수치 값을 가지며, 분석 및 시각화에 사용됩니다. 차이를 더 자세히 이해하기 위해 다음과 같은 예시를 볼 수 있습니다. 자세한 내용은 자료를 참고해주세요.

판매 데이터

  • dimension: 제품명, 판매처, 고객, 판매일자

  • metric: 판매량, 매출액

중복 데이터 설정

  • 단일 파일 내 데이터 : 하나의 CSV 파일 내에 중복 데이터가 발생할때 처리하는 방법입니다.

  • 파일 - DB 데이터 : 업로드한 CSV 파일을 ReFit의 DB에 저장시 중복 데이터가 발생할때 처리하는 방법입니다.

중복 데이터 처리 방식

중복 데이터 처리는 덮어쓰기와 합산 두가지 방식을 제공합니다.

덮어쓰기

덮어쓰기 방법은 중복된 데이터가 발견되면, 이전 데이터를 없애고 마지막 데이터를 보존하는 방법입니다. 예를 들어 고객 ID와 구매량 데이터가 있을때 고객 ID가 중복된다면, 이 중복된 데이터 중에서 가장 마지막 열의 데이터 만이 유지되고 이전 데이터는 제거됩니다.

덮어쓰기 예시

가정: 고객별 구매량 데이터를 담은 CSV 파일이 주어졌으며, 해당 데이터를 저장할때 덮어쓰기 방식을 사용합니다.

덮어쓰기 기능을 선택했을 때 ID_001이 두개의 행이 존재하여 아래와 같이 마지막 행만 남게 됩니다.

합산

합산 방법은 앞서 정의한 열 속성의 dimension을 기준으로 중복된 데이터가 발생했을 때 값을 더하는 방식입니다. 예를 들어 매출 데이터가 같은 기간에 여러건 들어올 경우, 그 기간 동안의 매출을 모두 더해서 하나의 값을 유지하는 방식입니다.

합산 예시

가정: 날짜별 매출 데이터를 담은 CSV 파일이 주어졌으며, 해당 데이터를 저장할때 합산 방식을 사용합니다.

합산 방식을 사용하면 날짜 dimension 기준으로 '2023-01-01', '2023-01-02' 가 각각 2개의 행이므로 매출이 아래와 같이 합산됩니다.

ReFit 은 기본적으로 단일 파일 내 데이터는 합산, 파일 - DB 데이터는 덮어쓰기 방식을 권장하고 있습니다.

데이터 확인

행 제외, 열 속성 정의 규칙을 설정하여 생성된 데이터와 원본 데이터(CSV) 를 비교하여 확인 한 후 설정을 확정합니다.

따라해보세요!😎

Last updated