Databricks Certified Professional Data Engineer Exam (Databricks-Certified-Professional-Data-Engineer Korean Version) - Databricks-Certified-Professional-Data-Engineer Korean 시험문제 [2026]

문제1
의료 분석 팀이 환자 진료 분석을 위해 Delta Lake에 차원 모델을 구현하고 있습니다.
그들은 날짜 차원 테이블을 가지고 있으며, 다양한 시간 기반 분석을 지원할 수 있도록 설계 옵션을 평가하고 있습니다.
시간 기반 쿼리 및 집계를 효율적으로 지원하려면 날짜 차원에 대해 어떤 설계 접근 방식을 취해야 할까요?

A. 회계 기간, 분기, 월, 요일, 휴일 등의 속성을 미리 계산합니다.

B. 서로 다른 달력 시스템(회계연도, 학사연도 등)에 대해 별도의 차원 테이블을 생성합니다.

C. 가독성을 위해 날짜를 YYYY-MM-DD 형식의 문자열로 저장합니다.

D. 날짜 값만 저장하고 쿼리에서 모든 시간 속성을 동적으로 계산합니다.

정답: A

설명: (KoreaDumps 회원만 볼 수 있음)

문제2
데이터 엔지니어링 팀이 기존 하둡 플랫폼에서 새로운 플랫폼으로 마이그레이션을 진행하고 있습니다. 이 과정의 일환으로 성능 비교를 위해 스토리지 포맷을 평가하고 있습니다. 기존 플랫폼은 ORC 및 RCFile 포맷을 사용합니다.
일부 데이터를 Delta Lake로 변환한 후 쿼리 성능이 크게 향상된 것을 확인했습니다. 조사 결과, Delta Lake 테이블에서 데이터를 읽는 쿼리는 셔플 해시 조인(Shuffle Hash Join)을 활용하는 반면, 기존 형식의 데이터에서 쿼리는 정렬 병합 조인(Sort Merge Join)을 사용하는 것으로 나타났습니다. 또한 Delta Lake 데이터를 읽는 쿼리는 스캔하는 데이터 양도 더 적었습니다.
쿼리 성능 차이의 원인은 무엇일까요?

A. Delta Lake는 벡터화된 Parquet 리더를 사용하여 데이터 건너뛰기 및 파일 정리를 지원합니다.

B. ORC 테이블에 대한 쿼리는 동적 데이터 건너뛰기 최적화는 활용했지만 동적 파일 가지치기 최적화는 활용하지 않았습니다.

C. Delta Lake 테이블에 대한 쿼리는 동적 파일 가지치기 최적화를 활용할 수 있었습니다.

D. 셔플 해시 조인은 정렬 병합 조인보다 항상 더 효율적입니다.

정답: A

설명: (KoreaDumps 회원만 볼 수 있음)

문제3
Databricks CLI는 job_id 매개변수를 전달하여 기존 작업을 실행하는 데 사용됩니다. 작업 실행 요청이 성공적으로 제출되었음을 나타내는 응답에는 run_id 필드가 포함됩니다. 이 필드 옆에 있는 숫자가 무엇을 나타내는지 설명하는 문장은 무엇입니까?

A. 이 워크스페이스에서 작업 정의가 실행된 횟수입니다.

B. 새로 시작된 실행의 전역적으로 고유한 ID입니다.

C. 작업 ID와 작업 실행 횟수를 연결하여 반환합니다.

D. 이 필드에 job_id가 반환됩니다.

정답: B

설명: (KoreaDumps 회원만 볼 수 있음)

문제4
Databricks CLI가 올바르게 설치 및 구성되었다고 가정할 때, 프로덕션 작업에서 사용하기 위해 DBFS로 마운트된 객체 스토리지에 사용자 지정 Python Wheel을 업로드하는 데 사용할 수 있는 Databricks CLI 명령은 무엇입니까?

A. 작업 공간

B. 일자리

C. 도서관

D. fs

E. 구성

정답: C

설명: (KoreaDumps 회원만 볼 수 있음)

문제5
user_ltv라는 이름의 테이블은 여러 팀의 데이터 분석가들이 사용할 뷰를 생성하는 데 사용되고 있습니다.
워크스페이스의 사용자들은 그룹으로 구성되며, 이 그룹은 ACL을 사용하여 데이터 접근 권한을 설정하는 데 사용됩니다.
user_ltv 테이블은 다음과 같은 스키마를 가지고 있습니다.
이메일 문자열, 나이 정수, 장기 고객 기간 정수
다음 뷰 정의가 실행됩니다.

마케팅 그룹 소속이 아닌 분석가가 다음과 같은 쿼리를 실행합니다.
SELECT * FROM email_ltv
다음 중 이 쿼리의 결과를 가장 잘 설명하는 문장은 무엇입니까?

A. 이메일 및 LTV 열에는 사용자 ITV 값이 반환됩니다.

B. 이메일, 나이, LTV 열은 사용자 LTV 값과 함께 반환됩니다.

C. 이메일과 ITV 열만 반환되며, 이메일 열에는 모든 값이 null로 표시됩니다.

D. 세 개의 열이 반환되지만, 그중 한 열은 "삭제됨"이라는 이름으로 표시되고 null 값만 포함됩니다.

E. 이메일과 LTV 열만 반환됩니다. 이메일 열의 각 행에는 "REDACTED" 문자열이 포함됩니다.

정답: E

설명: (KoreaDumps 회원만 볼 수 있음)

문제6
DLT 파이프라인에는 다음과 같은 스트리밍 테이블이 포함됩니다.
Raw_lot은 심박수 추적 장치에서 원시 장치 측정 데이터를 수집합니다.
Bgm_stats는 raw_lot의 BPM 측정값을 기반으로 사용자 통계를 점진적으로 계산합니다.
데이터 엔지니어는 파이프라인 업데이트 실행 시 하위 테이블을 다시 계산하는 동안 raw_iot 테이블에서 수동으로 삭제되거나 업데이트된 레코드를 유지할 수 있도록 이 파이프라인을 어떻게 구성해야 할까요?

A. bpm_stats에서 파이프라인, 재설정, 허용 속성을 false로 설정합니다.

B. SkipChangeCommits 플래그를 true로 설정 raw_lot

C. raw_iot에서 파이프라인, 재설정, 허용 속성을 false로 설정합니다.

D. bpm_stats에서 skipChangeCommits 플래그를 true로 설정하세요

정답: C

설명: (KoreaDumps 회원만 볼 수 있음)

문제7
다음 코드는 기존 워크로드에서 Databricks 노트북으로 마이그레이션되었습니다.

코드는 성공적으로 실행되어 논리적으로 올바른 결과를 제공하지만, 약 1GB의 데이터를 추출하고 불러오는 데 20분 이상이 소요됩니다.
다음 중 이러한 행동에 대한 가능한 설명은 무엇입니까?

A. Databricks 환경에서 Python은 항상 Scala보다 느리게 실행됩니다. run.py 스크립트를 Scala로 리팩토링해야 합니다.

B. %sh는 파일 이동 작업을 분산 처리하지 않습니다. 마지막 코드 줄을 %fs를 사용하도록 업데이트해야 합니다.

C. %sh는 Git을 수집 및 설치하기 위해 클러스터 재시작을 트리거합니다. 지연 시간의 대부분은 클러스터 시작 시간과 관련이 있습니다.

D. 클론하는 대신, `%sh pip install` 명령어를 사용하여 Python 코드가 클러스터의 모든 노드에서 병렬로 실행될 수 있도록 해야 합니다.

E. %sh는 드라이버 노드에서 셸 코드를 실행합니다. 이 코드는 워커 노드나 Databricks 최적화 Spark의 이점을 활용하지 않습니다.

정답: E

설명: (KoreaDumps 회원만 볼 수 있음)

문제8
필요한 모듈을 찾을 때 검색할 디렉터리 목록을 담고 있는 파이썬 변수는 무엇입니까?

A. ,sys.path

B. os-path

C. pylib.source

D. pypi.path

E. importlib.resource 경로

정답: A

문제9
데이터 엔지니어는 워크스페이스에 있는 기존 파이프라인의 설정을 가져와서 이를 기반으로 JSON 파일을 생성하고 버전 관리하여 새 파이프라인을 만들어야 합니다.
Databricks CLI로 구성된 웹 터미널에서 데이터 엔지니어는 어떤 명령어를 입력해야 합니까?

A. alone 명령어를 사용하여 기존 파이프라인의 복사본을 생성하고, get JSON 명령어를 사용하여 파이프라인 정의를 가져온 다음, 이를 Git에 저장합니다.

B. get 명령어를 사용하여 기존 파이프라인의 설정을 가져옵니다. pipeline_id를 제거하고 파이프라인 이름을 변경한 다음, 이를 create 명령어에 사용합니다.

C. 기존 파이프라인을 중지하고, 반환된 설정을 재설정 명령에 사용합니다.

D. 파이프라인 목록을 사용하여 모든 파이프라인의 사양을 가져옵니다. 반환된 결과를 파싱하여 파이프라인 사양을 가져온 다음, 이를 사용하여 파이프라인을 생성합니다.

정답: B

설명: (KoreaDumps 회원만 볼 수 있음)

문제10
데이터 엔지니어는 Databricks의 Delta 테이블이 삭제된 파일을 지속적으로 보존하도록 하는 임무를 맡았습니다.
조직의 데이터 보존 정책을 준수하기 위해 기본값인 7일 대신 15일 동안 삭제된 파일을 보존하려고 합니다. 다음 코드 조각 중 삭제된 파일의 보존 기간을 올바르게 설정하는 것은 무엇입니까?

A. from delta.tables import *
deltaTable = DeltaTable.forPath(spark, " /mnt/data/my_table " )
deltaTable.deletedFileRetentionDuration = " interval 15 days "

B. spark.conf.set( " spark.databricks.delta.deletedFileRetentionDuration " , " 15 days " )

C. spark.sql( " VACUUM my_table RETAIN 15 HOURS " )

D. spark.sql( " " "
ALTER TABLE my_table
SET TBLPROPERTIES ( ' delta.deletedFileRetentionDuration ' = ' interval 15 days ' )
" " " )

정답: D

설명: (KoreaDumps 회원만 볼 수 있음)

문제11
데이터 엔지니어가 현재 운영 환경에서 사용 중인 여러 Databricks 노트북에 정의된 Python 함수에 대해 일반적인 Python 테스트 프레임워크를 사용하여 단위 테스트를 실행하려고 합니다.
데이터 엔지니어는 실제 운영 환경에서 데이터를 다루는 함수에 대해 어떻게 단위 테스트를 실행할 수 있을까요?

A. 동일한 노트북 내에서 단위 테스트와 함수를 정의합니다.

B. 별도의 Databricks 노트북에서 단위 테스트 함수를 정의하고 가져옵니다.

C. 저장소의 파일을 사용하여 함수를 정의하고 단위 테스트를 수행합니다.

D. 프로덕션 환경과 매우 유사한 비프로덕션 데이터를 사용하여 단위 테스트를 실행합니다.

정답: D

설명: (KoreaDumps 회원만 볼 수 있음)

문제12
데이터 엔지니어가 Databricks의 Lakeflow Declarative Pipelines(LDP)를 사용하여 고객 데이터를 수집하는 간단한 데이터 파이프라인을 구축하고 있습니다. 원시 고객 데이터는 클라우드 스토리지에 JSON 형식으로 저장되어 있습니다. 이 작업은 원시 JSON 데이터를 읽어 추가 처리를 위해 Delta 테이블에 쓰는 Lakeflow Declarative Pipelines를 생성하는 것입니다.
어떤 코드 조각이 원시 JSON 데이터를 올바르게 가져와 LDP를 사용하여 델타 테이블을 생성합니까?

A. import dlt
@dlt.table
def raw_customers():
return spark.read.format( " parquet " ).load( " s3://my-bucket/raw-customers/ " )

B. import dlt
@dlt.table
def raw_customers():
return spark.read.format( " csv " ).load( " s3://my-bucket/raw-customers/ " )

C. import dlt
@dlt.view
def raw_customers():
return spark.format.json( " s3://my-bucket/raw-customers/ " )

D. import dlt
@dlt.table
def raw_customers():
return spark.read.json( " s3://my-bucket/raw-customers/ " )

정답: D

설명: (KoreaDumps 회원만 볼 수 있음)

최신Databricks Certified Professional Data Engineer Exam (Databricks-Certified-Professional-Data-Engineer Korean Version) - Databricks-Certified-Professional-Data-Engineer Korean무료샘플문제

KoreaDumps의 제품으로 GO GO GO !

자격증의 중요성:

KoreaDumps 제품의 가치:

무료샘플 받아보기:

완벽한 서비스 제공: