최신Databricks Certified Professional Data Engineer Exam (Databricks-Certified-Professional-Data-Engineer Korean Version) - Databricks-Certified-Professional-Data-Engineer Korean무료샘플문제
문제1
의료 분석 팀이 환자 진료 분석을 위해 Delta Lake에 차원 모델을 구현하고 있습니다.
그들은 날짜 차원 테이블을 가지고 있으며, 다양한 시간 기반 분석을 지원할 수 있도록 설계 옵션을 평가하고 있습니다.
시간 기반 쿼리 및 집계를 효율적으로 지원하려면 날짜 차원에 대해 어떤 설계 접근 방식을 취해야 할까요?
의료 분석 팀이 환자 진료 분석을 위해 Delta Lake에 차원 모델을 구현하고 있습니다.
그들은 날짜 차원 테이블을 가지고 있으며, 다양한 시간 기반 분석을 지원할 수 있도록 설계 옵션을 평가하고 있습니다.
시간 기반 쿼리 및 집계를 효율적으로 지원하려면 날짜 차원에 대해 어떤 설계 접근 방식을 취해야 할까요?
정답: A
설명: (KoreaDumps 회원만 볼 수 있음)
문제2
데이터 엔지니어링 팀이 기존 하둡 플랫폼에서 새로운 플랫폼으로 마이그레이션을 진행하고 있습니다. 이 과정의 일환으로 성능 비교를 위해 스토리지 포맷을 평가하고 있습니다. 기존 플랫폼은 ORC 및 RCFile 포맷을 사용합니다.
일부 데이터를 Delta Lake로 변환한 후 쿼리 성능이 크게 향상된 것을 확인했습니다. 조사 결과, Delta Lake 테이블에서 데이터를 읽는 쿼리는 셔플 해시 조인(Shuffle Hash Join)을 활용하는 반면, 기존 형식의 데이터에서 쿼리는 정렬 병합 조인(Sort Merge Join)을 사용하는 것으로 나타났습니다. 또한 Delta Lake 데이터를 읽는 쿼리는 스캔하는 데이터 양도 더 적었습니다.
쿼리 성능 차이의 원인은 무엇일까요?
데이터 엔지니어링 팀이 기존 하둡 플랫폼에서 새로운 플랫폼으로 마이그레이션을 진행하고 있습니다. 이 과정의 일환으로 성능 비교를 위해 스토리지 포맷을 평가하고 있습니다. 기존 플랫폼은 ORC 및 RCFile 포맷을 사용합니다.
일부 데이터를 Delta Lake로 변환한 후 쿼리 성능이 크게 향상된 것을 확인했습니다. 조사 결과, Delta Lake 테이블에서 데이터를 읽는 쿼리는 셔플 해시 조인(Shuffle Hash Join)을 활용하는 반면, 기존 형식의 데이터에서 쿼리는 정렬 병합 조인(Sort Merge Join)을 사용하는 것으로 나타났습니다. 또한 Delta Lake 데이터를 읽는 쿼리는 스캔하는 데이터 양도 더 적었습니다.
쿼리 성능 차이의 원인은 무엇일까요?
정답: A
설명: (KoreaDumps 회원만 볼 수 있음)
문제3
Databricks CLI는 job_id 매개변수를 전달하여 기존 작업을 실행하는 데 사용됩니다. 작업 실행 요청이 성공적으로 제출되었음을 나타내는 응답에는 run_id 필드가 포함됩니다. 이 필드 옆에 있는 숫자가 무엇을 나타내는지 설명하는 문장은 무엇입니까?
Databricks CLI는 job_id 매개변수를 전달하여 기존 작업을 실행하는 데 사용됩니다. 작업 실행 요청이 성공적으로 제출되었음을 나타내는 응답에는 run_id 필드가 포함됩니다. 이 필드 옆에 있는 숫자가 무엇을 나타내는지 설명하는 문장은 무엇입니까?
정답: B
설명: (KoreaDumps 회원만 볼 수 있음)
문제4
Databricks CLI가 올바르게 설치 및 구성되었다고 가정할 때, 프로덕션 작업에서 사용하기 위해 DBFS로 마운트된 객체 스토리지에 사용자 지정 Python Wheel을 업로드하는 데 사용할 수 있는 Databricks CLI 명령은 무엇입니까?
Databricks CLI가 올바르게 설치 및 구성되었다고 가정할 때, 프로덕션 작업에서 사용하기 위해 DBFS로 마운트된 객체 스토리지에 사용자 지정 Python Wheel을 업로드하는 데 사용할 수 있는 Databricks CLI 명령은 무엇입니까?
정답: C
설명: (KoreaDumps 회원만 볼 수 있음)
문제5
user_ltv라는 이름의 테이블은 여러 팀의 데이터 분석가들이 사용할 뷰를 생성하는 데 사용되고 있습니다.
워크스페이스의 사용자들은 그룹으로 구성되며, 이 그룹은 ACL을 사용하여 데이터 접근 권한을 설정하는 데 사용됩니다.
user_ltv 테이블은 다음과 같은 스키마를 가지고 있습니다.
이메일 문자열, 나이 정수, 장기 고객 기간 정수
다음 뷰 정의가 실행됩니다.

마케팅 그룹 소속이 아닌 분석가가 다음과 같은 쿼리를 실행합니다.
SELECT * FROM email_ltv
다음 중 이 쿼리의 결과를 가장 잘 설명하는 문장은 무엇입니까?
user_ltv라는 이름의 테이블은 여러 팀의 데이터 분석가들이 사용할 뷰를 생성하는 데 사용되고 있습니다.
워크스페이스의 사용자들은 그룹으로 구성되며, 이 그룹은 ACL을 사용하여 데이터 접근 권한을 설정하는 데 사용됩니다.
user_ltv 테이블은 다음과 같은 스키마를 가지고 있습니다.
이메일 문자열, 나이 정수, 장기 고객 기간 정수
다음 뷰 정의가 실행됩니다.

마케팅 그룹 소속이 아닌 분석가가 다음과 같은 쿼리를 실행합니다.
SELECT * FROM email_ltv
다음 중 이 쿼리의 결과를 가장 잘 설명하는 문장은 무엇입니까?
정답: E
설명: (KoreaDumps 회원만 볼 수 있음)
문제6
DLT 파이프라인에는 다음과 같은 스트리밍 테이블이 포함됩니다.
Raw_lot은 심박수 추적 장치에서 원시 장치 측정 데이터를 수집합니다.
Bgm_stats는 raw_lot의 BPM 측정값을 기반으로 사용자 통계를 점진적으로 계산합니다.
데이터 엔지니어는 파이프라인 업데이트 실행 시 하위 테이블을 다시 계산하는 동안 raw_iot 테이블에서 수동으로 삭제되거나 업데이트된 레코드를 유지할 수 있도록 이 파이프라인을 어떻게 구성해야 할까요?
DLT 파이프라인에는 다음과 같은 스트리밍 테이블이 포함됩니다.
Raw_lot은 심박수 추적 장치에서 원시 장치 측정 데이터를 수집합니다.
Bgm_stats는 raw_lot의 BPM 측정값을 기반으로 사용자 통계를 점진적으로 계산합니다.
데이터 엔지니어는 파이프라인 업데이트 실행 시 하위 테이블을 다시 계산하는 동안 raw_iot 테이블에서 수동으로 삭제되거나 업데이트된 레코드를 유지할 수 있도록 이 파이프라인을 어떻게 구성해야 할까요?
정답: C
설명: (KoreaDumps 회원만 볼 수 있음)
문제7
다음 코드는 기존 워크로드에서 Databricks 노트북으로 마이그레이션되었습니다.

코드는 성공적으로 실행되어 논리적으로 올바른 결과를 제공하지만, 약 1GB의 데이터를 추출하고 불러오는 데 20분 이상이 소요됩니다.
다음 중 이러한 행동에 대한 가능한 설명은 무엇입니까?
다음 코드는 기존 워크로드에서 Databricks 노트북으로 마이그레이션되었습니다.

코드는 성공적으로 실행되어 논리적으로 올바른 결과를 제공하지만, 약 1GB의 데이터를 추출하고 불러오는 데 20분 이상이 소요됩니다.
다음 중 이러한 행동에 대한 가능한 설명은 무엇입니까?
정답: E
설명: (KoreaDumps 회원만 볼 수 있음)
문제8
필요한 모듈을 찾을 때 검색할 디렉터리 목록을 담고 있는 파이썬 변수는 무엇입니까?
필요한 모듈을 찾을 때 검색할 디렉터리 목록을 담고 있는 파이썬 변수는 무엇입니까?
정답: A
문제9
데이터 엔지니어는 워크스페이스에 있는 기존 파이프라인의 설정을 가져와서 이를 기반으로 JSON 파일을 생성하고 버전 관리하여 새 파이프라인을 만들어야 합니다.
Databricks CLI로 구성된 웹 터미널에서 데이터 엔지니어는 어떤 명령어를 입력해야 합니까?
데이터 엔지니어는 워크스페이스에 있는 기존 파이프라인의 설정을 가져와서 이를 기반으로 JSON 파일을 생성하고 버전 관리하여 새 파이프라인을 만들어야 합니다.
Databricks CLI로 구성된 웹 터미널에서 데이터 엔지니어는 어떤 명령어를 입력해야 합니까?
정답: B
설명: (KoreaDumps 회원만 볼 수 있음)
문제10
데이터 엔지니어는 Databricks의 Delta 테이블이 삭제된 파일을 지속적으로 보존하도록 하는 임무를 맡았습니다.
조직의 데이터 보존 정책을 준수하기 위해 기본값인 7일 대신 15일 동안 삭제된 파일을 보존하려고 합니다. 다음 코드 조각 중 삭제된 파일의 보존 기간을 올바르게 설정하는 것은 무엇입니까?
데이터 엔지니어는 Databricks의 Delta 테이블이 삭제된 파일을 지속적으로 보존하도록 하는 임무를 맡았습니다.
조직의 데이터 보존 정책을 준수하기 위해 기본값인 7일 대신 15일 동안 삭제된 파일을 보존하려고 합니다. 다음 코드 조각 중 삭제된 파일의 보존 기간을 올바르게 설정하는 것은 무엇입니까?
정답: D
설명: (KoreaDumps 회원만 볼 수 있음)
문제11
데이터 엔지니어가 현재 운영 환경에서 사용 중인 여러 Databricks 노트북에 정의된 Python 함수에 대해 일반적인 Python 테스트 프레임워크를 사용하여 단위 테스트를 실행하려고 합니다.
데이터 엔지니어는 실제 운영 환경에서 데이터를 다루는 함수에 대해 어떻게 단위 테스트를 실행할 수 있을까요?
데이터 엔지니어가 현재 운영 환경에서 사용 중인 여러 Databricks 노트북에 정의된 Python 함수에 대해 일반적인 Python 테스트 프레임워크를 사용하여 단위 테스트를 실행하려고 합니다.
데이터 엔지니어는 실제 운영 환경에서 데이터를 다루는 함수에 대해 어떻게 단위 테스트를 실행할 수 있을까요?
정답: D
설명: (KoreaDumps 회원만 볼 수 있음)
문제12
데이터 엔지니어가 Databricks의 Lakeflow Declarative Pipelines(LDP)를 사용하여 고객 데이터를 수집하는 간단한 데이터 파이프라인을 구축하고 있습니다. 원시 고객 데이터는 클라우드 스토리지에 JSON 형식으로 저장되어 있습니다. 이 작업은 원시 JSON 데이터를 읽어 추가 처리를 위해 Delta 테이블에 쓰는 Lakeflow Declarative Pipelines를 생성하는 것입니다.
어떤 코드 조각이 원시 JSON 데이터를 올바르게 가져와 LDP를 사용하여 델타 테이블을 생성합니까?
데이터 엔지니어가 Databricks의 Lakeflow Declarative Pipelines(LDP)를 사용하여 고객 데이터를 수집하는 간단한 데이터 파이프라인을 구축하고 있습니다. 원시 고객 데이터는 클라우드 스토리지에 JSON 형식으로 저장되어 있습니다. 이 작업은 원시 JSON 데이터를 읽어 추가 처리를 위해 Delta 테이블에 쓰는 Lakeflow Declarative Pipelines를 생성하는 것입니다.
어떤 코드 조각이 원시 JSON 데이터를 올바르게 가져와 LDP를 사용하여 델타 테이블을 생성합니까?
정답: D
설명: (KoreaDumps 회원만 볼 수 있음)