Các câu hỏi phỏng vấn Hive (part 2)

Phần tiếp theo của bộ 50 câu hỏi phỏng vấn về Hive:

Khi bạn trỏ một phân vùng của một bảng hive tới một thư mục mới, điều gì sẽ xảy ra với dữ liệu?

Dữ liệu sẽ ở vị trí cũ. Nó phải được di chuyển bằng tay

Viết một query để chèn một cột (new_col INT) vào một bảng hive (htab) tại một vị trí trước của một cột đang tồn tại (x_col)

ALTER TABLE table_name
CHANGE COLUMN new_col  INT
BEFORE x_col

Việc lưu trữ các bảng Hive có tiết kiệm không gian trong HDFS không?

Không, nó chỉ giảm số lượng files giúp namenode dễ quản lý hơn.

Làm thế nào để dừng một partition form được truy vấn ?

Bằng cách sử dụng mệnh đề ENABLE OFFLINE với ALTER TABLE

Trong khi load dữ liệu vào một bảng hive sử dụng LOAD DATA, cách để xác định nếu nó là một hdfs file hoặc không phải một file local?

Bằng cách bỏ qua LOCAL CLAUSE trong câu lệnh LOAD DATA.

Nếu bạn bỏ qua OVERWRITE trong khi tạo một bảng Hive, điều gì xảy đến với file mới, và điều gì xảy đến với file đang tồn tại?

Những file mới vừa được thêm vào thư mục mục tiêu và những file đang tồn tại được overwrite. Những file khác có tên không khớp với những file mới sẽ vẫn tồn tại. Nếu bạn thêm OVERWRITE thì tất cả những dữ liệu đang tồn tại trong thư mục sẽ bị xóa trước khi dữ liệu mới được ghi.

Những câu query sau làm nhiệm vụ gì?

INSERT OVERWRITE TABLE employees
PARTITION (country, state)
SELECT ..., se.cnty, se.st
FROM staged_employees se;

Nó tạo phân vùng trên bảng employees với giá trị phân vùng đến từ cột trong mệnh đề select. Nó được gọi là Chèn phân vùng động.

Bảng tạo Hàm trong hive là gì?

Bảng tạo hàm là một hàm lấy một cột như một tham số và mở rộng nó ra nhiều hàng hoặc cột. Ví dụ như explode()

Làm thế nào để Hive tránh mapredure?

Nếu chúng ta set giá trị hive.exec.mode.local.auto thành true thì hive sẽ tránh mapredure để lấy kết quả truy vấn.

Khác biệt giữa toán tử LIKE và RLIKE trong Hive?

Toán tử LIKE thực hiện giống cách mà toán tử SQL thông thường sử dụng trong truy vấn select.

Ví dụ: stress_name like '%Chi' Nhưng toán tử RLIKE sử dụng biểu thức chính quy nâng cao có sẵn trong java

Ví dụ: stress_name RLIKE '.*(Chi|Oho).*' sẽ select bất kì từ nào mà có chi hoặc oho trong nó.

Có khả năng tạo Cartesian join 2 bảng sử dụng Hive được không?

Không. Vì kiểu join này không thể thực hiện trong mapreduce

Là một phần của Tối ưu hóa các truy vấn trong HIve, thứ tự của kích thước bảng trong một truy vấn nối là bao nhiêu?

Trong một truy vấn nối, bảng nhỏ nhất sẽ được lấy ở vị trí đầu tiên và bảng lớn nhất sẽ được lấy ở vị trí cuối cùng.

Tính hữu ích của mệnh đề DISTRIBUTED BY trong Hive là gì?

Nó kiểm soát map đầu ra được giảm trong số các bộ giảm. Nó hữu ích trong trường hợp truyền dữ liệu

Hãy convert string '51.2' thành một giá trị float trong cột price

Select cast(price as FLOAT)

Kết quả khi cast(‘abc’ as INT)

NULL

Có thể đặt tên một view giống với tên của một bảng Hive được không?

Không. Tên của một view bắt buộc là duy nhất khi so sánh với tất cả các bảng và view khác trong cùng một database.

Có thể  LOAD dữ liệu vào một view được không?

Không. một view không thể là mục tiêu của một câu lệnh INSERT hay LOAD

Những loại chi phí nào liên quan đến việc tạo chỉ mục trên bảng hive?

Các chỉ mục chiếm không gian và có một chi phí xử lý trong việc sắp xếp các giá trị của cột mà chỉ mục được kết thúc.

Đưa ra câu lệnh command để xem các chỉ mục trên bảng Hive?

SHOW INDEX ON table_name

Câu lệnh này sẽ list tất cả các chỉ mục được tạo trên bất kì cột nào trên bảng table_name

Bucketing là gì?

Các giá trị trong một cột được băm thành một số nhóm do người dùng xác định. Đó là một cách để tránh quá nhiều phân vùng hoặc phân vùng lồng nhau mà vẫn đảm bảo tối ưu hóa kết quả truy vấn.

/*streamtable(table_name)*/ thực hiện gì?

Nó là một gợi ý truy vấn: truyền một bảng vào bộ nhớ trước khi chạy truy vấn. Đó là một Kỹ thuật tối ưu hóa truy vấn.

Một phân vùng có thể được lưu trữ? Ưu điểm và Nhược điểm là gì?

Có. Một phân vùng có thể được lưu trữ. Lợi ích là giảm số lượng file được lưu trữ trong namenode và những file được lưu trữ có thể được truy vấn sử dụng Hive. Tác hại là nó có thể khiến truy vấn kém hiệu quả hơn và không thể tiết kiệm dung lượng.

UDF chung trong Hive là gì?

Nó là một UDF được tạo bằng cách sử dụng một chương trình java để phục vụ một số nhu cầu cụ thể không được đề cập trong các chức năng hiện có trong Hive. Nó có thể phát hiện loại đối số đầu vào theo chương trình và cung cấp phản hồi thích hợp.

Câu lệnh sau bị lỗi khi thực thi. Nguyên nhân có thể là gì?
LOAD DATA LOCAL INPATH ‘${env:HOME}/country/state/’
OVERWRITE INTO TABLE address;

Đường dẫn cục bộ phải chứa một tệp chứ không phải một thư mục. ${env:HOME} là một biến hợp lệ có sẵn trong môi trường Hive.

Làm cách nào để bạn chỉ định tên người tạo bảng khi tạo bảng trong Hive?

Mệnh đề TBLPROPERTIES được sử dụng để thêm tên người tạo trong khi tạo bảng.

Mệnh đề TBLPROPERTIES được thêm vào như sau: TBLPROPERTIES(‘creator’= ‘Joan’)

Giới thiệu về Aerospike - Phần 1

Airflow và ETL/ELT sinh ra là để cho nhau

Spark - Distributed ML model with Pandas UDFs

Một số câu lệnh cmd HDFS trong ngôn ngữ Hive

Introduction to Hadoop and Spark: Basic Concepts and Hands-On Experience Recap

Chế độ dữ liệu của Cassandra

Apache Kafka - Producer - Gửi message đến Kafka bằng kafka-python

Các câu hỏi phỏng vấn Hive (part 2)

Xử lý luồng dữ liệu trong Apache Kafka và Apache Flink