Data Engineer là gì

   Giới thiệu đôi chút

Ngày trước khi mới bước chân ra khỏi trường đại học đi làm, tôi chỉ mới nghe đến vài vị trí công việc như. Developer, System, Coder, Tester, Network…

 

Thời gian gần đây, dạo quanh thị trường tuyển dụng, lại hay nghe đến 1 số vị trí khá hay ho như: Data Scientist, Data Analytics và … Data Engineer.

 

Sau khi nghiên cứu vai trò của cái job Data Engineer này 1 thời gian, xem cụ thể nó là làm về cái gì, thì tôi bỗng nhận ra: Ồ, tôi là một Data Engineer mà bao lâu nay tôi không hề biết :))

 

Bản thân tôi khi mới ra trường là làm ở vị trí người quản trị cơ sở dữ liệu (Database Administrator – DBA).

 

Mô tả 1 chút về cái nghề DBA này. Bạn hình dung: Dữ liệu của 1 công ty luôn luôn tăng trưởng. Khi dữ liệu còn nhỏ, chưa có nhiều vấn đề với nó lắm. Hay các vấn đề vẫn còn ở mức chấp nhận được thì công việc quản lý dữ liệu vẫn có thể giao cho 1 chú System Admin hoặc thậm chí Developer đảm đương được.

 

Tuy nhiên khi dữ liệu đã lớn (thế nào gọi là lớn thì cũng không có ranh giới rõ ràng), nhiều vấn đề sẽ phát sinh. Ví dụ như quy hoạch dữ liệu thế nào cho hợp lý, chỗ nào là dữ liệu hot hay warm hay cold, phân quyền dữ liệu thế nào cho chặt chẽ…

 

Đặc biệt là các vấn đề liên quan đến hiệu năng của hệ thống. Lúc này sẽ cần đến 1 ông chuyên môn để quản lý, chăm sóc cơ sở dữ liệu.

 

Đại loại là, công ty cũng phải to to một chút thì mới đẻ ra cái ông DBA này.

 

Đó, và xuất phát điểm tôi là một người DBA – Quản trị Cơ sở dữ liệu.

Đọc thêm  Các công việc của một Database Administrator - DBA

   Data Engineer là gì

Quay lại chủ đề chính của bài viết, vậy nghề Data Engineer là gì?

 

Search google 1 lúc tôi thấy có bài này khá dễ hiểu

What is Data Engineering and Why Is It So Important?

 

The key to understanding what data engineering lies in the “engineering” part.  Engineers design and build things. “Data” engineers design and build pipelines that transform and transport data into a format wherein, by the time it reaches the Data Scientists or other end users, it is in a highly usable state.

 

Tạm dịch là:

 

Cốt lõi của Data Engineer nằm ở thuật ngữ “Engineer”. Engineer thiết kế và xây dựng mọi thứ. Data Engineer thiết kế và xây dựng các đường ống để vận chuyển và biến đổi dữ liệu vào 1 định dạng nào đó. Từ đó có thể để Data Scientist hoặc end user sử dụng dễ dàng

 

Ồ, nghe có vẻ quen thuộc… Mà khoan, đó chẳng phải là những cái tôi đang làm hay sao!!

 

Công việc của tôi cũng là xây dựng các database, thiết kế các đường ống dữ liệu để dữ liệu từ các nguồn (web, API, Database, …). Rồi từ đó đổ dữ liệu vào 1 chỗ (bằng các công cụ ETL như Goldengate, ODI, Pentaho).

 

Chắc không phải chỉ có vậy chứ, tiếp tục tìm hiểu, tôi tìm thấy 1 đống các skill cần thiết để làm cái nghề này. Tôi cũng tìm được 1 cái hình khá hay như sau:

 

data engineer là gì

Các kỹ năng của Data Engineer

Như các bạn thấy, cái Data Engineer nó có khá nhiều điểm tương đồng với những Software Engineer và Data Scientist,. Đó là kỹ năng lập trình trên các ngôn ngữ Python, Java hay Kỹ năng phân tích dữ liệu. Tuy nhiên các kỹ năng để phân biệt hẳn 1 ông là Data Engineer với các ông khác. Đó là:

 

   Kỹ năng xây dựng Database (RDBMS, NoSQL, Data Warehouse…)ư

   Kỹ năng làm việc với Database (cả RDBMS và Big Data)

   Kỹ năng ETL

 


   Tóm lại về Data Engineer

 

Nếu bạn hình dung dữ liệu nhiều như nước, nước thì xuất phát từ rất nhiều nguồn. Vậy thì ông Data Engineer là ông đào 1 cái hồ để tập trung các nguồn nước đó lại về 1 chỗ. (Data Lake hoặc Data Warehouse). Ông ấy cũng phải khơi thông kênh rạch hay đào thêm cống để dẫn nước vào (ETL – Extract Transform Load)

 

 

Sau khi cái hồ dữ liệu đã thành hình rồi thì các ông khác muốn khai thác nó mới có thể nhảy vào. Ông muốn xây Resort, ông thì muốn nuôi cá, hay đơn giản có ông chỉ muốn vào uống nước thôi :))) –> Đây chính là các ông Data Scientist, Data Analyst.

 

Đơn giản phải không nào 😀

 

   Hãy tham gia group “Kho tài liệu kiến thức database” để cùng học hỏi và chia sẻ nhé.

   Tặng bạn khoá học “Linux thật là đơn giản” hoàn toàn miễn phí. Khoá học này sẽ giúp bạn nắm được các kiến thức quan trọng nhất để học tập các kỹ năng cao hơn về Database.

Nguồn: https://dangxuanduy.com/

 

Xin cho tôi được biết, bạn cảm thấy bài viết này như thế nào? Ý kiến của bạn sẽ giúp tôi nâng cao chất lượng bài viết của mình.

    Hãy chia sẻ bài viết này nếu bạn thấy có ích nhé
    0 0 votes
    Article Rating
    Subscribe
    Notify of
    guest
    0 Comments
    Inline Feedbacks
    View all comments