research@theseattledataguy.com November 11, 2020 data science 0
규모에 관계없이 모든 기업이 자사 제품, 전략 및 보고에 데이터 과학 및 기계 학습을 구현하는 방안을 검토하고 있다.
그러나 기업이 데이터 과학 팀을 관리하기 시작하면서 팀이 직면하는 많은 과제와 비효율성이 있다는 것을 금방 깨닫게 된다.
지나치게 언급된 “데이터 과학자가 가장 섹시한 직업”이라는 기사가 나온지 거의 10년이 지났지만, 데이터 과학자의 업무 속도를 떨어뜨리는 비효율성은 여전히 많다.
데이터 과학자들은 여전히 부서 전반에 걸쳐 동료들과 협업하고 소통하기 위해 노력하고 있다. 또한 기업 내부의 데이터 소스가 폭발적으로 증가하면서 데이터 거버넌스 관리가 더욱 어려워졌다. 마지막으로, 일부 회사에서는 일관성 있고 합의된 프로세스가 없기 때문에 팀이 같은 입장을 취하기가 어려운 경우가 많이 발생한다.
이 모든 고통을 해결할 수 있다. 데이터 과학 팀의 효율성을 높이는 데 도움이 될 수 있는 툴과 모범 사례가 있다. 이 기사에서는 이러한 문제와 귀사가 데이터 과학 팀의 결과를 최적화할 수 있도록 귀사 팀이 직면한 문제에 접근하는 방법에 대해 설명한다.
협업 및 커뮤니케이션
협업과 커뮤니케이션은 모든 기술 팀에서 해결해야 할 과제로 남아 있습니다. 이것이 대부분의 신속한 변화를 위한 방법론들이 어떤 형태의 독립 회의와 다른 형태의 투명한 의사소통을 가지고 있는 이유입니다. 하지만 소통과 협업에 있어서 스탠드업 미팅만으로는 충분하지 않다.
커뮤니케이션
기술관련 프로젝트 업무를 진행할 때 의사소통은 매우 중요하다. 백엔드 팀과 프런트 엔드 팀을 관리하는 사람이라면 누구나 다양한 구성 요소와 조각을 올바르게 조립하는 것이 얼마나 어려운 일인지 알 수 있다.
이와 같은 문제가 데이터 과학자들에게도 발생한다. 데이터 엔지니어나 이해당사자와 커뮤니케이션할 때 오해가 발생할 수 있는 기회는 많다. 이러한 문제들 중 다수는 투명성 부족뿐만 아니라 관점과 목표의 일반적인 차이 때문에 발생한다.
협업
협업은 기업의 모범 사례를 공유하는 데 도움이 되기 때문에 데이터 과학 모범 사례의 또 다른 중요한 측면이다. 이것은 많은 데이터 과학자들에게 지난 10년 동안 도전이었다. 왜냐하면 그들의 작업은 종종 공유된 팀 폴더에 저장되었기 때문이다.
일부 데이터 과학자의 또 다른 어려움은 보다 협업적인 환경에서 버전 제어를 관리하는 것이다. 점점 더 많은 개발자와 데이터 과학자들이 같은 코드 조각과 주피터 노트북에서 상호작용하면서, 누가 왜 변경했는지 추적하기가 어려워지고 있다.
이것은 결국 되돌리고 싶지만 무엇을 했는지 기억하지 못하는 편집을 하게 되면 혼란을 야기할 수 있다.
Solution
이에 대응하여 데이터 과학 팀이 협업 및 커뮤니케이션을 보다 효과적으로 관리할 수 있도록 많은 기업들이 생겨났다. 특히 두 개가 눈에 띈다.
Domino Data Lab 및 Saturn Cloud.
두 제품 모두 여러 면에서 다소 비슷한 기능을 제공한다. 두 제품 중에서 Domino Data Lab는 훨씬 더 엔터프라이즈 중심적이고 기능이 풍부한 제품을 보유하고 있다.
데이터 과학자들이 Jupyter 노트북을 더 잘 추적, 공유 및 관리할 수 있도록 돕는 데 중점을 두기 시작했다.
두 제품 모두 자동 버전 제어 기능을 제공하므로 데이터 과학자들이 노트북의 변경 사항을 매우 쉽게 롤백할 수 있다. 특히 이 기능은 모델 및 연구 협업 시 큰 도움이 됩니다. 팀 구성원은 모두 자신의 노트북과 모델을 업데이트할 수 있으며 워크플로우를 망치는 변경 사항을 적용할 걱정을 하지 않아도 된다.
이러한 모든 기능은 협업을 용이하게 함으로써 데이터 과학자의 효율성을 획기적으로 향상시킬 수 있다.
데이터 거버넌스 및 데이터 계보 개선
충분한 관심을 받지는 못하지만 데이터 거버넌스에서 가장 중요한 주제 중 하나일 것이다. 문제는 데이터 거버넌스가 섹시하지 않다는 것이다. 가용 데이터, 데이터 출처, 담당자를 규제하는 것이 핵심이다.
데이터 거버넌스에는 여러 가지 측면이 있다.
BARC(Business Application Research Center)에 따르면 조직의 주요 데이터 거버넌스 목표는 데이터의 가치를 높이고, 데이터 사용에 대한 내부 규칙을 수립하고, 컴플라이언스 요구사항을 이행하는 것이어야 한다. 데이터 거버넌스는 데이터의 가용성, 유용성, 무결성 및 보안을 관리하는 데 집중된다.
데이터 거버넌스는 데이터 과학자가 데이터의 출처를 파악하고 신뢰할 수 있는지 여부를 파악하는 데 도움이 되기 때문에 중요하다. 요즘 기업들은 모든 시스템이 다른 모든 시스템과 통합되기 때문에 어디에서나 데이터가 거의 없다는 것이 힘든 일이다.
Solution
결과적으로, 어떤 데이터가 가장 최신이고 어떤 데이터가 진실의 근원인지 구별하기 어려울 수 있다. 여기서 데이터 거버넌스/리니지 툴이 유용하게 사용된다. Talend의 TreeSchema와 같은 도구, 특히 Talend의 데이터 리니지 도구이다.
TreeSchema와 같은 도구는 자동으로 팀의 다양한 데이터 소스를 긁어내어 누가 어떤 테이블을 소유하고 있는지, 데이터의 스키마는 무엇인지, 데이터는 어디서 왔는지와 같은 메타데이터를 보다 효과적으로 추적할 수 있도록 도와준다.
TreeSchema는 데이터의 출처를 추적하는 데 도움이 될 뿐만 아니라, 데이터의 변경 사항 및 잘못된 데이터 관행을 추적하는 데도 도움이 된다.
예를 들어 테이블에 새 데이터 원본 또는 필드를 추가한다고 가정하자. 일반 회사에서는 새 데이터 개체가 생성되지만 다른 사용자가 해당 데이터가 무엇인지 알 수 있는 문서가 없을 수 있다. 문서가 있는 경우 일부 공유 폴더 또는 SharePoint 사이트에 있을 수 있다. 대신 TreeSchema를 사용하면 데이터 문서를 중앙 집중화하고 문서에 구멍이 있을 때 업데이트를 받을 수 있다. 이것은 아래 사진에서 볼 수 있다.
팀의 데이터 거버넌스를 관리하기 위한 중앙 집중식 솔루션을 갖추면 데이터 과학자들이 모든 열의 의미를 파악하기 위해 데이터 엔지니어를 따라다니는데 너무 많은 시간을 할애하지 않아도 된다.
데이터 과학 프로세스 정의
데이터 과학은 여전히 상대적으로 새로운 분야이기 때문에 새로운 데이터 과학자들이 따를 수 있는 구체적인 프로세스와 방법론은 많지 않다. 소프트웨어에는 소프트웨어 개발자가 아이디어에서 제품으로 전환하는 과정을 명확히 하는 Scrum과 Waterfall과 같은 개념이 있다.
데이터 과학에서, 이러한 개념의 완성도가 떨어진다. 탐사 데이터 분석(EDA)과 같은 일반적인 아이디어들이 있다. 하지만 완전히 구체적인 것은 아무것도 없다. 저는 첫 직장에서 목표가 무엇인지, 언제 일이 완료되었는지에 대한 명확한 지침이 없는 프로젝트를 막 받았을 때 이런 과정이 부족했던 경험을 했다.
솔루션
이러한 혼동을 피하기 위해 데이터 과학 팀은 질문에서 답변으로 어떻게 진행될 것인지에 대한 일반적인 프로세스를 수립해야 한다. 데이터 과학은 소프트웨어 개발이 아니기 때문에 귀사팀의 데이터 과학 프로세스는 대부분의 소프트웨어 개발 프로세스만큼 엄격해서는 안 된다고 생각한다. 분석을 수행하거나 모델을 개발하는 경우 정의된 목적은 적다.
대신, 대부분의 데이터 과학 프로세스는 팀이 현재 답변하려는 질문에 집중하고 너무 많은 토끼 굴에 말려들지 않도록 하는 데 초점을 맞출 수 있다.
많은 과학자들이 동의하는 것 같은 과정의 일반적인 윤곽이 몇 가지 있다. 이는 데이터 수집, 데이터 정리, EDA, 통합 및 결론, 모델 개발 및 모델 구축이다.
이러한 각 단계는 데이터 과학자가 목표를 더 잘 정의하고 각 단계가 완료되면 알 수 있도록 도와줍니다.
예를 들어, 이론상의 EDA는 영원히 지속될 수 있다. 분석가는 모든 구체적인 사실과 수치를 계속 분석할 수 있다. 이것은 프로젝트를 추진하는 데 도움이 되지 않는다.
그렇기 때문에 EDA에 대한 일부 경계를 정의하는 것이 유리하다. 그게 시간 문제든 답할 질문들이든… 두 가지 모두 데이터 과학자와 분석가가 데이터에서 너무 많은 것을 잃지 않도록 경계를 제공한다.
Chanin Nantasenamat은 데이터 과학 프로세스에서 이 프로세스를 시각적으로 잘 보여주고 있다. 데이터 과학의 표준 절차에 대한 시각적 가이드이다. 결론과 통합 단계를 건너뛴다. 하지만 비주얼은 좋은 관점을 제공한다.
결론
데이터 과학은 보편화되었다. 말하자면, 데이터 과학 팀, 툴 및 전략은 구현하기가 쉽지 않다.
회사의 규모에 관계없이 데이터 과학 팀은 효율성을 개선할 수 있다. 커뮤니케이션 및 협업을 개선하고, 데이터를 알고 신뢰하며, 데이터 분석 프로세스에 대한 일반적인 지침을 마련함으로써 이러한 작업을 수행할 수 있다. 이러한 세 가지 영역을 개선하면 중복, 불필요한 작업 및 신뢰할 수 없는 결과를 줄일 수 있다. 이러한 성장 기회의 대부분은 적절한 툴 및/또는 프로세스를 찾고 데이터 과학자가 해당 툴 및 프로세스의 사용에 적응할 수 있도록 지원함으로써 구현될 수 있다.
데이터 과학이 항상 어려울 필요는 없다. 더 정의된 경로를 제공하는 데 도움이 된다면 말이다.
댓글 없음:
댓글 쓰기