2024년 8월 25일 일요일

3 Ways To Improve Your Data Science Teams Efficiency

research@theseattledataguy.com November 11, 2020 data science 0

Photo by SpaceX on Unsplash

규모에 관계없이 모든 기업이 자사 제품, 전략 및 보고에 데이터 과학 및 기계 학습을 구현하는 방안을 검토하고 있다.

그러나 기업이 데이터 과학 팀을 관리하기 시작하면서 팀이 직면하는 많은 과제와 비효율성이 있다는 것을 금방 깨닫게 된다.

지나치게 언급된 “데이터 과학자가 가장 섹시한 직업”이라는 기사가 나온지 거의 10년이 지났지만, 데이터 과학자의 업무 속도를 떨어뜨리는 비효율성은 여전히 많다.

데이터 과학자들은 여전히 부서 전반에 걸쳐 동료들과 협업하고 소통하기 위해 노력하고 있다. 또한 기업 내부의 데이터 소스가 폭발적으로 증가하면서 데이터 거버넌스 관리가 더욱 어려워졌다. 마지막으로, 일부 회사에서는 일관성 있고 합의된 프로세스가 없기 때문에 팀이 같은 입장을 취하기가 어려운 경우가 많이 발생한다.

이 모든 고통을 해결할 수 있다. 데이터 과학 팀의 효율성을 높이는 데 도움이 될 수 있는 툴과 모범 사례가 있다. 이 기사에서는 이러한 문제와 귀사가 데이터 과학 팀의 결과를 최적화할 수 있도록 귀사 팀이 직면한 문제에 접근하는 방법에 대해 설명한다.

협업 및 커뮤니케이션

협업과 커뮤니케이션은 모든 기술 팀에서 해결해야 할 과제로 남아 있습니다. 이것이 대부분의 신속한 변화를 위한 방법론들이 어떤 형태의 독립 회의와 다른 형태의 투명한 의사소통을 가지고 있는 이유입니다. 하지만 소통과 협업에 있어서 스탠드업 미팅만으로는 충분하지 않다.

커뮤니케이션

기술관련 프로젝트 업무를 진행할 때 의사소통은 매우 중요하다. 백엔드 팀과 프런트 엔드 팀을 관리하는 사람이라면 누구나 다양한 구성 요소와 조각을 올바르게 조립하는 것이 얼마나 어려운 일인지 알 수 있다.

이와 같은 문제가 데이터 과학자들에게도 발생한다. 데이터 엔지니어나 이해당사자와 커뮤니케이션할 때 오해가 발생할 수 있는 기회는 많다. 이러한 문제들 중 다수는 투명성 부족뿐만 아니라 관점과 목표의 일반적인 차이 때문에 발생한다.

협업

협업은 기업의 모범 사례를 공유하는 데 도움이 되기 때문에 데이터 과학 모범 사례의 또 다른 중요한 측면이다. 이것은 많은 데이터 과학자들에게 지난 10년 동안 도전이었다. 왜냐하면 그들의 작업은 종종 공유된 팀 폴더에 저장되었기 때문이다.

일부 데이터 과학자의 또 다른 어려움은 보다 협업적인 환경에서 버전 제어를 관리하는 것이다. 점점 더 많은 개발자와 데이터 과학자들이 같은 코드 조각과 주피터 노트북에서 상호작용하면서, 누가 왜 변경했는지 추적하기가 어려워지고 있다.

이것은 결국 되돌리고 싶지만 무엇을 했는지 기억하지 못하는 편집을 하게 되면 혼란을 야기할 수 있다.

Solution

data science consulting

이에 대응하여 데이터 과학 팀이 협업 및 커뮤니케이션을 보다 효과적으로 관리할 수 있도록 많은 기업들이 생겨났다. 특히 두 개가 눈에 띈다.

Domino Data Lab 및 Saturn Cloud.
두 제품 모두 여러 면에서 다소 비슷한 기능을 제공한다. 두 제품 중에서 Domino Data Lab는 훨씬 더 엔터프라이즈 중심적이고 기능이 풍부한 제품을 보유하고 있다.

데이터 과학자들이 Jupyter 노트북을 더 잘 추적, 공유 및 관리할 수 있도록 돕는 데 중점을 두기 시작했다.

두 제품 모두 자동 버전 제어 기능을 제공하므로 데이터 과학자들이 노트북의 변경 사항을 매우 쉽게 롤백할 수 있다. 특히 이 기능은 모델 및 연구 협업 시 큰 도움이 됩니다. 팀 구성원은 모두 자신의 노트북과 모델을 업데이트할 수 있으며 워크플로우를 망치는 변경 사항을 적용할 걱정을 하지 않아도 된다.

이러한 모든 기능은 협업을 용이하게 함으로써 데이터 과학자의 효율성을 획기적으로 향상시킬 수 있다.

 

데이터 거버넌스 및 데이터 계보 개선

충분한 관심을 받지는 못하지만 데이터 거버넌스에서 가장 중요한 주제 중 하나일 것이다. 문제는 데이터 거버넌스가 섹시하지 않다는 것이다. 가용 데이터, 데이터 출처, 담당자를 규제하는 것이 핵심이다.

데이터 거버넌스에는 여러 가지 측면이 있다.

BARC(Business Application Research Center)에 따르면 조직의 주요 데이터 거버넌스 목표는 데이터의 가치를 높이고, 데이터 사용에 대한 내부 규칙을 수립하고, 컴플라이언스 요구사항을 이행하는 것이어야 한다. 데이터 거버넌스는 데이터의 가용성, 유용성, 무결성 및 보안을 관리하는 데 집중된다.

데이터 거버넌스는 데이터 과학자가 데이터의 출처를 파악하고 신뢰할 수 있는지 여부를 파악하는 데 도움이 되기 때문에 중요하다. 요즘 기업들은 모든 시스템이 다른 모든 시스템과 통합되기 때문에 어디에서나 데이터가 거의 없다는 것이 힘든 일이다.

Solution

data governance consulting

결과적으로, 어떤 데이터가 가장 최신이고 어떤 데이터가 진실의 근원인지 구별하기 어려울 수 있다. 여기서 데이터 거버넌스/리니지 툴이 유용하게 사용된다. Talend의 TreeSchema와 같은 도구, 특히 Talend의 데이터 리니지 도구이다.

TreeSchema와 같은 도구는 자동으로 팀의 다양한 데이터 소스를 긁어내어 누가 어떤 테이블을 소유하고 있는지, 데이터의 스키마는 무엇인지, 데이터는 어디서 왔는지와 같은 메타데이터를 보다 효과적으로 추적할 수 있도록 도와준다.

TreeSchema는 데이터의 출처를 추적하는 데 도움이 될 뿐만 아니라, 데이터의 변경 사항 및 잘못된 데이터 관행을 추적하는 데도 도움이 된다.

예를 들어 테이블에 새 데이터 원본 또는 필드를 추가한다고 가정하자. 일반 회사에서는 새 데이터 개체가 생성되지만 다른 사용자가 해당 데이터가 무엇인지 알 수 있는 문서가 없을 수 있다. 문서가 있는 경우 일부 공유 폴더 또는 SharePoint 사이트에 있을 수 있다. 대신 TreeSchema를 사용하면 데이터 문서를 중앙 집중화하고 문서에 구멍이 있을 때 업데이트를 받을 수 있다. 이것은 아래 사진에서 볼 수 있다.

팀의 데이터 거버넌스를 관리하기 위한 중앙 집중식 솔루션을 갖추면 데이터 과학자들이 모든 열의 의미를 파악하기 위해 데이터 엔지니어를 따라다니는데  너무 많은 시간을 할애하지 않아도 된다.

 

데이터 과학 프로세스 정의

데이터 과학은 여전히 상대적으로 새로운 분야이기 때문에 새로운 데이터 과학자들이 따를 수 있는 구체적인 프로세스와 방법론은 많지 않다. 소프트웨어에는 소프트웨어 개발자가 아이디어에서 제품으로 전환하는 과정을 명확히 하는 Scrum과 Waterfall과 같은 개념이 있다.

데이터 과학에서, 이러한 개념의 완성도가 떨어진다. 탐사 데이터 분석(EDA)과 같은 일반적인 아이디어들이 있다. 하지만 완전히 구체적인 것은 아무것도 없다. 저는 첫 직장에서 목표가 무엇인지, 언제 일이 완료되었는지에 대한 명확한 지침이 없는 프로젝트를 막 받았을 때 이런 과정이 부족했던 경험을 했다.

솔루션

이러한 혼동을 피하기 위해 데이터 과학 팀은 질문에서 답변으로 어떻게 진행될 것인지에 대한 일반적인 프로세스를 수립해야 한다. 데이터 과학은 소프트웨어 개발이 아니기 때문에 귀사팀의 데이터 과학 프로세스는 대부분의 소프트웨어 개발 프로세스만큼 엄격해서는 안 된다고 생각한다. 분석을 수행하거나 모델을 개발하는 경우 정의된 목적은 적다.

대신, 대부분의 데이터 과학 프로세스는 팀이 현재 답변하려는 질문에 집중하고 너무 많은 토끼 굴에 말려들지 않도록 하는 데 초점을 맞출 수 있다.

많은 과학자들이 동의하는 것 같은 과정의 일반적인 윤곽이 몇 가지 있다. 이는 데이터 수집, 데이터 정리, EDA, 통합 및 결론, 모델 개발 및 모델 구축이다.

이러한 각 단계는 데이터 과학자가 목표를 더 잘 정의하고 각 단계가 완료되면 알 수 있도록 도와줍니다.

예를 들어, 이론상의 EDA는 영원히 지속될 수 있다. 분석가는 모든 구체적인 사실과 수치를 계속 분석할 수 있다. 이것은 프로젝트를 추진하는 데 도움이 되지 않는다.

그렇기 때문에 EDA에 대한 일부 경계를 정의하는 것이 유리하다. 그게 시간 문제든 답할 질문들이든… 두 가지 모두 데이터 과학자와 분석가가 데이터에서 너무 많은 것을 잃지 않도록 경계를 제공한다.

Chanin Nantasenamat은 데이터 과학 프로세스에서 이 프로세스를 시각적으로 잘 보여주고 있다. 데이터 과학의 표준 절차에 대한 시각적 가이드이다. 결론과 통합 단계를 건너뛴다. 하지만 비주얼은 좋은 관점을 제공한다.

결론

데이터 과학은 보편화되었다. 말하자면, 데이터 과학 팀, 툴 및 전략은 구현하기가 쉽지 않다.

회사의 규모에 관계없이 데이터 과학 팀은 효율성을 개선할 수 있다. 커뮤니케이션 및 협업을 개선하고, 데이터를 알고 신뢰하며, 데이터 분석 프로세스에 대한 일반적인 지침을 마련함으로써 이러한 작업을 수행할 수 있다. 이러한 세 가지 영역을 개선하면 중복, 불필요한 작업 및 신뢰할 수 없는 결과를 줄일 수 있다. 이러한 성장 기회의 대부분은 적절한 툴 및/또는 프로세스를 찾고 데이터 과학자가 해당 툴 및 프로세스의 사용에 적응할 수 있도록 지원함으로써 구현될 수 있다.

데이터 과학이 항상 어려울 필요는 없다. 더 정의된 경로를 제공하는 데 도움이 된다면 말이다. 

댓글 없음:

댓글 쓰기

태그

2025년 가열재생방식 가치기반 가치기반학습 가치이터레이션 강화학습 강화학습기초이론 강화학습방법 강화학습종류 개나리 개념 개발업무 최적화 건강 건식전극코팅 검사 검사기 검사장비 검사장비 양산라인 투입 절차 검색엔진최적화 검색키워드 검출율 경쟁력 경험재플레이 고체전해질적용 공부방법 공정간 에너지 흐름 공정내 에너지 절감 기술 과검율 관절 구글검색키워드 군마트 극초박형 셀제조 기계학습 기내반입 기대값 기초용어 나스닥 남녀사랑 냉각시스템 네이버 네이버 검색 키워드 분석 단백질 답변거부능력 더 원씽 덕담 동적계획법 듀얼브레인 드로스 딥시크 레이저노칭 문제점 로봇산업 롤투롤 생산공정 리액트히터 리튬산업 마르코프과정 마르코프의사결정 막걸리 말을 잘하는 방법 멀티 스텝 모델링 메모리 메인내용 메주콩 메주콩파종 멧돌호박 모델기반학습 모델종류 모델프리학습 모듈 모바일 몬테카를로 방법 몬테카를로방법 물류 및 공급망 최적화 물성의 성질 미국 오하이오 미국주가 미국주식 미래기술전망 미래전망 미세플라스틱 미중경쟁 밀도범함수이론 반도체 가격 상승 반사율 방수 배터리 배터리 주요불량 배터리공정 배터리기술 배터리불량 배터리소재 배터리신뢰성 배터리와인공지능 배터리정책 배터리제조 배터리제조신기술 백주 뱀때 버거체인 벨만방정식 병역명문가 보조배터리 보조배터리 기내반입 분석솔루션 불량원인분석 비례적분미분제어 비전 비지도학습 사랑 삼성반도체 새피해 새해인사 새해인사말 생각정리 생각정리기술 생마늘 생산계획 생수 생수페트병 설계최적화 설날인사말 설비고장예측 성심당 성심당온라인 구매 성심당추천빵 셀 스웰링 셀스웰링 셀투팩 소매업 소재개발 소프트뱅크 쇠뜨기 수명예측 수요예측 스마트팩토리 스웰링불량 시간차학습 시계열분석 시뮬레이션 신뢰성 액터-크리틱 양배추 양자컴퓨터 어텐션 어텐션메커니즘 에너지 절감 에너지 절감방법 에너지사용최적화 에너지절감 에너지절감방안 에어드라이어 에피소드 기반 학습 엘지전자 영어 영어 리스닝 예제 오버행불량 오버행불량원인 오프폴리시 온누리상품권 온폴리시 용접 워런버핏 원달러 변화패턴 원달러 환율전망 원엔환율 원인 원자간 상호작용 학습 및 예측 웬디스버거 을사 인간피드백을 통한 강화학습 인공지능 인공지능경쟁 인생 일본금리 일본환율 자발적DR 자이가르닉 효과 장마 재고관리 재생시스템 재활용소재활용 저전압 저축 전자분포 전자의 움직임 전자의분포 전자의움직임 전통시장통통 정식방법 정책기반 정책기반 이터레이션 정책기반학습 정책이터레이션 제사상 제습공조설비 제습효율 제조업 제조에너지절감 제품개발 젠슨황 조합최적화 주식 중국공급과잉 중요샘플링 지도학습 지도학습미세조정 지붕방수 지수평활법 창신메모리테크놀로지 책줄거리 청주 최신배터리기술 최신이슈 최적제어 추정 추천빵 코스모스 콜드 스타트 키워드 분석 탁주 통계적 방법 투자 투자가 투자철학 트럼프2.0 트루시니스 파종 패키징공정 페트병 페트병두께 푸른뱀때 품질관리 피엑스 필요기술 필요지식 하이닉스 학습항목 한국반도체 행복 행위적인공지능 현대차 화합물 물성 확률 효능 효율적인 업무방법 휴머노이드로봇 흡착식 에너 드라이어 흡착식에어드라이어 흡착제 힘의교환 Actor Actor-Critic 강화학습 Actor-Critic학습 Agentic AI AI AI기반품질관리 Air Dryer ARIMA AS재고관리 Attention Attention Algorithm Battery Manufacturing Battery Manufaturing Battery Material Books Books for Beginners to Learn About LLM CATL Cell to Pack confusion matrix Critic CTC CTP CXMT DDR5 Deep Learning Deep Seek DeepSeek Demand Response DFT DIO Double DQN DP DPO DQN Dross DSO Dueling DQN dumplings Dynamic Programming ESS ESS솔루션 EV FFC FFC체결여부 검사 garlic genesis Gongi Graph Enhanced RAG Health Horsetail Hot Areas how to speak well Human Feedback importance sampling Kitchen hoods Korean dumplings Korean Rice Cake Soup Korean Traditional Game Large Language Models LLM LSTM Machine Learning Interatomic Potential Mandy Material Development MDP MLIP MMFF94 Multi-step Modeling New Battery Materials NMP Recovery Nuts PCU Physical AI PID제어 ppm PPO Pre Cooling Unit pre training Precooling Unit Prophet Protein Q-Learning Quality Inspection Data Quality Management RAG Raw Garlic RCU React Heater REINFORCE REINFORCE학습 Reinforcement Learning Reliability Return cooling Unit RL RLHF RORL RUL방법 SARIMA SARSA SCM SCM 핵심 재무 지표 SEO SFT SHAP SHAP로직 small kitchen hoods squd Squid Game Stacking TD학습 Temporal Difference Tener Stack Time Difference Learning truthiness Ttakji Tteokguk VAR ventilations for small spaces Vision Water Z-Stacking