[토이플젝/Python] 유튜브 댓글분석 프로그램 개발AI감정분석, CSV, 워드클라우드, 형태소분석 > 뉴스

본문 바로가기

뉴스

일간지 [토이플젝/Python] 유튜브 댓글분석 프로그램 개발AI감정분석, CSV, 워드클라우드, 형태소분석

페이지 정보

profile_image
작성자 Sparky
댓글 0건 조회 59회 작성일 24-11-16 00:35

본문

안녕하세요~​파이썬 워드클라우드 코딩이 생소하고 어려워 간단한 데이터 시각화조차 주저하고 계신 분들을 위해 오늘은 오로지 Chat GPT만을 활용하여 워드클라우드 그리고 네트워크 시각화를 해볼까 합니다~! ​​데이터 수집 (ft. 키프리스)이번에 분석해볼 데이터는 특허 심판 데이터입니다. 데이터를 얻기 위해서는 키프리스로 접속해줍니다.​키프리스 홈페이지 상단에 위치한 심판&quot탭에 들어가서 검색창에 RD(청구일자)=[20230101 ~ 20240916]에 입력하시고, 스마트 검색 창을 열어서 권리구분은 특허로 한정하고, 당사자구분은 당사자계로 한정해서 검색을 하면 1,240건의 데이터가 도출됩니다. ​​​이후 오른쪽 메뉴창에 온라인 다운로드를 눌러주시면 ​​위와 같은 창이 열리는데요. 빨간색 네모박스에 있는 사항을 클릭 및 체크 표시해주시고, ​​같은 창의 오른쪽 하단을 보시면 파일 생성&quot이라는 버튼이 있습니다. 해당 버튼을 클릭하면 바로 아래에 다운로드라는 버튼이 생기는데요. 다운로드 버튼을 클릭하면 1,240건의 심판 데이터 엑셀 파일이 다운로드 됩니다.​​​다운받은 파일을 열어 제대로 데이터가 있는지 한번 확인해주시고, 이제 본격적으로 Chat GPT로 해당 데이터를 전처리하고 시각화를 해보겠습니다. ​아래에 해당 데이터를 첨부해드리니 직접 분석을 해보고 싶으신 분은 다운받으시고 아래의 글을 참고하셔서 실습해보시길 바랍니다. ​​데이터 EDA (ft. Excel AI GPTs)​현재 저는 Chat GPT 유료 버전을 사용하고 있는데요. 유료 버전을 사용하면 다른 사용자들이 만들어놓은 GPTs를 이용할 수 있다는 장점이 있습니다. ​아쉽게도 무료 버전에서는 GPTs를 사용할 순 없다는 점 워드클라우드 참고 바랍니다. (GPTs는 일종의 플러그인 기능이라고 생각하시면 될 거 같습니다.)​많고 많은 GPTs 중에서 엑셀 데이터 처리 및 분석에 특화된 Excel AI&quot라는 GPTs로 데이터 전처리 그리고 간단한 분석까지 진행해보겠습니다.​​전처리를 하기 전에 첨부해준 데이터가 어떤 유형의 데이터로 구성되어 있는지 GPT에게 물어보겠습니다.​​오호.. 첨부해준 데이터가 어떠한 유형의 데이터인지 꽤 잘 파악하고 있는 것 같습니다.​​이번에는 심판 건수와 심판 종류 현황에 대해서 시각화를 수행해보겠습니다. ​​23년 1월 그리고 2월에 약 200여건이 넘는 심판 건수를 기록하다가 23년 3월 이후부터는 감소하는 추세를 보여주고 있네요.​​​심판 종류로는 권리범위확인 심판(소극적)이 제일 많이 발생했고 무효 심판이 뒤를 이어오고 있습니다.​​​그리고 심판이 가장 많이 발생한 물품으로는 벤즈이미다졸, DPP IV 억제제 제형, 제2형 당뇨병 치료용 약제학적 조성물 그리고 에피나코나졸 등으로 확인되었습니다.​물품명칭&quot컬럼 내 텍스트 워드클라우드 시각화 (ft. Excel AI GPTs)​Chat GPT에게 워드클라우드 시각화를 지시했을 때, 한글의 경우 폰트 파일을 넣어주지 않으면 글자가 깨져서 보이더라구요. ​그래서 저는 무료 폰트 파일(.ttf 형식)을 다운받아서 프롬프팅과 동시에 폰트 파일을 첨부해서 지시를 하니 아래와 같은 결과를 보여줬습니다. (무료 폰트 파일을 다운로드 받을 수 있는 링크는 아래에 첨부하였으니 참고해주세요~)​​1. 2023년 1월 ~ 2023년 12월 (물품명칭&quot컬럼의 텍스트 기반으로 워드클라우드 시각화)​23년도 심판 데이터 내 워드클라우드 물품명칭의 텍스트를 월별로 워드클라우드 시각화를 해보니 23년도 11월을 제외하고는 주로 바이오 분야의 물품과 관련된 심판이 주를 이룬 것 같습니다.​2. 2024년 1월 ~ 2024년 8월 (물품명칭&quot컬럼의 텍스트 기반으로 워드클라우드 시각화)​24년도에도 바이오 분야의 물품들이 보이긴 하지만 이차전지, 열교환기 그리고 가죽 라미네이팅 등 보다 다양한 물품들과 관련된 특허 심판이 이루어지고 있는 것을 볼 수 있었습니다.​물론 불용어 처리를 꼼꼼하게 하ㅈㅣ않고 약식으로 진행한 것이라 결과물의 설득력이 다소 떨어지지만 빠르게 월별 키워드를 파악해야할 때는 좋을 것 같습니다..! ​무료 폰트 다운로드 링크 ↓​서울 서체의 사용 Tip, 디자인파일 다운로드, 서울한강체, 서울남산체, 서울서체 비교, 서울 한강체의 특징, 서울남산체의 특징 정보​​데이터 전처리 ① - wide형에서 long형으로 데이터 형태 변환 (ft. Excel AI GPTs)이제 데이터 전처리를 해볼까요? 다운받은 심판 데이터 내 IPC 컬럼을 보시면 하나의 셀에 IPC 코드가 모두 들어있는 것을 볼 수 있는데요. ​이러한 wide형 데이터를 하나의 셀에 하나의 IPC코드가 들어가 있는 long형 데이터로 바꿔보겠습니다.​​​​​만들어준 데이터를 다운받아 확인해보니 정확히 제가 원했던 형태로 데이터를 만들어주었습니다!​​long형 데이터로 만들어진 상태에서 IPC코드의 빈도 현황을 파악해보겠습니다.​​빨간색 네모박스 부분을 클릭해보면 전체 코드별 빈도수를 볼 수 있는데요.​​살펴보니 1,240건의 심판과 관련하여 1,330개의 IPC코드가 포함되어 있네요.​​​간단히 IPC코드 빈도수 워드클라우드 Top10에 대한 시각화를 해보니 상위 6위까지의 IPC 코드 빈도수가 다른 IPC 코드의 빈도수 대비 특히 높은 것 같네요.​​IPC 코드별 기술내용 매칭 및 간단한 인사이트 도출 (ft. Excel AI GPTs)위에서 long형으로 변환해준 이유는 사실 지난번 cj바이오사이언스 포스팅 때처럼 각 IPC코드에 맞는 기술 내용을 매칭해주기 위해서 였는데요.​그때와 마찬가지로 같은 작업을 진행해보겠습니다. 다행히 이번에는 IPC코드 기재 양식이 동일해서 추가로 전처리를 수행할 필욘 없을 것 같습니다.​​​작업이 완료되었습니다. 결과물을 한번 확인해볼까요?​​​파일을 열어보니 IPC코드별 기술내용 매칭이 얼핏 봤을땐 잘 수행된 것 같군요. 그러면 매칭이 제대로 되었는지 몇 개의 데이터에 대해서만 검증을 해보도록 하죠.​​A61K9/28 .. 당의정피복된 환제 또는 정제 [2006.01]IPC 분류표 중 일부​A61P1/04 . 궤양, 위염, 역류성 식도염용 의약, 예. 제산제, 산분비 억제제, 점막 보호제 [2006.01]IPC 분류표 중 일부​C07D405/12 .. 사슬 결합으로서 이종원자를 함유하는 사슬에 의하여 결합하고 있는 것 [2006.01]IPC 분류표 중 일부​C07D409/12 .. 사슬 결합으로서 이종원자를 함유하는 사슬에 의하여 결합하고 있는 것 [2006.01]IPC 분류표 중 일부​A61K31/4184 ..... 탄소환과 축합한 것, 예. 벤즈이미다졸 [2006.01]IPC 분류표 중 일부​랜덤으로 5개 정도만 확인해보니 모두 제대로 매칭이 되었습니다. ????​그러면 매칭된 기술내용을 토대로 GPT에게 간단한 인사이트를 얻어 보겠습니다.​​아래는 GPT가 답변해준 내용입니다.1. 워드클라우드 벤즈이미다졸 관련 기술 (C07D409/12, C07D405/12, C07D235/06)벤즈이미다졸은 다양한 생물학적 활성 물질을 포함하는 화합물로, 특히 위장질환 및 항암제로 사용되는 약물의 성분으로 많이 쓰입니다. 이 화합물은 위염, 소화성 궤양, 역류성 식도염 등의 치료에 효과가 있으며, 그 자체로 신약 개발에 중요한 역할을 합니다.이 분류는 탄소 환과 이종 원자를 포함하는 고리형 화합물에 관한 것으로, 다양한 치료제 개발에 사용될 수 있습니다. 제네릭 약물 출시나 신약 특허 보호와 관련해 많은 분쟁이 발생하는 분야입니다.​2. 당뇨병 치료제 (A61P3/10)당뇨병 치료제는 혈당 조절에 필수적인 약물로, 현대 사회에서 그 중요성이 계속 커지고 있습니다. 이 기술은 당뇨병 치료제의 구성 성분과 작용 기전, 제형 등에 관련된 특허를 다루며, SGLT2 억제제, DPP-4 억제제와 같은 현대적 치료 방법이 포함됩니다.해당 분야는 당뇨병 치료제의 시장이 매우 크고, 치료제의 성분과 제형을 보호하는 특허가 많은 경쟁을 촉발하여 분쟁이 빈번하게 발생합니다.​3. 캡슐 제제 (A61K9/28)캡슐 제제는 약물 전달을 위한 주요 제형 중 하나로, 약물의 안정성과 흡수율을 높이는 방법을 제공하는 중요한 기술입니다. 특히 젤라틴 캡슐, 식물성 캡슐 등 다양한 종류의 캡슐이 존재하며, 약물의 특성에 따라 이를 적절히 사용하게 됩니다.이 분야에서는 주로 약물의 방출 속도 조절, 장용성 캡슐 등의 특허가 관련되어 있습니다. 신약 워드클라우드 개발에서 약물 전달 방식은 매우 중요한 요소이기 때문에, 이 분야에서도 많은 특허 분쟁이 발생합니다.​4. 위염 및 소화성 궤양 치료제 (A61P1/04)위염 및 소화성 궤양 치료제는 위산 분비 억제제와 관련된 약물들로, 대표적인 예로 **PPI(프로톤 펌프 억제제)**와 H2 수용체 차단제가 있습니다. 이러한 약물은 소화기계 질환을 치료하는 데 사용되며, 관련 특허는 매우 중요한 자산으로 여겨집니다.이 분야에서는 신약 출시에 따른 특허 보호와 제네릭 출시와의 분쟁이 빈번히 발생합니다. 특히, 위장약 시장은 큰 규모의 시장을 형성하고 있어, 이에 따른 경쟁이 치열합니다.​5. 제형과 관련된 기술 (A61K31/4184)약물의 제형은 약물의 안정성, 효율적인 전달, 적절한 방출을 보장하는 매우 중요한 요소입니다. 이 기술은 약물의 고체 제형, 정제, 캡슐 등의 형태에 대한 내용을 다루며, 특히 약물이 어떻게 체내에서 흡수되고 효과를 발휘하는지를 결정하는 중요한 분야입니다.특허 분쟁에서는 이러한 제형을 보호하는 특허가 많으며, 특히 제형 기술의 독창성과 효율성을 기반으로 경쟁이 이루어지기 때문에 제형 특허와 관련된 소송이 빈번합니다.​소결 : 이러한 기술들은 제약 산업에서 매우 중요한 역할을 하며, 특히 신약 개발과 제네릭 의약품 출시와 관련된 법적 분쟁이 자주 발생하는 분야입니다. 기술적으로 복잡하고 개발 비용이 많이 드는 분야이기 때문에, 각 회사는 자신들의 특허를 보호하기 위해 적극적으로 대응하며, 이에 워드클라우드 따른 분쟁이 자주 일어나고 있습니다.특정 기술 분야에 대해 더 깊은 분석이 필요하시거나 추가적인 질문이 있으시면 언제든지 말씀해주세요! 앞서 살펴봤던 '물품명칭&quot컬럼에 있는 데이터 현황을 통해서도 이미 확인했듯이 바이오 분야의 심판이 가장 많은 비중을 차지하고 있기 때문에 위와 같이 GPT가 답변을 해준 것 같습니다.​데이터 전처리 ② - 회사명 추출 및 (ft. Excel AI GPTs)​다운로드 받은 심판 데이터 내 청구인정보&quot컬럼 그리고 피청구인정보&quot컬럼에는 기업명, 주소 그리고 국적 등의 정보가 모두 하나의 셀에 들어있습니다. 해당 셀에서 기업명만 추출하기 위해선 별도의 엑셀 함수식을 사용하거나 파이썬 코드로 처리를 해줘야 하는데요. ​이제 이러한 작업은 Chat GPT가 쉽게 처리할 수 있습니다. 그 전에 우선 청구인 그리고 피청구인에는 대략적으로 어떤 회사들이 있는지 확인해보겠습니다.​​​깔끔하게 회사명을 가져와서 보여주네요..! 역시나 바이오 분야의 심판이 많기 때문에 청구 빈도수 1위는 제약회사인 주식회사 에이프로젠바이오로직스가 차지하였습니다.​​​피청구인 컬럼에서도 마찬가지로 회사명만 깔끔하게 추출해왔습니다.​​이번에는 Raw 데이터에서 제가 원하는 값만 가져와서 새로운 데이터를 만들도록 해보겠습니다.​​오호..제가 원하던 값만 가져와서 엑셀로 만들어줬습니다! ​이제 이 데이터로 청구인 그리고 피청구인 간의 관계를 보여줄 수 있는 네트워크 시각화를 한번 수행해보겠습니다. ​참고로 만들어진 데이터는 아래에 올려두었으니 네트워크 시각화만 해보고 싶으신 분들은 아래 파일을 다운받아 실습해보시길 바랍니다.​​청구인 워드클라우드 &amp피청구인 네트워크 시각화 (ft. 플랏봇 GTPs)​​원래는 위에서 계속 사용하던 ‘Excel AI’ GPTs를 이용해서 네트워크 시각화를 하려고 했는데 노드(원)의 한글 명칭들이 별도의 라이브러리 그리고 한글 폰트를 아무리 첨부해줘도 제대로 인식이 되질 않더군요..ㅠ ​그래서 네트워크 시각화는 ‘플랏봇’ GPTs를 이용하여 바로 위에서 만들어준 데이터를 기반으로 청구인 그리고 피청구인 간의 네트워크 시각화를 해보겠습니다.​​바로 위에서 만들어준 데이터의 청구인 그리고 피청구인 컬럼에 대한 단어쌍 빈도수를 계산해줍니다. 그리고 계산이 완료되면 이제 네트워크 시각화를 GPT에게 그려달라고 부탁하면 됩니다. 쉽죠? ㅎㅎㅎ​​​국내의 많은 제약사들이 에이치케이이노엔 이라는 회사를 상대로 많은 심판을 청구했었네요. 그 외에도 많은 관계들이 있겠지만 그래프의 가시성을 높이기 위해 노드의 숫자를 적절히 조절하였습니다.​또한 레이아웃 형식, 엣지 선 스타일, 노드 간격 등등 프롬프트로 세부적인 것들은 말해주면 그에 맞게 조정을 해주니 참 편한 거 같습니다. ​사실 Chat GPT가 네트워크 시각화까지 보여줄 수 있을까 반신반의 였는데, 간단한 프롬프팅으로도 어느 정도 제가 원했던 수준의 결과물이 나오네요.​물론 아직 사람이 직접 뽑아내는 수준의 결과물이 나오기엔 부족함이 있습니다만 조금 더 세세하게 프롬프팅을 해주던지 혹은 Chat GPT 버전이 올라가면 언젠가 사람이 하는 수준의 결과물을 도출해주지 않을까 생각되네요.​긴 글 읽으시느라 고생하셨고 오늘은 여기까지 하도록 하겠습니다~!

댓글목록

등록된 댓글이 없습니다.


Copyright © ssil.khu.ac.kr All rights reserved.