Judgement_Prediction

뉴스 기사를 이용한 범죄 분석 및 판결 예측 (20-2 데이터분석캡스톤디자인)

[Preprocessing]

1. 데이터 수집

네이버 뉴스에서 기사 제목, 본문, 날짜 데이터 수집

키워드: 무죄, 벌금, 집행유예, 징역, 무기징역

2. 데이터 전처리

1) 결측값

속보의 경우 기사 본문이 없음 → 전체 데이터의 7% 차지 → 제거

2) 불용어

( ), [ ], < > 등 특수문자가 포함된 단어
특수문자
한자어는 한글로 변환
이메일, OOO기자, O모씨, 날짜, 사진 등

3) 형량 추출

형량을 추출하여 모델의 label로 사용

4) 토큰화

KoNLPy의 Okt, Hannanum, Kkma을 이용하여 명사만 추출

(1) Okt

충북 장애인 부모 연대 사진 충북 장애인 부모 연대 제공 충북 장애인 부모 연대 몰카 범 기소 발달장애 판결 환영 고 이 단체 날 성명 통해 최근 성폭력 범죄 처벌 등 관 특례법 위반 혐의 재판 발달장애 를 선고 며 풀 수 천만다행 말 이 사건 신고 경찰 모두 지적 발달 장애인 행동 특성 이해 참극 라며 지적 발달장애 전담 사법 경찰관 조사해 신뢰 관계 동석 방어 보장 고 설명 발달장애 권리 보장 및 지원 관 법률 발달장애 대한 전담 사제 각 경찰서 발달장애 전담 사법 경찰관 배치 발달장애 특성 대한 지식 의사소통 방법 대해 정기 전문 교육 의무 명시 앞서 충주 경찰서 지난해 충주시 거리 스마트폰 횡단보도 여성 몰래 촬영 혐의 를 입건 의견 검찰 송치 이 과정 경찰 측은 발달장애 를 신뢰 관계 동석 조사 청주 지법 충주 지원 최근 재판 를 선고 재판 영상 이미지 중 피해자 차지 비중 작고 횡단보도 신호등 피고인 피해자 성적 수치심 만 영상 촬영 보기 고

(2) Hannanum

충북장애인부모연대 충북장애인부모연대 제공 충북장애인부모연대 15 몰카범 기소 발달장애인 판결 환영 단체 이날 성명 성폭력범죄 처벌 등 특례법 위반 혐의 재판 발달장애인 를 선고 며 억울 수 천만다행 이 말 사건 신고자 경찰 모두 지적 발달 장애인 행동 특성 이해 참극 이 지적 발달장애인 전담 사법경찰관 조사해 신뢰관계인 동석 방어권 보장 설명 발달장애 권리보장 지원 법률 발달장애인 전담조사제 경찰서장 발달장애 전담 사법경찰관 을 배치 발달장애인 특성 전문지식 의사소통 방법 정기적 전문 교육 의무적 명시 충주경찰서 지난해 15일 충주시 한 거리 스마트폰 횡단보도 여성 촬영 혐의 를 입건해 기소의견 검찰 송치 과정 경찰 측은 발달장애인 를 신뢰관계 동석 조사 청주지법 충주지원 재판 를 선고 재판부 영상 이미지 중 피해자 비중 횡단보도 신호등 피고인 피해자 성적 수치심 만한 영상 촬영 판시

(3) Kkma

충북 충북장애인부모연대 장애인 부모 연대 사진 제공 15 15일 일 몰 몰카범 카 범 기소 발달 발달장애인 판결 환영 단체 이날 성명 최근 성폭력 성폭력범죄 범죄 처벌 등 특례법 위반 혐의 재판 진 선고 수 천만다행 사건 신고자 경찰 모두 지적 행동 특성 이해 참극 전담 사법 사법경찰관이 관이 조사 신뢰 신뢰관계인 관계인 동석 방어 보장 설명 권리 권리보장 지원 법률 전담조사 경찰서 경찰서장 장 사법경찰관 경찰관 을 배치 전문 전문지식 지식 의사소통 방법 정기적 교육 의무적 명시 충주 충주경찰서 지난해 충주시 시 거리 스마트 스마트폰 폰 횡단보도 여성 촬영 입건 기소의견 의견 검찰 송치 과정 측 를 청주 청주지법 지법 충주지원 재판부 영상 이미지 중 피해자 차지 비중 작고 횡단 보도 신호등 피고인 성적 수치심 판시

4) 임베딩

TF-IDF를 이용하여 각 단어에 가중치 부여

TF: 문서 내 특정 단어의 빈도
DF: 특정 단어가 나타나는 문서 수

3. EDA

4. Prediction

1) Naive Bayes

Training set accuracy: 85.94%
Test set accuracy: 86.13%

2) Random Forest

Training set accuracy: 89.75%
Test set accuracy: 85.70%

3) MLP(Multi-Layer Perceptron)

Training set accuracy: 96.28%
Test set accuracy: 87.07%

4) SVM(Support Vector Machine)

Training set accuracy: 92.35%
Test set accuracy: 89.23%

5. 결론

토큰화 방법 모델 성능에 큰 영향을 미치지 않는다는 것을 알 수 있었음

Name		Name	Last commit message	Last commit date
Latest commit History 16 Commits
code		code
img		img
README.md		README.md

Provide feedback

Saved searches

Use saved searches to filter your results more quickly

Repository files navigation

Judgement_Prediction

1. 데이터 수집

2. 데이터 전처리

1) 결측값

2) 불용어

3) 형량 추출

4) 토큰화

4) 임베딩

3. EDA

4. Prediction

1) Naive Bayes

2) Random Forest

3) MLP(Multi-Layer Perceptron)

4) SVM(Support Vector Machine)

5. 결론

About

Releases

Packages

Languages

HyejuSeon/Judgement_Prediction

Folders and files

Latest commit

History

Repository files navigation

Judgement_Prediction

1. 데이터 수집

2. 데이터 전처리

1) 결측값

2) 불용어

3) 형량 추출

4) 토큰화

4) 임베딩

3. EDA

4. Prediction

1) Naive Bayes

2) Random Forest

3) MLP(Multi-Layer Perceptron)

4) SVM(Support Vector Machine)

5. 결론

About

Resources

Stars

Watchers

Forks

Releases

Packages 0

Languages

Packages