Action Classification -1

Task

  • 왜 CT 이미지가 아니라, CT 비디오일까?

    • 나의 생각 : 단지 CT 1장의 사진으로 질병을 판단할 수 있는 것이 아니다. 폐의 창상, 가슴막, 기도, 양쪽 폐사이의 종격막, 혈관, 심장, 부드러운 조직, 뼈 등 각 관점에서 보아야 하는 종합적인 시각이 필요하기 때문에, 여러장이 필요한 것이다. 하지만, 특정 질병은, 단 몇 프레임으로 판단 가능하긴 하다. (참고 : https://www.youtube.com/watch?v=rfv85Wp4nNo)

Spatial & Temporal Feature

  • 본 데이터는 Temporal한 Feature와 관련이 있을까?

    • 나의 생각 : CT가 여러장으로 3차원을 만드는 것이지, 시간의 흐름과 관련이 없다.

    • 나의 가설 : 시간의 특징을 잘 뽑으려는 기법들보다 CT 1장 1장의 공간적의 특징을 잘 추출해주는 기법들이 더 중요할 것으로 보인다. 따라서, 시도해보고 싶은 아이디어 정리 ! (기존 성능은 88.6% )

모델

설명

생각하는 정확도 수준

날짜

C3D(3nets+linear SVM)

채널의 깊이를 조절에 가면서 정확도 상승 포인트 찾기/deconvolution해보기 /linear SVM, softmax 비교 / 처음에 하기 가장 쉬워보임.

85

~12/7

내생각

각각의 이미지에 다른 커널을 적용하여, 컨볼루션에서 합치지 않고, FC Layer까지 가는 모델

비교적높음

~12/14

LRCN

이미지 장당 cnn을 해서 좋게 봄.

높음

Two stream

장당이랑 시간이랑 같이 고려해서 좋게 봄

높음

~12/28

CT 데이터 정의

  • Data 에 대한 정의 : 이 프로젝트에서 다루는 CT 데이터는 아래 3가지 항목에 속하지 않는다. 본 데이터는 Height * Width * CT장수 이다. multiple image frames..?

    • 흑백 이미지 : Height * Width

      • 2D conv 사용

    • RGB 이미지 : Height * Width * channel (color)

      • 2D conv on multiple frames 사용

    • RGB 비디오 : Height * Width * channel (color) * time

      • 3D conv 사용 -> 3*3*3 필터가 가장 좋은 성능을 보였다. RGB채널이 3채널이기 때문에 3으로 둔것이 가장 좋은 성능을 보인 것 같다.

Video Classification 계보 요약

선형분류기 선택 : http://aikorea.org/cs231n/linear-classify/

3DCONV : https://www.slideshare.net/SungminYou/learning-spatiotemporal-features-with-3-d-convolutional-networks?ref=https://cdn.iframe.ly/

Action Recognition 계보 영상 : https://slideplayer.com/slide/3532039/

C3D코드 : https://github.com/facebookarchive/C3D

콘볼루션 MXNET 구현 : https://d2l.ai/chapter_convolutional-neural-networks/channels.html

Last updated