#!/usr/bin/env python
from __future__ import unicode_literals
 
from PyPDF2 import PdfFileReader
import re
import sys
 
pdf_file = sys.argv[1]

pdf_file = "/Users/mankoff/Documents/Papers/M/Mankoff/Mankoff_2013_The_Kinect_a_low-cost,.pdf"
 
doi_re = re.compile("10.(\d)+/([^(\s\>\"\<)])+")
input = PdfFileReader(pdf_file, "rb")
text = input.getPage(0).extractText()

m = doi_re.search(text)

doi = m.group(0)
doi = doi[0:40] # trim
doi = u''.join(doi).encode('utf-8').strip()

print(doi.decode('utf-8'))