Может кто подкинет идейку.необходимо найти на странице сайта (любого) контент и выделить его.думала может путем сравнения 2-5 страниц одного сайта, путем разбивания html-код на слова и сравнивать их. Допустить процентную погрешность, например, 20 слов совпадают потом 5 нет и снова 15 совпадают, то все вместе считать идентичным. А то что в эту идентичность не вписалось то и будет контентов. Но боюсь, что разница в оформление страниц может быть слишком велика.Можно еще считать контентом то где, предположим на 200 символов не более 10% иностранныхМожет есть какой-нибудь скрипт или хотя бы идея???количеству проституток, считающих себя принцессами.
|