Как сравнить данные из файла и записать уникальные?

Olga93 · 17 Янв 2024

У меня в файле 100 записей url-ссылок, туда будут добавляться новые ссылки сразу по 10-20. Как сравнить данные и добавить только уникальные (без дубликатов) ссылок? Что-то вроде пересечения данных.

Вот файл ссылками data1.txt:

https://site.ru/592077

https://site.ru/581777

https://site.ru/795050

https://site.ru/458895

https://site.ru/591528

https://site.ru/353152

https://site.ru/681121

https://site.ru/921969

https://site.ru/722814

https://site.ru/994644

https://site.ru/909967

https://site.ru/947348

https://site.ru/845312

https://site.ru/678128

https://site.ru/215960

https://site.ru/281906

https://site.ru/368395

https://site.ru/725479

https://site.ru/483477

https://site.ru/922518

https://site.ru/951440

https://site.ru/208572

https://site.ru/446893

https://site.ru/816061

https://site.ru/203820

https://site.ru/449282

https://site.ru/190582

https://site.ru/159408

https://site.ru/684912

https://site.ru/519485

https://site.ru/248919

https://site.ru/499435

https://site.ru/904089

https://site.ru/841055

https://site.ru/706280

https://site.ru/233016

https://site.ru/720727

https://site.ru/485867

https://site.ru/297039

https://site.ru/907028

https://site.ru/444201

https://site.ru/775796

https://site.ru/905572

https://site.ru/918344

https://site.ru/833886

https://site.ru/782717

https://site.ru/366253

https://site.ru/913839

https://site.ru/399157

https://site.ru/928506

https://site.ru/563458

https://site.ru/190390

https://site.ru/799389

https://site.ru/285037

https://site.ru/231561

https://site.ru/294869

https://site.ru/543957

https://site.ru/174185

https://site.ru/354937

https://site.ru/524154

https://site.ru/392236

https://site.ru/567825

https://site.ru/567962

https://site.ru/625119

https://site.ru/653601

https://site.ru/987832

https://site.ru/955010

https://site.ru/794638

https://site.ru/287426

https://site.ru/506082

https://site.ru/250457

https://site.ru/779586

https://site.ru/503088

https://site.ru/444448

https://site.ru/338677

https://site.ru/776840

https://site.ru/259960

https://site.ru/774807

https://site.ru/854046

https://site.ru/533273

https://site.ru/767419

https://site.ru/119033

https://site.ru/980938

https://site.ru/245761

https://site.ru/984838

https://site.ru/249002

https://site.ru/353729

https://site.ru/561178

https://site.ru/321594

https://site.ru/686587

https://site.ru/856793

https://site.ru/776400

https://site.ru/437060

https://site.ru/503665

https://site.ru/324505

https://site.ru/638302

https://site.ru/740612

https://site.ru/122109

https://site.ru/641241

https://site.ru/343759

А вот пример где я добавляю новые ссылки.

PHP:

$arr = Array("https://site.ru/592523","https://site.ru/593212","https://site.ru/594532","https://site.ru/596432",
"https://site.ru/215960","https://site.ru/597323","https://site.ru/595631","https://site.ru/595212","https://site.ru/592345","https://site.ru/598742");

foreach($arr as $data)
{
  file_put_contents('data1.txt',$data."\r\n",FILE_APPEND);
}

Valick · 17 Янв 2024

Olga93 написал(а):
У меня в файле

А почему не в БД?

Olga93 · 17 Янв 2024

А почему не в БД?

Пока не работает, ошибку выдает. Времени нет исправлять.

c0dex · 17 Янв 2024

sort file | uniq > newfile и не пытаться решать это на пыхапе, ибо рано или поздно это встанет колом

Ну хотя бы sqlite взять какой

Valick · 17 Янв 2024

PHP:

<?php
declare(strict_types=1);

class UrlManager
{
    private string $fileName;

    public function __construct(string $fileName)
    {
        $this->fileName = $fileName;
    }

    public function add(string $url)
    {
        if ($this->check($url)) {
            return false;
        }
        $f = fopen($this->fileName, 'ab');
        if (fwrite($f, PHP_EOL . $url) === false) {
            throw new Exception('Не удалось записать в файл');
        }

        return true;
    }

    public function check(string $url): bool
    {
        $f = fopen($this->fileName, 'rb');
        if ($f === false) {
            throw new Exception('Не удалось открыть файл');
        }
        while (!feof($f)) {
            if (trim(fgets($f)) === trim($url)) {
                fclose($f);
                return true;
            }
        }
        fclose($f);

        return false;
    }
}

try {
    $fileName = 'data1.txt';
    $manager = new UrlManager($fileName);
    $manager->add('https://site.ru/368395');
    $manager->add('https://site.ru/new');
} catch (Exception $e) {
    echo $e->getMessage();
}

AnrDaemon · 18 Янв 2024

mv -b -- oldfile oldfile && cat oldfile~ newfile | sort -u > oldfile

ivanov77 · 19 Янв 2024

Я б убрал из файла вот эту часть строки - "https://site.ru/".
И можно было бы грузануть его всего через file(), а потом просто этот массив вычитать от добавляемого. Код не дам, сами должны такое уметь

c0dex · 19 Янв 2024

ivanov77 написал(а):
Я б убрал из файла вот эту часть строки - "https://site.ru/".
И можно было бы грузануть его всего через file(), а потом просто этот массив вычитать от добавляемого. Код не дам, сами должны такое уметь

решение не очень, так скажем, при росте числа строк - может случиться непредсказуемое))

ksnk · 20 Янв 2024

Сохранять как изображение массива php. Читать с помощью include. генерировать с помощью var_export. Ключи массива - нужные строки, так минимальными телодвижениями достигается уникальность.

PHP:

<?php
return [
'https://site.ru/592077'=>'',
'https://site.ru/581777'=>'',
'https://site.ru/795050'=>'',
// ...
];

Для небольшого файла с нечастой перезаписью будет относительно прилично работать...
Ну а так - найди время исправить ошибку работы с БД, иначе будешь искать время для отладки ошибок работы с большими файлами.

weregod · 21 Янв 2024

c0dex написал(а):
решение не очень, так скажем, при росте числа строк - может случиться непредсказуемое))

треснет по оперативке, очевидно, потому тупой подход поленился озвучивать

weregod · 21 Янв 2024

Так-то для извращенцев есть PHP: file - Manual , var_export() излишен )

Как сравнить данные из файла и записать уникальные?

Olga93

Новичок

Valick

Новичок

Olga93

Новичок

c0dex

web.dev 2002-...

Valick

Новичок

AnrDaemon

Продвинутый новичок

ivanov77

Новичок

c0dex

web.dev 2002-...

ksnk

прохожий

weregod

unserializer

weregod

unserializer